中科聞歌:場景驅動企業級決策大模型價值綻放
人工智能(AI)是發展新質生産力的重要引擎,AI輔助認知和決策領域的市場潛力巨大。為解決認知與決策智能領域的重大産業缺口,中科聞歌順勢而為,緻力于場景驅動型企業級決策大模型的研發與應用。中科聞歌依托創立初期的平台與系統探索,成功将其應用于公共場景,再拓展至頭部企業,實現了多元場景化應用。面對通用大模型帶來的挑戰和短闆痛點,中科聞歌自主研發企業級決策大模型雅意1.0,逐步演進至2.0,賦能政府、企業及個人的智慧決策。未來,中科聞歌也需擁抱新挑戰,以創新引領AI由感知向決策的範式躍遷。
文 / 尹西明、朱益瑤、蘇雅欣、李紀珍
以人工智能(AI)為代表的颠覆性技術,正加速重塑生産、生活和社會結構,其在感知、認知、決策及執行等環節的應用,是效率革命和新質生産力持續湧現的重要引擎。自2023年初OpenAI發布的ChatGPT“出圈”爆火後,人工智能行業進入以生成式人工智能(GenerativeAI,簡稱GenAI)大模型為代表的新一輪突破性發展階段,國内外企業紛紛積極搶占大模型發展先機,持續投入且成果頻頻。在技術快速發展的同時,AI産業也面臨新的機遇與挑戰。大模型尚處于從感知AI向決策AI演進的關鍵時期(見圖1)。感知智能已取得成熟應用,認知智能正在加速商業化進程,而決策智能由于能夠進行複雜的決策制定,為傳統産業智能化升級提供更直接的驅動力,完成職業增強或替代從而實現降本增效和産業躍遷。以平台為中心的決策智能将成為AI技術研發與成果落地的新興趨勢。
此外,大模型在多數領域尚不能實現對小模型的完全替代,大小模型将長期并存且相互融合,形成互補優勢,共同推動産業智能化發展。“一場景一訓練一模型”的定制化需求在企業運營的特定環節也發揮着重要作用。AI企業亟需深入探索和突破輔助決策的大模型,并面向特定場景把模型做“小”,精準輔助企業智慧決策。
因此,瞄準AI産業發展缺口與企業轉型重大場景問題,中國科學院自動化所互聯網大數據研究中心于2006年成立後,聚焦大數據與AI基礎研究與技術積累,并在2017年由團隊帶頭人曾大軍和王磊、羅引博士聯合創立北京中科聞歌科技股份有限公司(以下簡稱“中科聞歌”),緻力于學術研究向産業化賦能的探索。
在學術創業到企業成長過程中,中科聞歌深刻把握數據智能向決策智能的發展趨勢,以場景應用為牽引,依托數據操作系統“聞海”、領域大模型“雅意”、決策引擎“天湖”等産品,圍繞認知與決策基礎平台DIOS,創新AI技術與複雜場景适配的工程技術方法,結合領域專業知識構建了“模型算法—行業理解—場景應用”的完整體系,面向媒體宣傳、城市治理和金融等多領域打造高效、經濟的輕量化企業級大模型,提供大數據與AI基礎平台與解決方案,實現了大模型技術與應用場景的深度融合,成為場景驅動企業級大模型價值綻放的典型(見圖2)。
截至2023年底,中科聞歌已服務政府和企業客戶千餘家,在媒體、社會計算、治理、金融等多元化場景落地應用,逐步建立起以頭部企業為核心、向産業鍊延伸拓寬的生态體系。公司有40多位博士團隊,研發人員占比逾70%,基礎能力研發人員占比超過30%,擁有核心專利和各類軟著專利等自主知識産權一百餘項,已發表六百餘篇論文,自主研發核心算法數千個,相關科技成果獲國家及省部級榮譽二十餘次,産品競争力得到行業和國家的認可。2021年,中科聞歌入選工信部第三批專精特新“小巨人”企業,2022年,“紅旗”多模态融媒體數據智能分析平台榮獲2022數博會領先科技成果獎,2023年,中科聞歌榮獲“2023直通烏鎮”全球互聯網大賽二等獎。2024年,在賽迪研究院發布的《2023中國人工智能大模型企業綜合競争力50強研究報告》中,中科聞歌獨立研發的雅意大模型位列第19名。在資本市場上,中科聞歌也頗受矚目,截至2023年底,已累計完成6輪超十億元融資,獲深創投、中科創星、中國科學院資本、金科君創、國開金融等多家知名投資機構投資。
十年潛心科研後,三位聯合創始人為何選擇走出象牙塔,從學術科研院所走向市場?深耕認知與決策智能的中科聞歌何以在AI大模型的激烈競争中站穩腳跟,實現場景驅動的企業級大模型價值綻放與創新發展?未來中科聞歌又該如何把握技術和産業變革新機會,做優做強并走向世界舞台?作為認知與決策智能的先鋒探索者,中科聞歌技術與場景的創新融合探索不僅具有重要的管理啟示,更為場景驅動AI創新與賦能新質生産力發展提供了新模式。
創業探索:面向重大場景問題驅動人工智能學術創業
十年基礎研究,技術之基穩築成
自2006年起,中國科學院自動化所互聯網大數據研究中心經過十餘年發展,形成了一支由曾大軍研究員為領頭人的科研團隊,深耕于安全信息學和社會計算領域。聞歌的三位聯合創始人均是中國科學院自動化研究員,董事長王磊博士在自動化所積累了十餘年的豐富經驗,入選全國青年崗位能手與海英人才計劃;首席執行官羅引博士入選北京市科技新星計劃;首席科學家曾大軍教授是中國科學院自動化所副所長,不僅是安全信息學科的創立者,更是社會計算研究的主要推動者。高管團隊也大多擁有超過十年的研究積累。十年沉潛,團隊在大數據與AI領域基礎研究中取得突破,也積累了豐富的技術經驗和項目管理能力,使得中科聞歌創業團隊構築起人才與技術的雙重壁壘,成為認知與決策智能領域的國家隊。
啟航媒體場景,平台系統初建成
2017年3月,中科聞歌正式成立,王磊任董事長,羅引擔任CEO,公司定位于AI知識與決策智能平台型企業。中科聞歌團隊的學術創業背後離不開體制機制改革的支持。“國家允許科研人員保留科研崗位離崗創業,為把科研‘點’上的突破連成‘面’上的産品應用提供了機會,産業化平台中科聞歌也是在此背景下孵化而生”,中科聞歌執行總裁曲寶玉說道。
創立伊始,中科聞歌在主營業務領域的選擇遵循三大核心原則。一是緊密圍繞國家重大發展戰略,特别是智能認知與決策等受到國家政策大力支持、對構築國家競争優勢起到關鍵作用的AI新興産業。二是緊密關注前沿科技趨勢,重點聚焦AI大模型等關鍵領域,瞄準産業發展缺口,搶抓未來産業先機。三是感知傾聽市場的聲音,以場景需求為依據精準定位業務方向。
2017年,互聯網和新媒體迅猛發展,傳統媒體面臨巨大轉型壓力和挑戰,迫切需要新興數字技術以加快傳統媒體向新媒體融合轉型。聞歌看中了媒體行業的巨大發展潛力,率先将戰略目光聚焦到泛媒體行業,主要面向中央和地方媒體推廣成熟的媒體大數據産品,同時輻射對媒體内容、傳播影響有需求的政府和企業市場。2017年,中科聞歌的相關産品已在工信部、海關總署、新華社、招商銀行、比亞迪等五十餘家政企客戶得到廣泛應用和檢驗,奠定了創業發展基礎。2018年,中科聞歌又推出認知計算驅動的大數據産品——深度超級智算平台“天湖”和全球多語言泛媒體大數據平台“聞海”,賦能政企客戶實現人機共融智能決策,将數據要素轉化成商業價值。
擁有技術底座與前期在媒體領域沉澱的政府客戶資源,中科聞歌進一步提出基礎平台賦能泛行業的設想,應用場景從媒體領域不斷拓展,面向數智媒宣、數智城市、數智金融與稅務、數智商業四大場景和二十六個細分行業提供産品和解決方案,抓住時代機遇,迎潮而上。
平台系統布局,政企客戶深應用
以初期的“聞海”“天湖”為能力基座,中科聞歌又将場景與技術結合,實現平台産品的場景化,推出領域AI系統應用。如面向媒宣場景的“紅旗”融媒體平台、面向社會計算場景的“晴天”多模态信息分析平台、面向金融場景的“天鏡”金融知識圖譜平台等。此外,中科聞歌注重人才的多元化,圍繞“産品化”“市場化”對人才實施精細化管理,強化技術思維與市場思維的融合,并不斷完善市場化營銷體系的搭建。憑借在政府客戶中積累的經驗與口碑,中科聞歌開始面向商業化場景,逐步從G端向B端企業客戶拓展,服務支撐九十多家央國企單位,一千多家大中型企業,覆蓋銀行、券商、基金、教育等多個領域,并通過企業客戶的拓展反哺企業工程化與産品化能力,逐漸形成成熟的商業模式。
創新突破:面向AI場景化難題推出企業級決策大模型
AI大模型憑借其卓越的理解、記憶、生成和泛化能力,帶來了“基礎模型+各類應用”的新範式,為産業智能化拓展了新空間。然而,目前通用AI大模型普遍面臨算力成本高、算法“黑箱”、 難以商用化或私有化部署、高質量領域數據缺乏和專業知識弱等制約産業發展的痛點。因此,瞄準大模型量産和能力複用瓶頸,聞歌選擇不唯參數規模,做“小”做“精”做“深”大模型,打造更高效、更經濟的輕量化企業級模型的發展路線,以期實現“AI賦能百行千城萬企”的美好願景,并于2023年6月3日發布企業級專屬大模型——雅意。
自主研發,技術築基
中科聞歌是社會計算和安全信息學領域的主要推動者,在深度語義理解、領域社會計算方面擁有多項核心專利。在AI工程創新方面,團隊基于可控内容生成、主動學習和多模态思維鍊學習技術,研發出安全可控的企業級雅意大模型和DIOS認知與決策基礎平台,提升了模型與系統的可信度和可解釋性。
聞歌還通過開發具有自主知識産權的“知識與決策”技術譜系,掌握了感知—認知—決策的全鍊路技術。在決策層面,公司研發的多模态知識融合決策技術,能夠有效整合數據與知識資源,支持場景驅動的決策制定。在認知層面,多模态内容智能生成技術能夠生成高質量的文本和視覺内容;此外,智能理解技術能夠進行跨模态的語義分析、信息傳播的追蹤與溯源等。在感知層面,泛媒體數據管理技術具有強大的數據管理和服務能力(見圖3)。
雅意大模型自首發以來,經過持續疊代,于2023年12月發布擁有數據、模型、應用全自主知識産權的2.0版本。相較于1.0,雅意2.0大模型的參數規模、詞表與上下文窗口均得到顯著擴展,支持128k長文本閱讀和多輪對話,還支持多模态智能交互和智能插件調用。通過大量實驗證實,其整體性能顯著優于同參數級别的開源模型,在多項評測榜單排名前三,成為企業優化資源配置、科學決策的有效工具,幫助客戶實現降本增效。
可信語料,可靠模型
語料庫是大模型訓練和優化的“養料”, 然而,當前我國AI發展所需的高質量語料數據相對匮乏,還存在數據不完整、标注不一緻、更新不及時、信息不準确甚至違法的語料安全問題。所以,擁有安全可靠的訓練語料對國産大模型來說尤為重要。中科聞歌與北京智源研究院等單位合作,共同建立“中文互聯網語料庫”(Chinese Corpora Internet,簡稱 CCI)。該語料庫的數據來源于中國境内高質量可信的互聯網站,經過嚴格的數據清洗和去重處理,同時在内容質量和價值觀等方面進行針對性檢測和過濾,以提升數據質量和安全可信程度。開源可信中文互聯網語料庫CCI的建立不僅是中科聞歌自主探索的典型案例,還有助于雅意大模型的訓練和應用。
在訓練語料方面,雅意大模型基于240TB多源基礎數據,一千餘道數據清洗工序,實現将冗餘、高困惑度、低信息熵、涉及個人隐私、與主流價值觀不符的數據進行有效去除,最終萃取出2.65萬億Tokens高純度高質量預訓練數據集,确保訓練數據語料的安全可控。
在應用模式方面,雅意大模型支持數據私有化部署,并能根據企業特定需求進行定制化專屬訓練,以滿足客戶對業務數據保密性和數據所有權的高要求。為簡化企業的技術門檻,中科聞歌還推出基于雅意大模型的智能軟硬件一體機,定期更新模型版本并遠程協助企業完成疊代優化。此外,雅意大模型還提供API接口和SaaS賬号服務,使企業低門檻、低成本、高效率地集成AI技術。将模型與企業數據緊密結合構建出高度可用的智能服務,既滿足企業的業務需求,又能防止敏感數據洩露,為企業的智能化轉型升級提供有力支持。
深耕場景,能力生長
不同行業具有複雜且差異化的知識結構和龐大的信息量,面向垂直場景的領域大模型成為激活和發揮數據潛在價值的關鍵工具。雅意大模型作為企業級專屬大模型,經過多輪疊代測試,已經形成包括實時聯網問答、領域知識問答、多語言内容理解、複雜場景信息抽取、多模态内容生成的五項核心能力,以及一百多個特色技能(見圖4)。在這些通用能力之上,中科聞歌将業務觸角延伸到GI(政府智能)和BI(商業智能),專注于媒體創作、智慧金融、社會治理等關鍵領域,大幅提升模型精度,可快速對接政府、企業數據并一鍵生成大模型專屬應用服務。雅意大模型在多個領域中落地,其核心競争力在于将技術與場景結合,獲得豐富的領域深度認知,持續沉澱和催生新能力。
作者已有研究提出,對行業發展的具象化認知會幫助企業獲得更多場景知識和經驗積累,并通過互動反哺産品研發的連續性,增強技術與商業模式創新結合的緊密度。
中科聞歌十年來紮根多個行業深入學習,通過早期研發的大數據平台在行業和頭部企業的應用中積累産業數據資源,獲得了獨特的行業“know-how”。其對行業發展趨勢擁有具象化認知,能夠更加敏銳地感知外部信息,準确把握行業發展趨勢,并與行業生态中其他參與者增加互動,從而保持與行業的緊密結合。這種緊密結合有助于深入了解客戶需求,并注重開發滿足用戶需求的産品,以縮小技術與應用場景之間的差距。雅意大模型針對特定領域需求如數據庫、語料庫、知識庫進行訓練和優化,通過深入領域場景知識的萃取和領域專家的反饋調優,提升應用專業度與行業客戶滿意度。技術能力與領域知識的融合,不僅使得雅意大模型能夠更好地滿足客戶需求,也為公司在激烈的市場競争中赢得了先機。未來随着對行業理解的日益深入,雅意大模型有望在更多場景中實現應用落地,創造更多下遊任務。領域工程聚焦于将行業模型參數規模做小,決定大模型落地到行業的效果。雅意大模型通過縮減參數規模,在企業級應用中更加精準高效,成為“大模型之上的模型”。
價值綻放:場景驅動企業級大模型落地
目前,場景驅動創新成為AI産業發展的重大範式機遇。作者已有研究提出,場景驅動創新強調從場景中的複雜綜合性需求出發,超越技術驅動的線性邏輯,能夠整合協同多種創新要素,高效匹配技術與場景,破解AI技術創新與産業化瓶頸。AI科技企業亟需以人工智能技術與産業融合創新為導向,聚焦産業智能化場景創新需求,推動創新進程中多層次、多主體、多功能以及多要素的融合,最終實現應用疊代和創新躍遷。基于場景驅動創新研發與應用,中科聞歌在雅意2.0基礎上,推出以安全可靠為核心特色的企業級大模型體系,面向媒體、金融、政務等場景構建行業大模型應用。
媒體場景:大模型+平台提升決策力、生産力、創造力
在媒體場景,雅意大模型已搭載在中科聞歌紅旗融媒體智能平台,可提供選題決策、輔助寫作、多模态内容生成、内容安全審核等服務,賦能媒體融合創新發展。雅意大模型與聞海媒體大數據相結合,基于全網熱點傳播數據進行自動智能分析,輔助用戶發現選題線索并快速了解報道核心,提升選題決策的質量和效率。此外,紅旗平台的AI輔助創作功能,如自動生成大綱、自動寫作和繪圖,簡化了内容創作的過程,提高了生産力和内容質量。
“雅意大模型在服務黨政媒體、行業媒體、企業級媒體的決策力、生産力、創造性方面,起到了非常好的支撐作用”,聞歌數智媒宣事業部總經理王一剛表示,“雅意大模型是具有主流價值觀的安全大模型,讓媒體人使用得更放心。”
金融場景:大模型助力金融企業決策精準高效
為解決企業端信貸的風險控制問題,中科聞歌為北京銀行定制基于大模型的AI訓練平台,能夠實時微調風控模型。此外,AI訓練平台還能利用大模型提供企業信貸盡調報告生成服務,更加準确地評估客戶的信用情況,使貸款決策更為精準快速,極大提高工作效率。面向VC/PE業務場景,中科聞歌正在為某頭部投資機構開發可在本地化部署的AI平台。該平台通過大模型技術處理和分析用戶的曆史投資數據和相關文檔,自動産生結構化的投資報告,并提供自動問答功能,極大節省投資人員閱讀文檔的時間,提升投資決策的效率和精準度。
中科聞歌還聯合某大型券商開展内容合規審核服務的研發,利用大模型驗證研報信息的準确性和來源,排查敏感信息和虛假内容,并高亮顯示研報中的政策或觀點沿用情況,有效提升證券的财經内容管理效率,确保發布觀點的快速性、一緻性和準确性。
中科聞歌的企業級大模型還助力監管機構高效監控上市企業的外部宣傳合規情況。通過大模型自動識别并标注可疑違規信息,随後由人工複審确認,輔助監管機構快速做出響應。基于大模型的内容合規審核服務既可以為企業提供保護,成為企業的“盾”,同時還便于監管機構規範市場,保護投資者利益,成為監管機構的“矛”。
政務場景:大模型+平台賦能信息決策
依托雅意大模型技術能力,中科聞歌全面升級“晴天”大數據洞察平台,目前已為新華社、北京冬奧組委、中建集團、中信銀行等政府或企業頭部客戶,提供全媒體、多模态的輿情信息監測和傳播影響力分析等服務,幫助客戶實時感知數據,深度洞察數據價值。
針對網上突發的熱點事件,在短時間内可快速生成包含事件概要、輿情熱點、各方觀點反應、輿情風險的報告,有效支撐輿情應對決策制定。同時,平台支持網站、新媒體、短視頻等全渠道監測,提供智能搜索、一鍵翻譯、可視化深度分析等服務, 還可7*24小時全渠道自動巡查、預警,幫助用戶及時掌握輿情動向,做出有效應對。
大模型的場景化應用培育創新生态飛輪
人工智能産業以算力、算法、數據為核心支柱,其中“算力”依賴基礎性研究開發 ,“算法”聚焦知識學習和技術創新,“數據”彙聚于場景生态。由此可見,大模型的場景化應用源于基礎研究,落于需求場景,關鍵在于科技創新與成果轉化,核心邏輯在于以技術賦能新業務、新業态和新産業,再以場景驅動技術優化疊代,打造創新生态飛輪,引領産業智能化躍遷。
其中,基礎研究是形成前沿技術優勢的根本途徑,是技術工程問題的總機關。隻有持續做強基礎理論研究,不斷激活原始創新的源頭活水,才能為科技自立自強夯實根基,為科技強國建設打牢地基。中科聞歌依托核心團隊成員十年的基礎理論研究、技術和能力積累,開始了其學術創業征程。自2006年起,聞歌一直專注于領域大數據理解和AI創新賦能。自2012年開始,聞歌敏銳把握機遇,積極與中宣部、新華社等政府客戶合作,以泛媒體行業為市場切入點,迅速在全國範圍内樹立起了顯著的品牌影響力。通過技術的疊代,對技術的應用形成了正循環,随後,逐步将業務重心由媒體場景延伸至社會治理、金融等領域,實現從單一頭部政府客戶到廣泛B端企業客戶的拓展,覆蓋20多個行業,近千家企業級客戶,形成了廣泛的行業頭部客戶積累。
随着場景的拓展,中科聞歌又逐漸構建平台能力,基于“聞海”“天湖”等基礎數據平台,推出行業級AI系統應用,形成DIOS認知與決策智能基礎平台,使平台系統建設不斷完善。中科聞歌在業務場景中不斷成長,深化對行業的理解,與政企客戶建立長期且緊密的合作關系,共同創造價值。政企客戶從高質量的領域數據資源和海量的應用場景方面給予中科聞歌支持,中科聞歌所提供的數據平台與配套服務直接賦能政府和企業降本增效。
此後,面對大模型快速發展的新機遇,中科聞歌抓住了大模型這一突破口,依托多年行業深耕所獲得的領域專業知識和高質量數據資源,将其作為AI大模型語料訓練的“養料”,迅速建成了安全可靠的企業級大模型“雅意”。
場景驅動創新既是将現有技術、數據、産品和服務應用于特定領域或場景,實現更大價值的過程;更是基于未來趨勢,以批判性思考和想象力建構和解析未來場景,凝練科學問題,發現颠覆性技術創新機會,突破現有瓶頸,創造新技術、新産品乃至開辟新市場、新領域的過程(尹西明等,2022,2024)。現在,中科聞歌堅持“一個産品”基座,圍繞認知與決策智能平台DIOS,向具體場景落地應用進行微研發,又利用大模型的遷移學習能力在更多領域任務中實現泛化,讓AI在更多的行業推廣和融合(見圖5)。近年來,中科聞歌的客戶逐步從G端和大B端下沉,公司也能通過輕量級服務的方式,為中小企業提供服務。與此同時,雅意大模型的核心能力也在場景化應用中得到鍛煉,進一步疊代升級,實現了大模型的場景化應用對自身與千行百業萬企的雙向賦能。
概言之,聞歌以基礎研究、高質量領域數據、應用場景為核心,形成場景驅動技術升級、産品創新、價值綻放、客戶拓展、應用拓展的企業創新生态飛輪,持續推動業務在更多場景中綻放出新的價值(見圖6)。
2024年初,國家數據局等部門聯合印發了《“數據要素×”三年行動計劃(2024—2026年)》,旨在促進數據多場景應用以及多主體複用,培育基于數據要素的新産品和新服務,以實現數據要素乘數價值,為新質生産力提供新動能。
中科聞歌從2006年至今,抓住國家創新創業大潮,互聯網和新媒體、大模型迅速發展的前沿趨勢,把握“學術基因”“技術能力”“場景數據”三個關鍵,在技術研發、場景問題、用戶需求的互動中不斷疊代産品能力,适時調整業務模式,以飛輪旋轉的方式在技術和市場兩個方向上同時進步,跨越學術創業的“死亡之谷”(見圖7)。企業級決策大模型的創新創業之路,激活了高質量領域數據的價值,在企業層面加速推進“數據要素×”行動,以AI大模型能力賦能百行千城萬企。這一深耕場景的創業模式不僅使其成為認知與決策智能領域的先鋒探索者,也為其他AI企業,尤其是學術創業企業提供有益參考。
未來展望
AI大模型為數字經濟帶來無限可能,其在吸引全球目光的同時,也引發各國政府及科技界對安全、倫理、道德等方面的擔憂。全球面臨AI産業賦能及安全監管的主要矛盾,受限自身算力基礎設施不足、數字經濟産業發展規模小等問題,多國獨立發展AI大模型存在困難。站在AI技術從感知到認知再到決策演變的關鍵節點,加強企業與外界的互動,快速尋找新的場景并落地,同時出海拓展商業機會,讓技術與市場保持螺旋式上升狀态,必将成為AI企業發展和持續創新躍遷的主流趨勢。中科聞歌目前已在國内15個核心城市部署了子公司,并積極開展海外布局,服務“一帶一路”倡議。
展望未來,如何以聞海大數據平台、雅意大模型、DIOS數智平台這三大産品為核心,賦能感知、認知到決策的整個産品體系,實現面向場景的決策智能模型疊代,驅動決策智能和行動智能,實現從AIGC(Artificial Intelligence Generated Content)到AIGD(Artificial Intelligence Generated Decision)再到AIGA(Artificial Intelligence Generated Action)的躍遷,是中科聞歌能否在激烈的 AI産業競争中持續成長的關鍵。唯有持續創新,才能穩步邁向全球領先的認知決策智能企業,成為服務新質生産力和人類發展的AI先導力量。
尹西明:北京理工大學管理學院副研究員,碩士生導師
朱益瑤:北京理工大學碩士研究生,通訊作者
蘇雅欣:北京理工大學碩士研究生
李紀珍:BETVLCTOR伟德官方网站教授,博士生導師。
責任編輯:高菁陽
來源:《清華管理評論》2024年5月刊