AI時代如何構建數據飛輪

2024-04-30

閱讀：

AI時代如何構建數據飛輪

随着AI時代來臨，以緩慢的知識循環為基礎的數據飛輪，已經無法滿足企業需求，企業亟需一套全新的收集與使用數據的方式來激活數據飛輪，提升數據要素在企業發展中的作用。

文 / 王子陽、朱武祥、李浩然、阮申豪

2023年12月的中央經濟工作會議重點提出要發展數字經濟，加快推動人工智能發展，促進産業升級。國務院印發“十三五”、“十四五”的數字經濟發展規劃，以及近期國家數據局等十七部門聯合提出“數據要素×”三年行動計劃，都将數據視為重要生産要素，希望釋放數據要素促進高質量發展的潛力。

數字化提升企業競争優勢已經成為事實，如能以更低成本、更快速度響應市場，産業鍊更透明、更協同等。對于數據要素如何提升企業競争力，目前的讨論更多關注外部數據的交易維度，但企業最核心、最可獲取的數據來源于自身的經營過程。因此，一方面，要更加關注企業業務環節和管理環節的數據生成和存儲，利用數據完整映射出真實的業務情況并妥善儲存，保證有實時、充足、全面且方便調取的業務數據；另一方面，要關注外部相關數據的有效獲取，并将其與企業自身數據有機整合，從而拓寬并深化數據資源的覆蓋範圍和信息深度，在業務中建立人機協作的環境，打通數據輔助決策、輔助業務的應用路徑。

數據輔助業務，業務産生數據，數字系統及AI在企業的運作邏輯可以看作是數據和業務間的循環。這個循環存在正反饋屬性：更大的數據量、更深入業務細節的數據映射更能強化AI決策的精準度與适應性，提升業務決策質量；在AI輔助下，業務決策、執行效率提升的同時也會沉澱更豐富、更匹配AI需求的業務數據。我們提出“數據飛輪”概念來描述數據和業務間的這種正反饋循環。

數據飛輪轉動快慢很大程度上會影響企業的競争力。企業提供給AI的數據越豐富準确，AI的效率和決策效果越好，産出的有效數據就越多，飛輪轉動得就越快。值得注意的是，驅動AI工作的數據不局限于量化的數字，大數據技術定義下的數據包含數據、信息、知識三個方面。人在理解時會将三者作區分，但對機器來說都是0和1構成的序列數據。随着AI技術尤其是大語言模型的發展，計算機能夠更低成本地理解以自然語言存儲的企業知識，AI原料供給更加直接，人機交互更加便捷。

然而，現有大部分企業的數據與業務之間并沒有形成有效飛輪，究其原因，一方面是企業的數據收集體系不夠完善，另一方面是企業尚未建立有效利用數據輔助決策的體系。2022年，某研究機構一次覆蓋多個領域不同規模百餘家企業的調研顯示，企業現有的知識管理系統普遍效果不佳，大部分業務人員反映的問題包括“内容很多，但是存起來後用得不多”“分類和搜索功能不好用，找不到需要的知識”等。低效的數據利用方式，不完善的數據生成和存儲體系導緻數據飛輪轉動緩慢。企業亟需一套全新的收集與使用數據的方式來激活數據飛輪，提升數據要素在企業發展中的作用。

從知識循環到更有競争力的數據飛輪

現有比較通用的以過往數據、知識服務業務策略的底層邏輯建立在1990年代野中郁次郎提出的“知識循環”理論體系上。“知識循環”理論認為，知識與業務之間的關系是四個過程連續循環的結果：社會化、外化、結合和内化。社會化指人與人之間通過觀察、模仿和親身實踐等形式傳遞與業務相關的知識；外化指通過語言或文字等向他人表達與業務相關的知識；結合指将新知識與已有知識結合，将零碎的知識系統化；内化指學習知識、在業務中應用知識并創造新的業務知識。

野中郁次郎的“知識循環”理論可以看作是企業全面進入數字化之前的數據飛輪的初級形态——由業務産生知識，再反哺于業務，如此循環運轉（見圖1）。不論是“隐性知識”還是“顯性知識”，核心都是為了輔助企業決策。知識專家的作用是根據自己對業務的理解，将真實世界中的知識總結、記錄在文檔、書籍或知識庫中，這就是“外化”和“結合”。當業務人員要調用知識時，需要對數字世界中存儲的知識進行消化，即所謂的“内化”。其實，文檔、書籍、知識庫不過是數字技術不夠完善的時代記錄數據的一種手段，整個知識循環可以理解為前數字時代的數據飛輪。

随着AI時代來臨，以緩慢的知識循環為基礎的數據飛輪，已經無法滿足企業需求了。外部商業環境快速變化，重複性業務越來越少，企業所需數據及知識量劇增，知識循環的速率很難跟上知識需求。與此同時，每個知識的适用範圍變窄，有效期變短，員工有可能無法從已有知識積累中找到适用于當下場景的決策方式。“知識循環”需要進化為更有競争力的數據飛輪（見圖2）。具體而言，需要在如下幾方面進行轉變。

第一，記錄的内容從知識轉變為數據。業務中産生的過程數據、結果數據等可以輔助未來的業務流程及決策優化，是數據飛輪的重要“原料”。過去，數據的記錄成本較高，能被記錄的隻有提煉過的知識。現在，未經提煉的底層數據也可以低成本地記錄。如何更廣泛地将企業經營中的業務數據、管理數據進行收集是數據飛輪第一要務。

第二，知識的提煉者從知識專家轉變為業務人員及數據系統。過去隻有知識專家具有知識提煉能力，現在由于記錄的内容從知識轉變為了數據，任何業務人員都可以參與數據總結，數據系統也扮演了重要的數據收集角色。知識專家應該聚焦于為企業提供原理級的思考。

第三，知識與數據的儲存邏輯從有限存儲轉變為海量存儲。過去數據存儲的成本極高，企業隻能存儲知識專家總結後的有限知識。當下數據規模劇增，數據之間的關聯關系不斷發展，此外，存儲數據的成本也在大幅下降，完全沒有必要先對數據進行全面的加工，而是可以在存儲中盡可能還原數據的本來面目。

第四，數據及知識驅動業務決策的方式從直接驅動決策轉變為輔助決策。過去業務較為穩定，知識可以長期應用于未來的業務場景，企業對業務人員決策能力的需求較低。當前業務快速變化，業務人員需要不斷作出大量新的決策，不斷優化流程。因此，需要調用能夠還原先前場景的底層數據而不是先前場景下産生的最終知識來輔助于思考，從而産生适合于當下場景的決策和工作流程。

如何構建高效的數據飛輪

數字經濟時代信息化技術的發展以及底層基礎設施的完善，業務中的過程數據、結果數據等均可以較低的成本記錄在數字世界中，并實現快速便捷的調取，這為數據飛輪的發展提供了技術基礎。

為了讓數據飛輪高效運轉，一方面需要收集充足的數據“原料”。業務人員與知識專家從真實世界中提煉出的知識，以及真實世界中未經提煉的企業内外部信息、經營量化數據等，均需要盡可能充分地映射到數字世界，從而形成能夠被調用的信息庫。此外，還需要高效率且低成本的檢索定位工具來實現對海量級信息的調用，并在檢索和調用過程中不斷完善信息之間的關聯關系。

另一方面需要減少數據與業務之間的摩擦。企業的業務流程要适配于新的數據利用方式，讓數據能夠充分融入流程優化及業務決策過程中；基于數據反饋，建立多維度的決策模型，進行實時的業務效能評估與優化。這個過程中不斷産生的新數據和知識會進一步加速飛輪的運轉，形成正向循環。

在當下的數據技術環境下，組織可以用全新的數據工具以及AI大模型取代完整嚴密的知識庫，以較低的成本存儲大量數據；在調用信息時，可以用自然語言交互的AI助理取代文字檢索和查閱，用AI大模型中通過不斷調用而自然形成的數據關系取代預先設計的知識關聯，确保所需的内容能被高效獲取。具體而言，在AI大模型和其他數字化工具輔助下，企業可以通過如下五個關鍵步驟構建高效的數據飛輪。

數據原料獲取

第一步是數據原料的獲取，即實現向數字世界的信息映射。

為了讓員工在新任務場景下優化工作流程、構建知識關聯時，有充足的知識和信息可供調取，企業首先需要将員工工作過程中的信息盡可能充分地映射到數字世界中。這些映射到數字世界的知識信息，就是數據飛輪所需的數據“原料”。這一曾經需要花費大量人力與時間成本的過程，在數字系統和AI技術的輔助下，已經可以高效實現。

比如，當員工面試形成錄像資料時，AI可以将這些資料轉錄為文本存儲下來，還可以提取關鍵信息、為員工賦予性格、能力标簽。當員工工作時，會發生頻繁的交流與協作，這些活動基本都在數字辦公系統中展開，并在AI的輔助下形成較為全面的記錄。此外，日常的工作溝通、任務分配及工作内容的進展程度更新、在線文檔的協同辦公等，都可以直接在協同辦公軟件如“飛書”中展開，形成記錄。會議中的語言交流也可以被AI自動轉錄為文字，形成數據記錄。AI可以進一步從記錄的信息中提取關鍵信息，與企業的運營狀況進行關聯，從而分析工作開展過程中可能的問題和提升空間，反饋給員工。在進行任務複盤時，可以将評價員工績效的原則輸入數字系統中，由AI自動生成對員工的評價，并根據工作過程中的數據提供一定的建議。

數據原料存儲

第二步是數據原料的存儲，即存儲海量的知識信息。

對于映射到數字世界的海量且格式多樣的知識信息，企業要将其存儲下來，存儲方式要能支持查看、計算、調用、編輯等操作，以便後續對知識信息進行結構化和調用。當數據規模大到一定程度時，存儲和調用過程中的一點點額外開銷都會帶來整體成本的指數級攀升，因此，企業還要有效控制存儲的軟件和硬件成本。這對于數據庫的存儲技術以及數據存儲的硬件設備都提出了較高的要求。幸運的是，随着AI大模型和雲存儲技術的發展，這些要求都能被滿足。

1990年代的知識管理軟件主要是在關系數據庫的存儲形式下進行設計。這種數據庫以表格的形式存儲數據，使用SQL（Structured Query Language）進行數據操作和查詢。這種模型強調數據的結構化、标準化和關系定義，但不能滿足大規模、多格式數據存儲和快速調用的需要。2000年代末期興起的NoSQL（Not Only SQL）數據庫技術一定程度上彌補了關系數據庫在大規模分布式數據、半結構化數據和高速寫入等方面的不足。如今，AI大模型的出現徹底颠覆了數據庫存儲格式。預訓練AI大語言模型的數據存儲，用深度學習和神經網絡的參數權重取代了傳統關系數據庫的強結構化要求。這些參數以分布式的方式存儲在特定的計算設備上，并在模型訓練階段進行更新，依賴于神經網絡的連接權重進行信息處理和生成。這樣的存儲方式消除了強結構化帶來的調用束縛，也避免了數據規模過大導緻的容錯性降低，滿足了AI大模型對海量多格式數據的存儲需求。

在硬件設備方面，雲存儲技術出現和成熟之前，企業隻能将數據存儲在本地，一座規模可觀的服務器機房幾乎是信息企業的标配。大量中小企業難以承受服務器設備高昂的購置和維護成本，這極大地限制了它們可獲取的數據“原料”規模。如今，大量成熟可靠的雲存儲服務商，讓企業可以以較低的成本将數據分布式存儲于雲空間中，進一步降低了企業存儲數據“原料”的門檻。

數據原料進入飛輪

第三步是數據原料進入飛輪，即員工在業務決策中定位所需的數據、知識、信息。

知識和信息的存儲隻是前期準備工作。許多企業在數字化系統上事倍功半，問題大多出在這一步，即數據原料無法進入企業實際經營的業務飛輪。定位相關數據和知識是數據要素輔助決策最關鍵的一步，如果無法便捷地定位工作任務所需的知識，高昂的搜尋成本就會讓員工對數字化系統敬而遠之。

在AI時代，企業的部分數據可以由AI直接生成，還有部分數據仍然要依靠知識生産者創作。因此，知識定位包括兩個方面，一是真實世界的知識定位，即通過AI輔助員工更快地在公司内找到掌握知識的人；另一個是數字世界的知識定位，即幫助員工在知識管理系統的海量數據中找到需要的知識。

對于真實世界的知識，數字系統雖然沒有直接儲存相關知識，但儲存了知識創作的工作過程信息。借助AI對知識創作的過程信息進行處理，可以識别出哪些員工與這一知識創造相關，從而建立通向知識生産者的線索。例如，美國的Gloat.com通過AI技術對員工過往行為和表現進行标簽化處理，在公司需要完成新任務時，系統會自動匹配合适的員工。

對于數字世界的知識，傳統知識管理系統主要通過關鍵詞檢索來定位，但這種檢索方式無法全面理解檢索者的意圖。AI大模型的出現突破了交互方式和語義理解上的局限性。一方面，大模型解決了人與數字化系統之間的自然語言交互難題，人與數字系統能夠像人與人一樣順暢交流，不再需要通過檢索這樣低效率的交互方式溝通；另一方面，大模型不僅能夠提取關鍵詞，還能進一步處理和挖掘原始的數據信息，提煉成便于檢索、閱讀的知識點。當下如火如荼的為搜索引擎接入大模型的智能化改造，就是優化數據索引的一種表現。用戶隻需要提出問題，AI能給出回答和出處鍊接。有了AI的輔助，即使是一名普通員工，也能完成原先知識專家的任務。AI助手與員工通過自然語言交互，為員工補齊了知識專家專屬的信息理解和處理能力。當員工在工作過程中需要某方面的知識支持時，可以直接通過自然語言告知AI助手，AI助手能夠從企業知識庫中找出對應的知識文檔，或者将相關的原始信息總結為文檔，提供給員工。

當前一些垂直專業領域的AI大模型已經具備AI助手的功能。例如，在法律領域，市面上已有的法律大模型大緻通過三個步驟發揮作用：理解用戶的事實；從事實推理到對應的法律條文和相似判例；依據上面的結果，進行完整的推理，給出法律建議。步驟一是AI與用戶之間的自然語言交互，步驟三是AI的邏輯推理和語言組織，最關鍵的步驟二就是對法律知識的理解和定位，即法律數據庫内的知識檢索。

數據原料加速飛輪

第四步是數據原料加速飛輪，即AI輔助員工提升決策效率。

受大腦信息處理能力的限制，人類很難對大規模、高維度的數據進行準确高效的提煉分析。當企業已經擁有充足的數據“原料”時，需要用AI輔助員工提升業務決策效率。

AI可以從業務專家、精英管理者的工作過程數據中學習總結出一套決策規則，并運用這套規則對大規模、高維度數據進行運算處理，給出算法意義上的最優決策和相應的數據依據，供企業決策者參考。在自然語言處理打破人機之間的交互障礙後，決策者接受AI的決策輔助，就像接受參謀人員建議一樣便捷高效。這樣的決策過程實現了真正意義上的數字化、智能化，解決了企業經驗化決策的痼疾，讓數據“原料”真正助力于實實在在的效率提升。例如，在選擇營銷對象時，AI模型可以基于産品生命周期、用戶特征等方面的海量數據，快速篩選被激活與被轉化程度高、符合營銷活動目标的用戶群體，并有針對性地推送個性化内容。

AI在輔助決策的過程中，也在為整個數字系統源源不斷地補充數據“原料”。一方面，決策結果和成效會進入數字系統，對AI算法進行疊代升級。另一方面，如果決策過程中存在特殊要求或發生突發情況，決策者也能用自然語言便捷地進行反饋，優化AI算法。雙管齊下加速業務飛輪。例如，AI根據大數據搭建業務數據預測模型，用于自動生成當前最優的庫存管理計劃，對于不符合實際業務及市場情況的部分，AI可以根據庫存結果和人工決策調整計算邏輯，進一步提升供應鍊管理效率。

數據飛輪适應動态環境

第五步是數據飛輪适應動态環境，即飛輪自我進化。

AI驅動的數字系統可以根據員工對知識的訪問頻次、停留時間等指标，判斷哪些知識之間更有可能存在關聯，從而自動構建知識間的連接，作為知識定位的線索。這種自動生成的知識線索可以幫助員工打開認知邊界，開辟舒适圈之外的未知道路。随着調用次數的不斷增加，大模型中的知識關聯将會越來越完善準确，并會随着問題的變化動态更新。

這種AI自動生成知識線索的方式類似短視頻應用程序的算法推薦邏輯。通過記錄并分析員工（用戶）對知識（短視頻）的訪問行為，形成訪問者的個人偏好标簽，為其匹配并推薦可能感興趣的内容。數字化系統中除了員工的個人标簽，還會形成另一維度的任務标簽。員工對知識的需要會随着任務的變化而動态變化，在AI大模型技術的支持下，相似或相關任務用到的知識會因為調用記錄産生聯系。系統通過二維标簽對每位員工進行定位後，員工就能夠随時收到來自AI助手的知識（或知識生産者）推薦。

在公域中，百度由跨模态大模型“知一”和新一代索引技術“千流”加持的生成式搜索系統，已經能夠根據模型最新學習到的知識，對檢索結果進行實時動态調整，确保把滿足需求的結果高效呈現給用戶。百度搜索的“AI夥伴”在回答用戶問題的同時，也能提供用戶可能感興趣的詞條推薦。

從另一角度來說，這種疊代更新在産生新知識線索的同時，也在對舊的知識線索進行評估。知識線索在業務決策中被調用的次數越多，或者在疊代中被更新的次數越多，說明這一線索的價值越高。如果人工建立的某一知識線索長期沒有被調用，那麼，就有必要重新檢視這一線索的必要性，降低知識系統的運行成本。

總之，随着AI能力迅猛增長，企業不僅僅是被動地記錄信息、數據、知識，而是主動地去經營。數據飛輪的核心思路就是企業主動經營數據要素。不斷加快數據飛輪的轉動速度，可以有效提高企業的經營效率，優化商業模式，大幅提升企業面對外部變化環境的探索能力。

王子陽：BETVLCTOR伟德官方网站商業模式創新研究中心研究主管，西安交通大學管理學院副研究員

朱武祥：BETVLCTOR伟德官方网站教授，BETVLCTOR伟德官方网站商業模式創新研究中心主任

李浩然：BETVLCTOR伟德官方网站博士生

阮申豪：BETVLCTOR伟德官方网站機械工程學院本科生

責任編輯：朱晶

來源：《清華管理評論》2024年4月刊