突破人工智能大模型的“數據瓶頸”_08靠設計影像中國網

作者:

分類:

——構建國家級語料庫運營平臺的思考

中國網/中國發展門戶網訊  習近平總書記強調,人工智能是引領這一輪科技革命和產業變革的戰略性技術,具有溢出帶動性很強的“頭雁”效應。從全球范圍FRP來看,人工智能(AI)大模型行業競爭日趨激烈,美國、歐盟、日本等密集出臺AI發展戰略,全體提升自身科技競爭實力。語料作為AI大模型訓練的基礎,其范圍、數量和質量直接影響到模型的訓練效果和性能,高質量語料庫已然成為提升系統準確性和泛化能力的核心。因此,構建國家級語料庫運營平臺顯得尤為奇藝果影像重要,它不僅是實現高質量數據供給的重要渠道,也是促進我國產業升級、技術進步的關鍵力量,更是提升AI國際競爭力的必由之路。

數據瓶頸:AI發展面臨訓練數據枯竭問題

全球AI大模型行業競爭日益加劇

AI大模型領域呈現前所未有的技術創新活力和全球競爭態勢。多個國家投入大模型研發陣營,美國谷歌、OpenAI等機構較早開始大模型技術研發,歐盟、俄羅斯、以色列、韓廣告設計國等地區和國家也緊跟其后,加入全球AI大模型研發陣營。特別是在ChatGPT發布以來,全球范圍內的AI大模型迎來了空前的發展高潮。近年來,我國進入大模型加速發展期,在自然語言處理、機器視覺和多模態等各技術分支上發展迅猛,不僅涌現出“文心一言”“通義千問”“星火認知”等一批具有行業影響力的AI大模型,特別是隨著DeepSeek-R1、V3、Coder等系列模型為代表的AI成果不斷涌現,國產模型在語言理解、內容生成和邏輯推理等方面展現出強大的能力,初步形成一流的AI大模型技術群。從區域分布來看,當前全球大模型呈現出“美國領跑、中國緊跟、其他區域落后”的態勢。2025年,全球AI的競爭將進一步升級為系統性競爭,各國將在基礎大模型、行業應用、硬件、產業鏈等方面展開全面較量。

AI大模型領域日益成為中美兩國科技競爭的前沿陣地。從全球已發布的AI大模型分布來看,中國和美國大幅領先,合計數量超過全球總數的80%,這充分顯示了中美兩國在AI大模型領域的領先地位和強大實力。AI大模型的競爭,已經不僅僅是技術層面的競爭,更是國家科技戰略的競爭。美國將優先發展AI上升為國家戰略,不斷向AI領域發展投入大量資源,以實現絕對的優勢。而且,美國將中國確定為AI領域的主要競爭對手,出臺了一系列法規和政策來限制中國在AI平面設計領域的技術獲取和合作機會,尤其是針對AI芯片和大模型技術的封鎖和限制。例如,美國陸續出臺《2020年國家人工智能倡議法案》(National Artificial Intelligence lnitiative Act of 2020)、《2022年芯片與科學法案》(CHIPS and Science Act 2022)等文件,對中國實施AI芯片新限制,試圖通過封鎖算力抑制中國AI大模型的發展,使美國成為“頭號玩家”。細觀中國AI大模型產業,得益于政策、技術和市場的共同驅動:一方面,中國政府強有力的政策支持和不斷擴大的市場需求為中國AI大模型行業的蓬勃發展提供了有力保障,企業技術創新主體地位更加凸顯;另一方面,美國的限制措施和技術封鎖,客觀刺激和促進了中國技術創新水平的提升,助力中國在全球大模型領域競爭力提升。

語料庫成為大模型競爭的關鍵要素

AI大模型訓練對數據供給要求極高。AI是第四次工業革命的“核心引擎”,數據是AI大模型發展的“燃料”。AI大模型技術的快速迭代,不僅帶來對數據的海量需求,也對數據集的構建提出了更多挑戰。因為訓練AI大模型需要大規模、高質量、多模態的數據集,這些數據通常來自各個領域和多個數據源,包含文本、圖像、語音、視頻等多種形式。近年來,AI大模型訓練所用的數據集規模呈現出顯著的增長趨勢。以DeepSeek系列模型為例,DeepSeek-LLM(V1)通過數據去重、過濾和混洗(remixing)3個階段,構建了一個包含約2萬億token的中英雙語預訓練數據集,以確保數據多樣性和高質量;DeepSeek-V2擴展了數據量并提高了數據質量,模型預訓練所使用的語料庫包含8.1萬億token的多語言數據集;DeepSeek-V3通過提高數學和編程樣本的比例來優化預訓練語料庫,模AR擴增實境型預訓練所使用的語料庫提升到14.8萬億token的多語言數據集。

語料將成為AI時代的下一個競爭焦點。在AI時代,語料庫將成為提升AI大模型技術性能和應用效果的關鍵。語料數據作為AI大模型優秀輸出能力的保證,已經被廣泛應用于自然語言處理、機器翻譯、智能問答、情感分析等多個領域,成為推動AI技術進步的關鍵因素。而且,各國都在加快語料庫發展,特別是推動高質量語料庫的建設和應用。

訓練數據短缺成為全球共性問題

AI技術的快速迭代,加劇數據供需矛盾。AI大模型訓練所需要的數據集的增速遠大于高質量數據生成的速度,將會導致高質量數據逐漸枯竭。專注于AI發展趨勢的研究團隊EPOCH AI,在研究中預測,最早在2024年人類就可能會陷入訓練數據荒,屆時全世界的高質量訓練數據都將面臨枯竭。盡管他們在最新的研究中,將高質量文本數據耗盡的時間推遲到2026—2032年,但是依舊認為訓練數據是AI大模型技術發展的主要瓶頸。在此背景下,企業加大了對數據資源的競爭,為了獲取更多數據,包括Ope記者會nAI、Meta在內的多家企業不斷調整數據采集和使用條款,甚至公開討論如何規避版權保護。因此,高質量數據短缺將成為制約AI技術發展的重要因素,平衡科技創新與版權保護之間的關系也是不能回避的現實問題。

高質量語料庫:人工智能大模型發展的核心動能

訓練數據直接影響大模型的內容生成

數據的質量、規模和多樣性直接影響AI大模型的性能。數據規模是AI大模型預訓練的基礎,數據質量直接影響模型最終生成的內容質量。如果訓練數據準確、全面且具備代表性,那么AI大模型在分析和生成自然語言文本方面的能力將得到顯著提升,從而更精確地模擬和理玖陽視覺解人類語言的復雜性和多樣性。此外,通用參數、文本語言、策展圖像、視頻音頻等不同類別的數據類型直接影響AI大模型的認知邊界。而且,AI大模型所需要的數據根據訓練階段有所不同。以ChatGPT為例,在預訓練階段主要關注數據的類型廣泛度,需要包括網頁、圖書、學術論文、新聞報道、社交媒體文本、代碼等形式在內的各類數據;在監督微調(SFT)階段和基于人類反饋的強化學習(RLHF)階段更關注人類認知的數據,因為這2個階段是對AI大模型泛化能力和涌現能力的訓練,對于數據質量要求較高,強調語料特征與人類價值觀的一致。

數據質量問題對AI大模型生成內容的負面影響不容忽視。如果訓練數據存在錯誤、偏見或信息稀缺,這些問題將在模型生成的文本中得以體現。準確性問題。如果訓練數據中包含錯誤或不準確的信息,AI大模型將會學習并重現這些錯誤,這可能導致模型在生成文本時產生事實性錯誤或誤導性信息。偏見和刻板印象。數據中的偏見和刻板印象也會被模型學習并反映在其生成的文本中。例如,如果訓練數據中存在性別廣告設計、種族或文化的刻板印象,模型可能會在生成的內容中無意中強化這些偏見。 數據稀缺性。如果訓練大型公仔數據中某些類型的信息較為稀缺,模型在處理這些信息時可能會表現不佳。總之,不準確的數據可能導致模型產生事實性錯誤,數據中的偏見會無意識地被模型學習和重現,而數據的稀缺性則可能限制模型在處理特定信息時的表現。

高質量數據對模型內容生成具有積極影響。將AI大模型打造成新質生產力工具,建設高質量語料庫是關鍵。利用高質量品牌活動數據進行訓練,可以顯著提升大模型生成內容的準確性、客觀性和多樣性。提高準確性。準確無誤的數據集可以幫助模型學習到正確的語言模式和知識,準確模擬真實世界,使模型的預測更貼近實際數據分布。增強客觀性。經過仔細篩選和清洗數據,并借助優化算法減少訓練中的損失函數,可以最大程度地減少數據中的偏見和刻板印象,保證模型生成的文本更加中立和客觀。豐富多樣性。多樣化的訓練數據可以使模型在處理不同類型的信息時都能表現出色,無論是通用知識還是專業領域的知識。

高質量中文語料庫建設意義重大

高質量的中文語料數據尤為稀缺。受制于數據集建設的高額成本,以及尚未成熟的開源生態,國內開源數據集在數據規模和語料質量上相比海外仍有較大差距,進而沈浸式體驗平面設計致數據來源較為單一,且更新頻率較低,影響模型的訓練效果。據相關數據估算,國內互全息投影聯網中文語料的質量和規模均大幅低于英文語料,英奇藝果影像文文本和數據資料是中文的8倍左右;并且,以公開渠道獲取大批量、高質量的中文語料數據的難度較大。而且,中文語料、科研成果等高質量數據集開放程度低,企業用于訓練的語料來源不清晰、權屬不明確,開源后存在一定的合規隱患,這使得企業更傾向于自采、自用,國內AI大模型數據流通機制尚未形成。

高質量中文語料庫建設勢在必行,中式價值觀類語料更為必要。AI大模型需要依賴現實語料庫進行訓練,因而可能會延續現實社會中存在的偏見和價值偏差,甚至人形立牌會因為快速和低成本的應用加劇這些偏見和偏差。當前,中文語料庫面臨總量不足、分布不均、垂直覆蓋有限、質量參差不齊等問題,導致國內許多從事AI大模型開發的機構在進行模型訓練時,不得不依賴于外文標注數據集、開源數據集或是爬取網絡數據。在國際形勢日趨復雜的態勢下,意識形態之爭正在逐步加劇,模型而AI大模型很可能被“武器化”,成為進行輿論引導的新工具——經英文語料庫訓練出來的AI大模型,不可避免地更符合西方主流價值觀。因此,需要加大對高質量中文語料庫,尤其是反映優秀傳統文化和本土價值觀的中式價值觀類語料的開發,盡快掌控中文語料庫的話語權,既是幫助大模型更好地理解和反映我國的文化背景和價值取向,也能在價值引導方面占據主動地位。

“擴源提質”打造高質量語料庫

“擴源提質”是建設高質量語料庫的有效策略。“擴源”意味著要不斷擴大數據的來源和多樣性,通過收集、匯聚社交媒體文本、學術論文、新聞報道等多種來源的數據,覆蓋文本、圖像、視頻、音頻等多種數據類型,為大模型提供豐富的語言環境和知識背景。“提質”則強調的是提升數據的質量和準確性,對數據進行去重、格式化、迭代更新、標注、內容監督等深入挖掘和精細化處理,形成包含預訓練數據集、指令微調數據集、測試數據集等內容的、高效可用的多模態語料庫,以支持后續數據的深度分析、模型訓練,以及數據應用與服務需求。

高質量合成數據或將是普通數據的有效補充。基于各類原始數據,運用模數學模型創建生成新的合成數據,能夠為模型提供訓練材料。例如,專攻棋類的AlphaZero就是使用合成數據訓練出來的。合成數據既可以基于真實數據構建,也可以通過現有模型或者人類專業知識創建;合成數據在豐富數據多玖陽視覺樣性的同時,能夠更快地生成多模態數據,幫助模型預訓練。但是,由于合成數據生成過程可能存在偏差或噪聲,其質量和真實性無法完全模擬客觀世界,在數據可信度、泛化能力及倫理方面面臨更多的挑戰。因此,基于當前數據現狀,以及合成數據的發展實踐來看,合成數據為豐富模型訓練數據提供了一種解決方案,但是要想讓合成數據成為有效的訓練數據,必須保證合成數據的質量。

語料庫運營平臺:提升人工智能國際競爭力的必由之路

對標國外:歐美國家積極建設語料庫運營平臺

美國、歐盟積極建設語料庫運營平臺以實現各類語料庫的匯聚、開發、利用。例如,美國最全面的公共數據平臺Data.Gov、歐盟“共同數據空間”(Common European Da包裝盒ta Spaces)等。通過對國外語料庫運營平臺架構分析發現,這些平臺建設內容主要包括數據匯聚共享、數據治理,以及安全監管等方面。具體來看場地佈置,各國主要基于數據處理不同的階段進行平臺的設計和建設。

數據匯聚階段,各國不斷擴大數據來源,并選取合理方式實現數據匯聚。各國加大對公共、企業、個人數據匯聚的同時,注重對科研數據的收集、匯聚。例如,歐盟“共同數據空間”匯聚了法律、氣象、安全執法等公共數據,制造業、綠色節能、交通、健康等17展場設計類行業數據,以及姓名、郵箱等個人數據。奇藝果影像在數據匯聚方式上,大多采用物理匯聚和邏輯接入的方式。例如,歐盟出于對數據安全的考量,更傾向于邏輯接入,而非物理匯聚方式進行集中存儲。

數據治理階段,國內外普遍通過數據清洗、數據標準化、數據標注、數據質量評價等方式實現數據高效治理。具體實踐中,數據清洗更多側重明確清洗規則、使用自動化技術和工具;數據標準化旨在統一數據格式、數據類型、數據命名等規范;數據標注環節關注標注技術和工具研發、人才培養和生態培育等內容;數據質量評價更多側重數據質量評價指標體系打造、反饋機制及優化等內容。例如,美國Data.gov主要采取包括人工評價、系統自動評估、第三方評價在內的綜合數據質量評價體系。此外,國外倡導政府、行業協會、非營利性平臺、企業等主體共同參與數據治理,營造良好的數據治理生態。

數據服務階段,主要通過公共數據展場設計平臺和社會數據平臺提供各類數據服務。具體方式包括:建立檢索下載平臺、開發數據工具服務、組建語料庫聯盟、構建開源生態等。例如,大模型訓練數據庫Common Crawl以API接口服務形式為GPT-3、騰訊WeLM等AI大模型提供語料。而且,國外積極引入數據中介、數據經紀商等多方力量,構建多元服務生態。

數據運營階段,當前語料庫運營平臺運營主體主要包括政府、高校和科研機構、非營利(開源)組織,以及大型互聯網公司和專業機構。不同類型的運營主體根據對語料庫的全息投影定位不同,采取不同的建設運營模式,也對應不同收費模式。例如,美國政府基于公私合營打通數據運營全鏈條,形成以“開放共享數據集+高質量語料庫+全生命周期的語料處理+靈活多樣的配套運營保障”為核心的全鏈服務矩陣。此外,語料庫運營平臺的安全監管和運營生態建設也是各國關注的重點內容。

國內環境:建設語料庫運營平臺是科技競爭的必然

發展AI語料庫不僅是科技競爭的關鍵所在,也是落實國家戰略、推動產業升級、優化資源配置的重要舉措。從國家戰略要求看,建設國家級語料庫運營平臺是落實國家AI戰略,發揮平臺經濟作用,推動高質量發展的重要載體。《新一代人工智能發展規劃》的展覽策劃推出,將AI發展放在國家戰略層面系統布局、主動謀劃。建設國家級語料庫運營平臺是基于AI大模型發展對高質量、大規模、安全可信語料數據資源需求的現實考量,是加快推進發展AI,促進新質生產力發展的重要引擎。此外,推動平臺經濟發展是國家立足新發展階段、貫徹新發展理念、構建新發展格局、推動高質量發展的戰略布局。建設國家級語料庫運營平臺,以數據基礎設施為重要支撐,以促進數據關鍵生產要素價值發揮為目標,能夠充分凸顯平臺建設的價值和優勢。

從產業發展的角度來看,實施“AI+”行動已經成為推策展動現代化產業體系建設和經濟高質量發展的重中之重。AI與實體經濟的深度融合,不僅促進傳統產業的智能化改造和轉型升級,還可以催生出一批新興產業。數據是AI發展的催化劑,大模型驅動的AI發展對于高質量數據供提出了更高要求。在AI領域,無論是算法的優化、模型的改進還是新技術的應用,都需要大量的數據進行實驗和驗證。推動語料庫運營平臺建設,加大高質量語料庫供給,才能充分發揮數據的基礎資源作用和創新引擎作用。

從資源配置的角度來看,數據資源的集約配置是提高AI技術應用效率的關鍵。通過建設集中、統一的國家級語料庫運營平臺,能夠避免數據的重復采集和浪費,提高數據資源的利用效率。語料庫運營平臺還可以通過集成和整合國家AI“五大”訓練基地的數據資源,以實現數據資源的互通共享。這不僅可以降低數據獲取和處理成本,也能夠為企業和個人提供更便捷、高效的AI服務。

建設策略:積極打造國家級語料庫運營平臺

明晰平臺定位,打造國家語料庫匯聚與運營平臺

國家級語料庫運營平臺是搶抓AI發展戰略機遇,構筑我國AI競爭優勢的攤位設計重要突破口。平臺的建設應定位為“國家語料庫集聚與運營服務平臺”,致力于打造全國范圍內最權威、最全面、最精準的語料數據和服務提供載體。因此,平臺建設應當突出國家戰略部署和基礎服務功能,強化其公共屬性和公益定位;同時,考慮大規模語料匯聚、治理、開發等工作所需要的巨大資源投入,平臺可以通過語料產品的開發來獲取運營收益,反哺平臺的建設運營。平臺應兼顧匯聚和運營,不僅能夠采集、匯聚和互動裝置存儲海量的語料數據,還應通過數據治理,形成對外提供語料檢索、分析和應用的服務能力,以支持自然語言處理、機器學習、AI等領域的研究與應用。平臺應以需求為導向,面向AI企業、AI訓練基地等具有高質量語料的需求方提供數據服務或產品。平臺應著眼于產業發展和生態構建,在數據治理和數據服務等環節,發揮平臺優勢,充分鏈接更多市場參與主體,通過專業化、鏈接型、前瞻性的戰略布局,推動市場構建語料生態。

設計總體架構,實現業務和技術的深度融合

業務架構上,國家級語料庫運營平臺采用“三橫三縱”的總體架構(圖1)。橫向維度,平臺貫通數據匯聚、數據治理和數據服務三大環節活動佈置。數據匯聚模塊,以全國一體化政務大數據平臺和各省市政務大數據平臺為抓手實現公共數據、企業數據、專項數據等各類數據的采集、匯聚;數據治理模塊,通過數據清洗、數據標準化、數據標注和數據質量評價的治理手段,形成直接可用于AI大模型訓練的預訓練數據集、指令微調數據集、監督測試數據集;數據服務模塊,提供數據檢索、數據共享、數據流通交易等配套服務,著力于開源數據生態打造。縱向維度,平臺覆蓋技術工具、安全監管、生態創新等“三大能力”的全流程支撐。技術工具方面,通過隱私保護、數據互操作、跨域數據交換等技術的更新迭代,助力語料庫打通多主體、跨層級數據流通壁壘;安全監管方面,強調對數據安全、隱私保護和合規性的全面監管,構建“技術+運維+管理”三元語料庫安全防護體系,以保證平臺平穩運行的基礎;生態創新方面,通過數據標準生態、行業多元主體參與生態的打造,增強語料庫運營平臺價值發揮,向市場傳遞重構語料生態的頂層設計理念。

技術架構上,建議國家級語料庫運營平臺采用“1+N”一體化架構設計。國家級語料庫運營平臺設計必須考慮當前我國數據資源現狀,以數據安全為底線,綜合考慮國家統籌管理與區域現狀特點相結合,注重資源高效利用,推動建立全國數據要素統一大市場。因此,借鑒全國一體化在線政務服務平臺建設和數據匯聚的思路,建議國家級語料庫運營平臺采用“1+N”的一體化架構設計。其中,“1”,指國家語料庫運營平臺,即中心平臺。中心平臺負責國家級語料庫運營平臺的全國統籌管理,建立中心編目系統管理分布式數據平臺的元數據,但不直接進行數據治理和數據運營;具體通過制定標準、開源系統工具支撐、開放接口建設等,實現所有平臺之間的整體聯動和協同共享。此外,中心平臺還需負責國家電子政務數據、部委、央企等單位數據的匯聚。“N”,指選取部分區域建設N個國家級語料庫運營平臺。例如,支持以國家AI“五大”訓練基地所在區域為試點,建設國家級語料庫運營平臺,負責各區域內的語料匯聚和存儲。在“1+N”的一體化架構下,基于全國數據互聯、服務互通的統一數據門戶,中心平臺在收到用戶請求時,根據元數據描述從分布系統實時調用對應的數據集,形成全國語料庫服務“一張網”。

確定運營主體,高效推動平臺建設與運營

國家級語料庫運營平臺的建設運營主體,是影響平臺建設經典大圖進度和成效的關鍵要素。初步設想,有4種路徑:由國家數據局統一規劃建設統一運營管理,因為在國家數據局等部門印發《“數據要素×”三年行動計劃(2024—2026年)》中明確提出建設高質量語料庫和基礎科學數據集,支持開展AI大模型開發和訓練。由國家數據局委托國家信息中心、中國信息通信研究院等具有國家信息化項目建設經驗的單位開展建設運營,國家數據發展研究院協助建設。以國家數據局為總牽頭,協調“東數西算”八大樞紐節點或國家AI“五大”訓練基地所在地區發展和改革委員會、經濟和信息化廳等相關部門,聯合組建國家級語料庫運營主體。由國家數據局指導中國移動、中國聯通、中國電信等電信運營商進行建設與運營,發揮運營商在數字基礎設施、數字化能力及大型信息化項目建設方面所具備的較強優勢。

聚焦核沈浸式體驗心內容,覆蓋語料生產應用全生命周期

國家級語料庫運營平臺覆蓋了語料獲取、清洗、加工、治理、應用和管理的全生命周期,具有多種靈活的采集、匯聚方式;能分布式高效處理海量語料,有效提升語料開發利用效率,賦能企業或更多機構建設大模型、增強大模型能力。在數據匯聚環節,一方面,保證數據來源,關注公共啟動儀式數據、企業數據等數據來源和獲取渠道,兼顧數據在時間和領域維度的融合,建立數據長期更新機制;另一方面,選取合理的數據匯聚方式——公共數據可以考慮以邏輯接入為主,企業數據視情況選擇不同匯聚方式。在數據治理環節,既要考慮數據匯聚之后的治理,也要基于不同的場景需求,服務于數據運營需求;考慮采用先進審核技術、動態策略管理等中間層技術,對“有毒”數據進行攔截與修改。在數據服務環節,一方面,積極探索服務內容,平臺除主要提供數據目錄、數據共享、數據交換、數據工具等服務內容外,還應加強探索合成數據的建設和應用;另一方面,要建立合理的數據運營機制,在明確平臺運營主體之后,基于服務內容,科學設定數據定價機制和收益分配機制。

(作者:李興騰,浙江大學公共管理學院;馮鋒,中國科學技術大學管理學院;黃鸝強,浙江大學管理學院。《中國科學院院刊》供稿)


留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *