摘要:所謂AI語料,是指用于訓練人工智能算法和模型的文本、語音、圖像或其他形式的數據集合。
2025年開年,DeepSeek的橫空出世再次點燃全球AI競賽。當公眾為國產開源大模型的驚艷表現歡呼時,產業界正將目光投向更上游的隱秘戰場——AI語料庫。這場靜默的“數字石油”爭奪戰,正在重構人工智能產業的底層競爭邏輯。
大模型迭代背后的隱秘戰場
DeepSeek-R1在數學、代碼和推理任務上可與OpenAI o1媲美,并且預訓練費用只有557.6萬美元,不到OpenAI GPT-4o模型訓練成本的十分之一。這些突破的背后,是高質量AI語料庫的持續擴容。
所謂AI語料,是指用于訓練人工智能算法和模型的文本、語音、圖像或其他形式的數據集合。AI語料作為訓練人工智能算法和模型的核心資源,其重要性隨著技術發展與行業滲透持續提升。求思咨詢數據顯示,2023年我國AI語料市場規模達68.7億元,預計到2025年將突破100億元大關,增長至109億元,年復合增長率超過25%。
上市企業爭相布局
面對如此廣闊的市場前景,眾多上市公司也紛紛加快布局,力求在人工智能產業鏈上游搶占戰略制高點。
在文本語料領域,中文在線集團股份有限公司依托20余年文化數字產業積累,構建起涵蓋文學、教育、科技等多類型的高質量語料庫;中國科技出版傳媒股份有限公司、中國出版傳媒股份有限公司等出版龍頭則將專業學術資源轉化為AI語料,服務于科研、教育等領域的AI應用。
在視頻語料賽道,浙江華策影視股份有限公司憑借影視劇制作優勢積累海量原始素材庫,為AI在視頻領域的應用提供了豐富資源;中廣天擇傳媒股份有限公司的“淘劇淘”平臺匯聚了優質電視劇版權,并出售大模型客戶,為大模型訓練提供深度數據支持。
除文化傳媒行業外,其他行業巨頭也布局AI語料領域。浙江核新同花順網絡信息股份有限公司、上海鋼聯電子商務股份有限公司等在金融和大宗商品領域的語料庫建設,推動金融科技的快速發展。
北京值得買科技股份有限公司、匯納科技股份有限公司等公司則通過消費語料庫,助力AI更好地理解和滿足消費者需求。中遠海運科技股份有限公司在航運領域的語料庫布局,將有助于提高航運效率和安全性。這些上市公司的超前布局,有望在這一領域構建起強大的競爭優勢。
同時,政策層面的支持也為行業發展注入強勁動能。2024年12月份,國家印發《關于促進數據產業高質量發展的指導意見》,明確提出支持企業面向人工智能應用創新,開發高質量數據集,大力發展“數據即服務”“知識即服務”“模型即服務”等新業態。
2025年2月19日,國家數據局召開高質量數據集建設工作啟動會,明確指出要扎實做好高質量數據集建設工作,加快推動形成一批標志性成果,以此賦能行業高質量發展。
在政策紅利與市場需求的雙重推動下,AI語料的價值正經歷全面重估。未來,掌握高質量AI語料的企業,將真正掌控智能時代的“數字命脈”。
編輯/劉曉茹