[新闻] 我国已建设高质量数据集超3.5万个 总量超400PB| 数博会官网

真人做爰A片免费观看茄子视频/午夜射精日本三级/少妇被猛烈挺进爽爽A片软件/欧洲精品免费一区二区三区/精品无码成人久久久久久

我國已建設高質量數據集超3.5萬個 總量超400PB

作者: 蘇德悅    來源: 人民郵電報   編輯: 楊小婷  時間:2025-09-09 15:25:24  

  日前,在2025中國國際大數據產業博覽會“高質量數據集主題交流活動”上,《高質量數據集建設指引》(以下簡稱《建設指引》)正式發布。數據顯示,我國已建設高質量數據集超3.5萬個、總量超400PB。

  《建設指引》指出,隨著大模型技術應用的快速發展,人工智能的研發重點正從“重點優化模型架構”轉向“模型與數據協同優化”,其中高質量數據的作用日益凸顯。數據作為人工智能發展的三大核心要素之一,已成為人工智能大模型訓練的核心要素資源,決定了大模型的性能。加快人工智能高質量數據集建設,夯實人工智能發展數據基礎,對于推動“人工智能+”場景落地具有重要意義。

  2024年12月,國家發展改革委、國家數據局等部門印發《關于促進數據產業高質量發展的指導意見》,首次明確提出“高質量數據集”概念,將其作為人工智能與實體經濟融合的核心載體。隨后一系列政策相繼發布,《關于促進數據標注產業高質量發展的實施意見》《關于促進企業數據資源開發利用的意見》《國家數據基礎設施建設指引》等政策均提出建設行業“高質量數據集”。

  在政策指引下,我國高質量數據集建設成效明顯。《建設指引》中發布的數據顯示,截至2025年6月,全國建設高質量數據集超3.5萬個、總量超400PB;數據交易機構掛牌高質量數據集3364個,作為交易流通中的關鍵商品,累計交易額近40億元,規模達246PB;國內多數模型訓練使用中文數據占比達到60%~80%。

  國家數據局統籌建設數據標注基地,在生態構建、能力提升和場景應用等方面先行先試,集聚龍頭企業,促進區域人工智能產業生態發展,目前已建設行業高質量數據集524個,數據總規模超過29PB,賦能163個國產人工智能大模型的研發與應用,帶動數據標注行業相關產值超過83億元。與此同時,中央企業、大模型技術企業、標準化組織、科研學術機構等多方主體正協同共建行業生態體系,形成了多元聯動的發展格局。

  《建設指引》指出,雖然我國高質量數據集建設在國家統籌、推進模式和應用場景方面具有獨特優勢,但在數據開放度、標準體系、關鍵技術及國際影響力等方面仍有短板,在數據供給、技術工具、標準規范、安全合規、商業模式等方面還面臨許多困難與挑戰。

  《建設指引》指出,要以體系化思維優化高質量數據集建設布局,以設施化手段促進高質量數據集流通利用,以生態化環境保障高質量數據集可持續發展,構建覆蓋全流程、貫通各環節的高質量數據集格局。要針對智能化需求,搭建行業知識索引框架;錨定智能場景,繪制行業數據集資源地圖;圍繞高質量數據集建設運營環節,構建全鏈條、全行業標準體系。

  與此同時,要通過構建“平臺+數據集+模型”的一體化服務設施,降低數據集應用門檻,推動數據集市場化流通和規模化應用。通過制度創新、產業協同和人才培育,構建多方共贏的生態體系,著力突破建設成本高、共享意愿低、創新動能弱等瓶頸。