“今年上半年,全國各地已建設(shè)高質(zhì)量數(shù)據(jù)集超過3.5萬個,總體量超過300PB,全國各地高質(zhì)量數(shù)據(jù)集累計交易額接近40億元?!?月28日,在貴陽召開的2025中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會“高質(zhì)量數(shù)據(jù)集”主題交流活動上,國家發(fā)展和改革委員會黨組成員,國家數(shù)據(jù)局黨組書記、局長劉烈宏表示,上半年,國家數(shù)據(jù)局全面推動高質(zhì)量數(shù)據(jù)集的建設(shè)和應(yīng)用,圍繞高質(zhì)量數(shù)據(jù)工作部署,制定印發(fā)相關(guān)政策文件,研究制定高質(zhì)量數(shù)據(jù)集建設(shè)和分類指南、格式要求、質(zhì)量評測等相關(guān)標(biāo)準(zhǔn),組織開展高質(zhì)量數(shù)據(jù)集建設(shè)典型案例征集、先行先試相關(guān)工作,聯(lián)合有關(guān)部門、企業(yè)和各地數(shù)據(jù)管理部門協(xié)同推進(jìn),取得了積極的成效。
劉烈宏表示,今年上半年,國家數(shù)據(jù)局推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè),布局建設(shè)成都、沈陽等七個數(shù)據(jù)標(biāo)注基地,以數(shù)據(jù)標(biāo)注帶動數(shù)據(jù)生產(chǎn)和應(yīng)用。目前國內(nèi)多數(shù)模型訓(xùn)練使用的中文數(shù)據(jù)占比達(dá)60—80%,中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力顯著增強(qiáng)。高質(zhì)量數(shù)據(jù)集價值得到釋放,全國各地交易機(jī)構(gòu)掛牌3364個高質(zhì)量數(shù)據(jù)集,總規(guī)模達(dá)到246PB,人工智能模型訓(xùn)練推動數(shù)據(jù)交易需求上升,高質(zhì)量數(shù)據(jù)集支持人工智能創(chuàng)新發(fā)展的作用正在凸顯。
劉烈宏表示,下一步國家數(shù)據(jù)局將與全社會一道發(fā)揮高質(zhì)量數(shù)據(jù)集建設(shè)鏈主單位的作用,依托先行先試,加快為重點領(lǐng)域以及具身智能、低空經(jīng)濟(jì)、生物制造新領(lǐng)域提供數(shù)據(jù)支持。
貴州作為數(shù)據(jù)高地,當(dāng)前正重點大力發(fā)展以建設(shè)高質(zhì)量數(shù)據(jù)集為重點的數(shù)據(jù)產(chǎn)業(yè)。貴州省人民政府黨組成員、副省長羅強(qiáng)表示,近年來,貴州聚力推進(jìn)國家數(shù)據(jù)要素綜合試驗區(qū)建設(shè)、打造高質(zhì)量數(shù)據(jù)集新高地,目前已培育數(shù)據(jù)商超過200多家,在金融服務(wù)、工業(yè)制造、醫(yī)療健康、商貿(mào)流通等重點領(lǐng)域,發(fā)布了900余個高質(zhì)量數(shù)據(jù)集。
羅強(qiáng)表示,圍繞建設(shè)高質(zhì)量數(shù)據(jù)集為重點的數(shù)據(jù)產(chǎn)業(yè),貴州將從三方面持續(xù)發(fā)力:一是堅持先行先試供好數(shù)據(jù),聚焦數(shù)據(jù)“供得出 流得動 用得好 保安全”四個關(guān)鍵環(huán)節(jié),持續(xù)深化數(shù)據(jù)要素市場化配置改革。二突出數(shù)據(jù)標(biāo)注,壯大數(shù)商,充分發(fā)揮貴州人力資源豐富、數(shù)據(jù)和場景開放的優(yōu)勢,加快建設(shè)省級數(shù)據(jù)標(biāo)注的產(chǎn)業(yè)園。三是加強(qiáng)安全治理,守牢底線,將從制度、技術(shù)、管理三個方面發(fā)力,不斷健全數(shù)據(jù)的定價、收益、分配、安全保障制度,落實好公共數(shù)據(jù)資源的開發(fā)利用,數(shù)據(jù)授權(quán)、營運、數(shù)據(jù)資源的登記,數(shù)權(quán)營運的價值機(jī)制等政策體系,全力提升數(shù)據(jù)安全防護(hù)能力,打響貴州數(shù)據(jù)“既開放,又安全”的響亮招牌。
當(dāng)前,全球人工智能正從感知智能向認(rèn)知智能躍遷,大模型作為躍遷的核心載體,性能安全是其核心領(lǐng)域。吳世忠研究員表示,當(dāng)前大模型數(shù)據(jù)集建設(shè)面臨數(shù)據(jù)來源的合法性、數(shù)據(jù)內(nèi)容的可靠性、數(shù)據(jù)供應(yīng)鏈的安全性以及數(shù)據(jù)使用方面的倫理挑戰(zhàn)等風(fēng)險。他建議,未來在建設(shè)數(shù)據(jù)集的過程中,應(yīng)完善分級分類的數(shù)據(jù)安全制度,以數(shù)據(jù)安全法等法律法規(guī)為基礎(chǔ),制定大模型訓(xùn)練數(shù)據(jù)的安全指南等標(biāo)準(zhǔn),對數(shù)據(jù)集實施分級分類管理;推動建立國家大模型數(shù)據(jù)資源目錄,為開發(fā)者提供合規(guī)、安全的數(shù)據(jù)資源;強(qiáng)化全流程技術(shù)防護(hù)手段,筑牢防篡改的底層技術(shù)能力;創(chuàng)新多方協(xié)同的治理模式,建立數(shù)據(jù)集備案和審查制度;培育安全向善的行業(yè)生態(tài),在數(shù)據(jù)集建設(shè)中主動融入中華優(yōu)秀傳統(tǒng)文化、社會主義核心價值觀,避免模型成為利己主義的工具。
會上,高質(zhì)量數(shù)據(jù)集建設(shè)先行先試工作正式啟動,并公布了工作參與單位名單。同時,中國信息通信研究院院長余曉暉發(fā)布了《高質(zhì)量數(shù)據(jù)集建設(shè)指引》;北京大學(xué)助理教授、銀河通用創(chuàng)始人兼首席技術(shù)官、智源學(xué)者王鶴發(fā)布了《高質(zhì)量合成數(shù)據(jù)集驅(qū)動的具身VLA大模型及開源數(shù)據(jù)》。
據(jù)了解,本次活動由國家數(shù)據(jù)局主辦,中國信息通信研究院、中國移動通信集團(tuán)有限公司承辦。來自相關(guān)政府部門、研究機(jī)構(gòu)、高校院所和企事業(yè)單位的專家代表一同參加。(哈建偉)
編輯:遲明緒