2025年1月9日,在中國網(wǎng)絡空間安全協(xié)會人工智能安全治理專業(yè)委員會工作年會上,中文互聯(lián)網(wǎng)語料資源平臺正式面向社會發(fā)布。平臺支持行業(yè)領域、體量規(guī)模、內(nèi)容模態(tài)等多種標簽分類,便于用戶下載與使用。
據(jù)了解,這項創(chuàng)新成果是在中央網(wǎng)信辦指導下,由中國網(wǎng)絡空間安全協(xié)會會同國家互聯(lián)網(wǎng)應急中心,協(xié)同人工智能產(chǎn)、學、研、用單位共同打造的。
值得一提的是,中文互聯(lián)網(wǎng)語料資源平臺已入駐27個語料數(shù)據(jù)集,數(shù)據(jù)總量約2.7T。下一步,平臺將依托中國網(wǎng)絡空間安全協(xié)會人工智能安全治理專委會建立的語料共建共享機制,持續(xù)吸納優(yōu)質中文互聯(lián)網(wǎng)語料進駐,探索開展數(shù)據(jù)來源合規(guī)評估、質量評價、安全檢測等服務,構建健康可持續(xù)的中文互聯(lián)網(wǎng)語料開發(fā)利用生態(tài),促進和支撐大模型產(chǎn)業(yè)發(fā)展。