中文信息很多,但要找到合適的中文語料很難。
有人看不下去了,在GitHub上開了一個項目,專門貢獻中文語料資源。
他說,要為解決中文語料難找貢獻一份力量。
什么樣的資源?
目前,這個項目中一共有3種json版資源:
包含104萬個詞條的維基百科資源,包含250萬篇新聞的新聞語料,以及包含150萬個問答的百科類問答資源。
一般來說,這些資源可以作為通用的中文語料,用于預訓練或者構建詞向量等等。
不同的資源,用處也有不同,比如維基百科和問答百科,可以用來構建知識問答等等。
新聞語料資源,囊括了標題、關鍵詞、描述和正文,也可以用來訓練標題生成模型、關鍵詞生成模型等等。
此外,在對數據集劃分過的新聞語料和百科類問答資源中,只提供訓練集和驗證集
高端網站建設,不提供測試集數據的下載。
是因為——
希望更多人參與
資源的貢獻者表示,希望大家報告模型在驗證集上的準確率,并提供模型信息、方法描述、運行方式,以及可運行的源代碼(可選)。
這些信息都有的話,資源貢獻者會在測試集上測試模型,并給出準確率。
他表示,項目中的語料庫將會不斷擴充
教育網站建設,號召大家多多貢獻資源,并給出了相應的目標:
到2019年5月1日,放出10個百萬級中文語料&3個千萬級中文語料。
到2019年12月31日
鴻翔創意廣告,放出30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料。
從目前已經有的資源來看,一個語料可以是一個問答,也可以是一個詞條等等。
這份資源的貢獻者,名為徐亮,杭州實在智能的算法專家,主要關注文本分類、意圖識別、問答和面向任務的對話。
,