一区二区三区日_色又黄又爽18禁免费网站_日本三级吃奶头添泬无码苍井空_久久av在线影院_亚洲精品乱码久久久久久久久久久久_夫妇交换性三中文字幕_亚洲天天做日日做天天欢毛片_国产成人综合怡春院精品_99re在线视频观看_日韩久久成人

×

4006-234-116

13681552278

手機版

公眾號

天晴創藝網站建設公司。主要為北京、天津全國各地提供網站建設與網頁設計制作服務,歡迎大家咨詢。您的IP地址是:137.175.88.153。今天是:,,(),,現在是:9:43:23 PM,

GitHub出現一個大型中文NLP資源宣稱要放出億級語料庫

作者:天晴創藝發布時間:2/14/2019 3:24:05 PM瀏覽次數:11663文章出處:北京網站開發

      中文信息很多,但要找到合適的中文語料很難。
      有人看不下去了,在GitHub上開了一個項目,專門貢獻中文語料資源。
      他說,要為解決中文語料難找貢獻一份力量。
      什么樣的資源?
      目前,這個項目中一共有3種json版資源:
      包含104萬個詞條的維基百科資源,包含250萬篇新聞的新聞語料,以及包含150萬個問答的百科類問答資源。
GitHub出現一個大型中文NLP資源宣稱要放出億級語料庫

      一般來說,這些資源可以作為通用的中文語料,用于預訓練或者構建詞向量等等。
      不同的資源,用處也有不同,比如維基百科和問答百科,可以用來構建知識問答等等。
      新聞語料資源,囊括了標題、關鍵詞、描述和正文,也可以用來訓練標題生成模型、關鍵詞生成模型等等。
      此外,在對數據集劃分過的新聞語料和百科類問答資源中,只提供訓練集和驗證集高端網站建設,不提供測試集數據的下載。
      是因為——
      希望更多人參與
      資源的貢獻者表示,希望大家報告模型在驗證集上的準確率,并提供模型信息、方法描述、運行方式,以及可運行的源代碼(可選)。
      這些信息都有的話,資源貢獻者會在測試集上測試模型,并給出準確率。
      他表示,項目中的語料庫將會不斷擴充教育網站建設,號召大家多多貢獻資源,并給出了相應的目標:
      到2019年5月1日,放出10個百萬級中文語料&3個千萬級中文語料。
      到2019年12月31日鴻翔創意廣告,放出30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料。
      從目前已經有的資源來看,一個語料可以是一個問答,也可以是一個詞條等等。
      這份資源的貢獻者,名為徐亮,杭州實在智能的算法專家,主要關注文本分類、意圖識別、問答和面向任務的對話。

文章來源:北京網站開發

文章標題:GitHub出現一個大型中文NLP資源宣稱要放出億級語料庫

文本地址:http://m.yoyoenglish.cn/info_1087.html

收藏本頁】【打印】【關閉

本文章Word文檔下載:word文檔下載 GitHub出現一個大型中文NLP資源宣稱要放出億級語料庫

用戶評論

客戶評價

專業的網站建設、響應式、手機站微信公眾號開發

© 2010-2022 北京天晴創藝科技有限公司 版權所有 京ICP備16050845號-2   

關注公眾號 關注公眾號

進入手機版 進入手機版

主站蜘蛛池模板: 黔西县| 株洲县| 大姚县| 师宗县| 武定县| 启东市| 庆云县| 滦平县| 安康市| 沙坪坝区| 河曲县| 蒲江县| 尼木县| 海丰县| 疏勒县| 民丰县| 泸西县| 竹溪县| 五常市| 五台县| 克拉玛依市| 贺州市| 新巴尔虎右旗| 黔西| 山东省| 沿河| 宣城市| 大渡口区| 景宁| 黄浦区| 贵州省| 夏邑县| 河源市| 兴城市| 乌拉特前旗| 鄂托克前旗| 新和县| 门源| 门源| 文昌市| 封丘县|