GitHub出現一個大型中文NLP資源宣稱要放出億級語料庫

作者：天晴創藝發布時間：2/14/2019 3:24:05 PM瀏覽次數：11663文章出處：北京網站開發

中文信息很多，但要找到合適的中文語料很難。
  有人看不下去了，在GitHub上開了一個項目，專門貢獻中文語料資源。
  他說，要為解決中文語料難找貢獻一份力量。
  什么樣的資源？
  目前，這個項目中一共有3種json版資源：
  包含104萬個詞條的維基百科資源，包含250萬篇新聞的新聞語料，以及包含150萬個問答的百科類問答資源。

  一般來說，這些資源可以作為通用的中文語料，用于預訓練或者構建詞向量等等。
  不同的資源，用處也有不同，比如維基百科和問答百科，可以用來構建知識問答等等。
  新聞語料資源，囊括了標題、關鍵詞、描述和正文，也可以用來訓練標題生成模型、關鍵詞生成模型等等。
  此外，在對數據集劃分過的新聞語料和百科類問答資源中，只提供訓練集和驗證集高端網站建設，不提供測試集數據的下載。
  是因為——
  希望更多人參與
  資源的貢獻者表示，希望大家報告模型在驗證集上的準確率，并提供模型信息、方法描述、運行方式，以及可運行的源代碼（可選）。
  這些信息都有的話，資源貢獻者會在測試集上測試模型，并給出準確率。
  他表示，項目中的語料庫將會不斷擴充教育網站建設，號召大家多多貢獻資源，并給出了相應的目標：
  到2019年5月1日，放出10個百萬級中文語料&3個千萬級中文語料。
  到2019年12月31日鴻翔創意廣告，放出30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料。
  從目前已經有的資源來看，一個語料可以是一個問答，也可以是一個詞條等等。
  這份資源的貢獻者，名為徐亮，杭州實在智能的算法專家，主要關注文本分類、意圖識別、問答和面向任務的對話。

，

文章來源：北京網站開發

文章標題：GitHub出現一個大型中文NLP資源宣稱要放出億級語料庫

文本地址：http://m.yoyoenglish.cn/info_1087.html

【收藏本頁】【打印】【關閉】

本文章Word文檔下載： GitHub出現一個大型中文NLP資源宣稱要放出億級語料庫



關注微信公眾號

關注官方微博 Rss訂閱本站信息 在線咨詢

上一篇：民宿類途家APP改版設計與思考
下一篇：谷歌和IBM決戰云市場亞馬遜微軟能否被超越

用戶評論

最新網站建設公司

客戶評價

我們想建一個網站，請問你們做網站多少錢，我們想做一個企業官網。3/4/2019
工作認真負責，全程專人負責溝通，不停的完善細節，值得推薦！12/12/2019
公司急需上線營銷型網站，他們制作團隊火力全開，不僅按時完成任務，還主動優化細節。網站上線后轉化率顯著提升，精準抓住了目標客戶的眼球，必須瘋狂安利！5/16/2025
非常好的一次合作。溝通很耐心！價格很實惠！真的非常推薦哦。我們的很多要求在和設計師的持續溝通后得到了完美的解決，挺專業的一家公司，以后會繼續合作～12/11/2019
你們做的網站案例都很不錯，請問做一個網站多少錢。2/21/2019
原本擔心小預算做不出滿意的網站，沒想到這家網站制作公司給了我驚喜！設計師巧妙構思，用有限的預算打造出極具質感的頁面，功能也完全滿足需求，性價比真的絕了！5/16/2025
我想做一個企業網站，你們做網站多少錢，我要做響應式的網站，請問網站建設怎么收費呢？2/19/2019
合作之前擔心售后服務不好，結果完全是多余的！網站制作完成后，他們依然耐心解答各種問題，還定期回訪，幫忙優化網站，這樣的良心團隊必須長期合作！5/16/2025
一個企業網站要多久可以做完呢，響應式網站是什么意思呢？2/21/2019
找了好幾家網站制作公司對比，最終選定他們，事實證明這個決定太明智了！從溝通需求到成品交付，全程高效又專業，制作出的網站界面精美大氣，完美契合我們品牌形象，合作體驗超棒！5/16/2025
網站制作過程中難免會有修改需求，他們從來沒有不耐煩，每次都快速響應，及時調整。這種認真負責的態度，還有過硬的制作技術，讓人特別放心！5/16/2025
我們想做一個網站，找一家北京網站建設公司，你們是網站外包公司嗎？都做個哪些案例呢？4/25/2019
為了打造個性化的個人博客，找了很多制作團隊，只有他們能 get 到我的創意點。從頁面布局到色彩搭配，都充滿獨特風格，完美展現了我的個人特色，太愛了！5/16/2025
我看你們公司網站建設seo優化的不錯，好幾個詞都做到首頁了，網站開發，網站制作這些都做的很好，我想找你們公司做網站，可以順便幫我們優化嗎？11/1/2021
他們的網站制作水平堪稱一流！無論是電商網站的商品展示模塊，還是企業官網的交互設計，都做得細致入微，細節之處盡顯專業，合作過就知道有多靠譜！5/16/2025
這家網站制作公司太懂客戶需求了！我只是簡單描述了想要的風格，設計師就給出了超驚艷的方案，制作過程中還不斷根據反饋優化，最終成果比想象中還要好！5/16/2025
性價比挺高的定制網站！確實超出我們的預期.12/11/2019
之前的網站陳舊落后，嚴重影響公司形象。這次找他們重新制作，新網站不僅顏值高，操作也十分流暢，后臺管理系統更是簡潔明了，員工使用起來都贊不絕口！5/16/2025
網站相當實惠，而且排版設計也不錯，后臺搭建簡單明了，修改、發布、信息上傳也很方便。特別是售后，任何相關問題不懂的都可以問，很不錯的公司。有好幾次，因為自己不是太懂，所以中間弄錯了幾個地方，技術很負責任，都幫我又調好了。簡單易學，服務到位，都要和他們成為朋友了，哈哈，推薦推薦。12/12/2019
第一次接觸網站制作，什么都不懂，幸好遇到他們！團隊特別耐心，從域名注冊到網站搭建，手把手指導，還教了很多實用的運營小技巧，小白也能輕松上手！5/16/2025

GitHub出現一個大型中文NLP資源宣稱要放出億級語料庫

用戶評論

最新案例

最新資訊

最新方案

最新網站建設公司

客戶評價