謝佳玲老師

網站導覽 | 意見信箱 | 關於我們

網站作者:自然語言處理與資訊檢索共用平臺
適用程度:華語教師--CEFR-B1
瀏覽人次:1467
平均評分:

主要類別:參考工具
次要類別:語言資料庫
關鍵字詞:漢語分詞系統、微博、語料庫
網站語言:簡體中文

「NLPIR微博博主語料庫100萬條」是北京理工大學網路搜索挖掘與安全實驗室張華平博士，從新浪微博、騰訊微博中透過公開蒐集與抽取獲得的。深入進行微博計算的研究後，透過自然語言處理與資訊檢索共用平臺(www.nlpir.org)予以公開共用其中的100萬條資料，目前已有接近1億的資料，已經剔除了大量的冗餘與機器粉絲。收錄的微博語料包含：內部ID、性別、家庭住址、粉絲數目、個人摘要、微博數量、關注數量、博客地址、教育情況、工作情況、是否認證、生日。

請為這個資源評分: (選好星星後，按下一滑鼠左鍵再送出評分)

（僅適用於IE）