「NLPIR微博博主語料庫100萬條」是北京理工大學網路搜索挖掘與安全實驗室張華平博士,從新浪微博、騰訊微博中透過公開蒐集與抽取獲得的。深入進行微博計算的研究後,透過自然語言處理與資訊檢索共用平臺(www.nlpir.org)予以公開共用其中的100萬條資料,目前已有接近1億的資料,已經剔除了大量的冗餘與機器粉絲。收錄的微博語料包含:內部ID、性別、家庭住址、粉絲數目、個人摘要、微博數量、關注數量、博客地址、教育情況、工作情況、是否認證、生日。