「NLPIR twitter內容語料庫」是北京理工大學網路搜索挖掘與安全實驗室張華平博士,從twitter中透過公開蒐集與抽取獲得的。深入進行微博計算的研究後,透過自然語言處理與資訊檢索共用平臺(www.nlpir.org)予以公開共用其中的500萬條資料,目前已有接近1億的資料,已經剔除了大量的冗餘與機器粉絲。收錄的微博語料包含:使用者ID、該條twitter內容。