为了方便大家的下载及使用,整理了一些常用的中文语料库。

1.国家语委语料

   CorpusWordlist(现代汉语语料库词语频率表):语料规模2000万字

   CorpusWordPOSlist(现代汉语语料库词语分词类频率表):预料规模2000万字

   下载地址:http://pan.baidu.com/s/1clDJYm          提取密码:uytw

2.人民日报语料

    以1998年人民日报语料为对象,将文本分词且标注词性的语料库。

   下载地址:http://pan.baidu.com/s/1hs9NWpe          提取密码:kdkd

3.搜狗分类语料

    包括对搜狐新闻语料的分类,以及全网新闻语料分类两部分。

   下载地址:http://pan.baidu.com/s/1qYGttY8          提取密码:ngtf

4.哈工大语料

    包括汉英双语语料库、汉语依存树库、同义词词林扩展版、问答系统问题集、单文档自动文摘语料库、多文档自动文摘语料库。

   下载地址:http://pan.baidu.com/s/1o7KkQAe          提取密码:h39a

5.复旦分类语料

    将文本分为20个类别。

   下载地址:http://pan.baidu.com/s/1hsqRksk          提取密码:1y87

6.分词引擎测试语料

    通过不同的分词工具对多种语料进行分词及标注。

   下载地址:http://pan.baidu.com/s/1c3U8Cu         提取密码:gmum

7.李荣陆老师的中文语料库

    下载地址:http://www.datatang.com/data/119688.谭松波老师的中文文本分类语料

   不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。

    下载地址:http://www.datatang.com/data/11970

9.网易分类文本数据

   包含运动、汽车等六大类的4000条文本数据。

   下载地址:http://www.datatang.com/data/11965