前几天偶然发现几个非常好的字频、词频数据表,折腾码表的吧友可以看看。
http://www.cncorpus.org/Resources.aspx
前两个表尤其有用,因为它们不像以往那些表只有单字,而是将字词合在一起来算(尤其是第二个表,将词还分类了,不过我暂时没有弄明白两个表有什么不同,得仔细看看页顶那些PDF文档才能弄明白),这样当我们想做带词的码表时,就可以用里面的数据来对重码词条排序,将常用词排在字的前面。
该数据权威。惟一的不足是只统计了两千万字,这实在是太少了。不过由于其中分词都是人工进行的,工作量大,因此可以理解。
http://www.cncorpus.org/Resources.aspx
前两个表尤其有用,因为它们不像以往那些表只有单字,而是将字词合在一起来算(尤其是第二个表,将词还分类了,不过我暂时没有弄明白两个表有什么不同,得仔细看看页顶那些PDF文档才能弄明白),这样当我们想做带词的码表时,就可以用里面的数据来对重码词条排序,将常用词排在字的前面。
该数据权威。惟一的不足是只统计了两千万字,这实在是太少了。不过由于其中分词都是人工进行的,工作量大,因此可以理解。