这是一个简单的中文分词程序,可以在没有语料库的情况下通过各个词语的相关度将中文词汇抽取出来 具体的理论可以参看Matrix67的博客文章: http://www.matrix67.com/blog/archives/5044
我只是把这个算法进行了实现而已。
该程序写得比较着急,还有很多地方可以进行速度上的优化。