一个强大易用的Java文本分类工具包
功能全面
内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等
内置SVM、kNN、朴素贝叶斯等多种分类器
内置支持CSV等格式数据的读取
高度可定制
你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等
可以轻易实现你自己的分类器而与工具包中其它工具一起使用
容易使用
可自动按给定数据集选取最优分类器
与Java8引入的流和函数式API无缝结合