text-classifier-collection - Java 文本分类器集合


GPL
跨平台
Java

软件简介

文本分类器集合

一个强大易用的Java文本分类工具包

特色

  • 功能全面

    • 内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等

    • 内置SVM、kNN、朴素贝叶斯等多种分类器

    • 内置支持CSV等格式数据的读取

  • 高度可定制

    • 你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等

    • 可以轻易实现你自己的分类器而与工具包中其它工具一起使用

  • 容易使用

    • 可自动按给定数据集选取最优分类器

    • 与Java8引入的流和函数式API无缝结合

效果

数据集 样本数 分类数 准确率
[YouTube Spam Collection](http://archive.ics.uci.edu/ml/datasets/YouTube+Spam+Collection) 1956 2 92.1%
[SMS Spam Collection](http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection) 5574 2 98.2%
[Sentence Classification](http://archive.ics.uci.edu/ml/datasets/Sentence+Classification) 1510 5 80.4%
[Reuters-21578 Text Categorization Collection](http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection) 21578 135 59.8%
[Reuters-21578 Text Categorization Collection](http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection) 21578 175 67.8%