我正在研究 “使用信息获取,PCA和遗传算法的文本分类”, 但是在对文档执行 预处理 (词干,停用词删除,TFIDF)后,m困惑了如何继续进行信息获取部分。
我的 out文件 包含 word, 并且有 TFIDF 值。
像 WORD-TFIDF VALUE
在一起(单词)-0.235(tfidf值)
come(word)-0.2548(tfidf值)
当使用weka进行信息获取(“ InfoGainAttributeEval.java ”)时,它需要 .arff 文件格式作为输入。
是否有将 文本 文件转换为 .arff 格式的文件。还是除weka之外的其他获取信息的方式?
还有其他开放源代码来计算文档的信息增益吗?
我找到了答案。在此,我们必须生成 arff 文件。
在.arff文件中
@RELATION部分 将包含经过 预处理 后整个文档中存在的所有单词。每个单词都将是 实数 类型,因为 tfidf值 是实数。
@data节* 将包含在 预处理 期间计算的 tfidf 值。例如,第一个将包含 tfidf值的 第一个文档中出现的所有单词,最后将文档分类。 ***
@RELATION filename @ATTRIBUTE word1 real @ATTRIBUTE word2 real @ATTRIBUTE word3 real . . . .so on @ATTRIBUTE class {cacm,cisi,cran,med} @data 0.5545479562,0.27,0.554544479562,0.4479562,cacm 0.5545479562,0.27,0.554544479562,0.4479562,cacm 0.55454479562,0.1619617,0.579562,0.5542,cisi 0.5545479562,0.27,0.554544479562,0.4479562,cisi 0.0,0.2396113617,0.44479562,0.2,cran 0.5545479562,0.27,0.554544479562,0.4479562,carn 0.5545177444479562,0.26196113617,0.0,0.0,med 0.5545479562,0.27,0.554544479562,0.4479562,med
生成此文件后,您可以将此文件作为输入InfoGainAttributeEval.java。这对我有用。
InfoGainAttributeEval.java