文本文件的信息增益计算？

小编典典

文本文件的信息增益计算？

java

我正在研究 “使用信息获取，PCA和遗传算法的文本分类”， 但是在对文档执行 预处理
（词干，停用词删除，TFIDF）后，m困惑了如何继续进行信息获取部分。

我的 out文件 包含 word， 并且有 TFIDF 值。

像 WORD-TFIDF VALUE

在一起（单词）-0.235（tfidf值）

come（word）-0.2548（tfidf值）

当使用weka进行信息获取（“ InfoGainAttributeEval.java ”）时，它需要 .arff 文件格式作为输入。

是否有将文本文件转换为 .arff 格式的文件。还是除weka之外的其他获取信息的方式？

还有其他开放源代码来计算文档的信息增益吗？

阅读 287

2020-11-26

共1个答案

小编典典

我找到了答案。在此，我们必须生成 arff 文件。

在.arff文件中

@RELATION部分 将包含经过 预处理 后整个文档中存在的所有单词。每个单词都将是实数类型，因为 tfidf值
是实数。

@data节* 将包含在 预处理 期间计算的 tfidf 值。例如，第一个将包含 tfidf值的
第一个文档中出现的所有单词，最后将文档分类。 ***

@RELATION filename
@ATTRIBUTE word1 real
@ATTRIBUTE word2 real
@ATTRIBUTE word3 real
.
.
.
.so on
@ATTRIBUTE class {cacm,cisi,cran,med}

@data
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.55454479562,0.1619617,0.579562,0.5542,cisi
0.5545479562,0.27,0.554544479562,0.4479562,cisi
0.0,0.2396113617,0.44479562,0.2,cran
0.5545479562,0.27,0.554544479562,0.4479562,carn
0.5545177444479562,0.26196113617,0.0,0.0,med
0.5545479562,0.27,0.554544479562,0.4479562,med

生成此文件后，您可以将此文件作为输入InfoGainAttributeEval.java。这对我有用。

2020-11-26