小编典典

文本文件的信息增益计算?

java

我正在研究 “使用信息获取,PCA和遗传算法的文本分类”, 但是在对文档执行 预处理
(词干,停用词删除,TFIDF)后,m困惑了如何继续进行信息获取部分。

我的 out文件 包含 word, 并且有 TFIDF 值。

WORD-TFIDF VALUE

在一起(单词)-0.235(tfidf值)

come(word)-0.2548(tfidf值)

当使用weka进行信息获取(“ InfoGainAttributeEval.java ”)时,它需要 .arff 文件格式作为输入。

是否有将 文本 文件转换为 .arff 格式的文件。还是除weka之外的其他获取信息的方式?

还有其他开放源代码来计算文档的信息增益吗?


阅读 287

收藏
2020-11-26

共1个答案

小编典典

我找到了答案。在此,我们必须生成 arff 文件。

在.arff文件中

@RELATION部分 将包含经过 预处理 后整个文档中存在的所有单词。每个单词都将是 实数 类型,因为 tfidf值
是实数。

@data节* 将包含在 预处理 期间计算的 tfidf 值。例如,第一个将包含 tfidf值的
第一个文档中出现的所有单词,最后将文档分类。
***

@RELATION filename
@ATTRIBUTE word1 real
@ATTRIBUTE word2 real
@ATTRIBUTE word3 real
.
.
.
.so on
@ATTRIBUTE class {cacm,cisi,cran,med}

@data
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.55454479562,0.1619617,0.579562,0.5542,cisi
0.5545479562,0.27,0.554544479562,0.4479562,cisi
0.0,0.2396113617,0.44479562,0.2,cran
0.5545479562,0.27,0.554544479562,0.4479562,carn
0.5545177444479562,0.26196113617,0.0,0.0,med
0.5545479562,0.27,0.554544479562,0.4479562,med

生成此文件后,您可以将此文件作为输入InfoGainAttributeEval.java。这对我有用。

2020-11-26