小编典典

了解scikit CountVectorizer中的min_df和max_df

python

我有五个输入到CountVectorizer的文本文件。为CountVectorizer实例指定min_df和max_df时,最小/最大文档频率到底是什么意思?是某个单词在其特定文本文件中的出现频率,还是整个整体语料库(5个txt文件)中该单词的出现频率?

当min_df和max_df作为整数或浮点数提供时有何不同?

该文档似乎没有提供详尽的解释,也没有提供示例来演示min_df和/或max_df的用法。有人可以提供说明或示例来演示min_df或max_df。


阅读 224

收藏
2020-12-20

共1个答案

小编典典

max_df用于删除出现 频率太高的 术语,也称为“特定于语料库的停用词”。例如:

  • max_df = 0.50表示“忽略出现在 50%以上文档中的 术语”。
  • max_df = 25表示“忽略出现在 25个以上文档中的 术语”。

默认max_df值为1.0,表示“忽略出现在 100%以上文档中的 术语”。因此,默认设置不会忽略任何术语。


min_df用于删除 不太常见的 术语。例如:

  • min_df = 0.01表示“忽略出现在 少于1%的文档中的 术语”。
  • min_df = 5表示“忽略 少于5个文档 中出现的术语”。

默认min_df值为1,表示“忽略 少于1个文档 中出现的术语”。因此,默认设置不会忽略任何术语。

2020-12-20