我有五个输入到CountVectorizer的文本文件。为CountVectorizer实例指定min_df和max_df时,最小/最大文档频率到底是什么意思?是某个单词在其特定文本文件中的出现频率,还是整个整体语料库(5个txt文件)中该单词的出现频率?
当min_df和max_df作为整数或浮点数提供时有何不同?
该文档似乎没有提供详尽的解释,也没有提供示例来演示min_df和/或max_df的用法。有人可以提供说明或示例来演示min_df或max_df。
max_df用于删除出现 频率太高的 术语,也称为“特定于语料库的停用词”。例如:
max_df
max_df = 0.50
max_df = 25
默认max_df值为1.0,表示“忽略出现在 100%以上文档中的 术语”。因此,默认设置不会忽略任何术语。
1.0
min_df用于删除 不太常见的 术语。例如:
min_df
min_df = 0.01
min_df = 5
默认min_df值为1,表示“忽略 少于1个文档 中出现的术语”。因此,默认设置不会忽略任何术语。
1