有在TF-IDF的实现scikit-learn和gensim。
scikit-learn
gensim
有简单的实现Python中的N-Gram,tf- idf和余弦相似性的简单实现
为了避免重新发明轮子,
在该博客文章中,NLTK没有它。 真的吗? http://www.bogotobogo.com/python/NLTK/tf_idf_with_scikit- learn_NLTK.php
NLTK TextCollection类具有一种用于计算术语tf- idf的方法。文档在这里,源在这里。但是,它说“加载可能很慢”,因此使用scikit- learn可能更可取。