我什么时候使用每个?
另外… NLTK 词形还原是否依赖于词性?如果是这样不是更准确吗?
简短而密集: http: //nlp.stanford.edu/IR-book/html/htmledition/stemming-and- lemmatization-1.html
词干提取和词形还原的目标都是将词的屈折形式和有时派生相关的形式减少为共同的基本形式。 但是,这两个词的味道不同。词干提取通常是指一种粗略的启发式过程,该过程会切断单词的结尾,以希望在大多数情况下正确地实现这一目标,并且通常包括删除派生词缀。词形还原通常是指使用词汇表和词的形态分析正确地做事,通常旨在仅删除屈折词尾并返回单词的基本或字典形式,这被称为引理。
词干提取和词形还原的目标都是将词的屈折形式和有时派生相关的形式减少为共同的基本形式。
但是,这两个词的味道不同。词干提取通常是指一种粗略的启发式过程,该过程会切断单词的结尾,以希望在大多数情况下正确地实现这一目标,并且通常包括删除派生词缀。词形还原通常是指使用词汇表和词的形态分析正确地做事,通常旨在仅删除屈折词尾并返回单词的基本或字典形式,这被称为引理。
来自 NLTK 文档:
词形还原和词干化是规范化的特殊情况。他们确定了一组相关词形的规范代表。