我正在解析句子。我想知道每个句子的相关内容,这些句子相对于语料库的其余部分松散地定义为“半唯一单词”。类似于亚马逊的“统计上不可能的短语”,它似乎(经常)通过古怪的单词串传达一本书的特征。
我的第一步是开始制作常用单词列表。这击倒难办喜欢a,the,from,等。显然,事实证明,这个名单变得很长。
a
the
from
一个想法是生成此列表:对语料库的单词频率进行直方图分析,然后将前10%或类似的值倒掉(IE the发生700次,from600次,但micropayments只有50 次,在临界值以下,因此是相关的) 。
micropayments
我今天从Hacker News中学到的另一个算法是Tf idf,它看起来可能会有所帮助。
还有什么其他方法比我的两个想法更好?
看一下这篇文章( 单词的级别统计:在文学文本和符号序列中查找关键字 ,发表在 Phys。Rev. E上 )。
第一页上的图片及其标题解释了至关重要的观察结果。在 Don Quixote中 ,单词“ but”和“ Quixote”以相似的频率出现,但是它们的频谱却大不相同(“ Quixote”的出现是聚类的,而“ but”的出现则更为均匀)。因此,“ Quixote”可以被分类为一个有趣的单词(关键字),而“ but”却被忽略。
它可能是您想要的,也可能不是,但我想熟悉此结果不会对您造成伤害。