您能在此处(以列表或其他形式)显示向量,然后进行数学运算,让我们看看它是如何工作的吗?
这里有两个非常短的文本来比较:
Julie loves me more than Linda loves me
Jane likes me more than Julie loves me
我们想知道这些文本有多相似,纯粹是在字数方面(并且忽略字序)。我们首先列出两个文本中的单词:
me Julie loves Linda than more likes Jane
现在我们计算这些单词在每个文本中出现的次数:
me 2 2 Jane 0 1 Julie 1 1 Linda 1 0 likes 0 1 loves 2 1 more 1 1 than 1 1
不过,我们对这些词本身并不感兴趣。我们只对这两个垂直的计数向量感兴趣。例如,每个文本中有两个“我”实例。我们将通过计算这两个向量的一个函数,即它们之间夹角的余弦来确定这两个文本彼此之间的接近程度。
这两个向量又是:
a: [2, 0, 1, 1, 0, 2, 1, 1] b: [2, 1, 1, 0, 1, 1, 1, 1]
它们之间夹角的余弦值约为 0.822。
这些向量是 8 维的。使用余弦相似度的一个优点显然是将超出人类可视化能力的问题转换为可以可视化的问题。在这种情况下,您可以将其视为大约 35 度的角度,与零或完全一致的“距离”有一段距离。