小编典典

Brown聚类算法输出是什么意思?

algorithm

我已经从https://github.com/percyliang/brown-
cluster运行了Brown-
clustering算法,还从python实现了https://github.com/mheilman/tan-
clustering。并且它们都为每种唯一令牌提供某种二进制和另一种整数。例如:

0        the        6
10        chased        3
110        dog        2
1110        mouse        2
1111        cat        2

二进制和整数是什么意思?

在第一个链接中,二进制文件称为a bit- string,请参见http://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/

但是,如何从输出中得知dog and mouse and cat一个群集而the and chased不是同一群集?


阅读 319

收藏
2020-07-28

共1个答案

小编典典

如果我理解正确,该算法会为您提供一棵树,您需要在某种程度上截断它才能得到簇。如果是那些位串,则应仅输入第一个L字符。

例如,剪切第二个字符可为您提供两个群集

10           chased

11           dog        
11           mouse      
11           cat

在第三个字符处,您得到

110           dog

111           mouse      
111           cat

切割策略是一个不同的主题。

2020-07-28