我已经从https://github.com/percyliang/brown- cluster运行了Brown- clustering算法,还从python实现了https://github.com/mheilman/tan- clustering。并且它们都为每种唯一令牌提供某种二进制和另一种整数。例如:
0 the 6 10 chased 3 110 dog 2 1110 mouse 2 1111 cat 2
二进制和整数是什么意思?
在第一个链接中,二进制文件称为a bit- string,请参见http://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/
bit- string
但是,如何从输出中得知dog and mouse and cat一个群集而the and chased不是同一群集?
dog and mouse and cat
the and chased
如果我理解正确,该算法会为您提供一棵树,您需要在某种程度上截断它才能得到簇。如果是那些位串,则应仅输入第一个L字符。
L
例如,剪切第二个字符可为您提供两个群集
10 chased 11 dog 11 mouse 11 cat
在第三个字符处,您得到
110 dog 111 mouse 111 cat
切割策略是一个不同的主题。