simhash-java - simhash 算法的 java 实现


MIT
跨平台
Java

软件简介

simhash 算法的 java 实现。

特点

  • 计算字符串的 simhash

  • 通过构建智能索引来计算所有字符串之间的相似性,因此可以处理大数据

使用

  • 使用输入文件和输出文件运行 Main

  • inputfile 的格式(参见 src / test_in):一个文件每行用 utf8 字符集

  • outputfile 格式

    start //start flag

    first line // doc

    sencode lien // doc1\tdist the dist is the hamming distance between doc and doc1 

    end //end flag