我正在尝试针对一个集合计算字符串的编辑距离,以找到最接近的匹配项。我当前的问题是该集合非常大(大约25000个项目),因此我不得不将集合缩小到仅具有相似长度的字符串,但这仍然只能将其缩小到几千个字符串,而且仍然很慢。是否有可以快速查找相似字符串的数据结构,还是有其他方法可以解决此问题?
听起来像BK树可能就是您想要的。这是一篇讨论它们的文章:http : //blog.notdot.net/2007/4/Damn-Cool-Algorithms- Part-1-BK-Trees。一个快速谷歌产生了一些Java实现。