我正在寻找Python中的生产质量Bloom过滤器实现,以处理相当多的项目(例如100M到1B的项目,误报率为0.01%)。
Pybloom是一种选择,但是它似乎正在显示其年龄,因为它会定期在Python 2.5上引发DeprecationWarning错误。Joe Gregorio也有一个实现。
要求是快速查找性能和稳定性。我也愿意为特别好的c / c ++实现创建Python接口,如果有一个好的Java实现,甚至可以对Jython开放。
缺乏这一点,关于可以处理约16E9位的位阵列/位向量表示形式的任何建议?
最终我找到了pybloomfiltermap。我没有用过,但看起来很合适。