Duke - 重复数据删除


Apache
跨平台
Java

软件简介

Duke 是一个快速灵活的去除重复数据的引擎,基于 Lucene
开发,普通笔记本电脑可以在 11 分钟内处理完 100 万条记录。

下图是 Duke 的架构: