Minidx 这一组件是专门为开发人员准备的,利用Minidx Extract-Text Com组件,您可以轻松的从Word,Xls,Pdf……等200多种文件格式中读取文本内容。该组件本身用C++编写,以Com组件的形式调用,您可以 在一切可以调用Com组件的开发语言中调用这一组件,快速的抽取各种文本内容。
Minidx是一个文件管理系统。它具有: *自带超高速全文搜索引擎,瞬间找到所需要的文件 *具有自己的存储系统,安全的管理重要文档 *可存储与管理TB级别的数据,数据量的大小对系统运行的效率影响甚微 *采用IFilter抽取文本,无须安装例如Office的应用程序即可阅读内容 *基于Unicode编码,可正常输入/显示多国语言 *高亮语法显示,方便地阅读多种文档 *检索结果高亮显示,方便查看 *模糊查询,自动识别同义词 例如要查询where时,输入whe也能得到结果 *自带Web服务器,可方便的在Internet/局域网共享所管理的文档 *独立的P2P功能,可自由选择启动服务端/客户端,或者同时启动 *可以根据创建时间,修改时间,访问时间,标题,存储路径,内容等各项属性分等级,分目录地实现精确查询 *可方便设定过滤字段
搜索引擎特性: *整个引擎非常小,由2万多行C/C代码实现 *标准C/C编写,几乎可以运行在所有的系统 *无需太多内存,在较低的硬件环境下也可以运行而不影响效率 *方便的集成到各种系统,利用Minidx引擎,仅仅需要添加几行代码就可以让系统具有全文检索功能 *超高速检索,百万条记录也能在毫秒内返回结果 *字,词,句检索 *条件”与”,”或”查询,以及他们的组合查询 *采用UNICODE字符集,多国语言字符串混合查询 *精确查询,甚至一个标点符号也可以精确定位