在日常的很多项目中我们总会遇到各种各样的格式转换问题,这让我头疼不已。尤其是在window占领pc机大部分系统的今天,doc及docx格式虽然已经开放,但是对于一个一般开发者来说依然无法处理。所以我们研究了doc及docx文件格式写出了DocumentExtractor。
本项目简单易用,对外接口仅有三个分别为open ,getText ,close ,简单明了,易于使用。同时这仅仅是一个草稿版本,在构架及代码设计方面存在很多问题。我会尽快开发正式版本,