什么HTML解析器具有以下功能:
您认为哪种解析器更好?
谢谢。
ApacheTika是最佳选择。Apache最近从现有项目中提取了许多子项目并将其公开。提卡(Tika)是其中之一,以前是Apache Lucene的组件。由于Apache的支持和声誉以及广泛使用的父项目Lucene,它肯定是一个很好的选择。此外,它是开源的。
Apache Tika网站的简要介绍:
Apache Tika™工具箱使用现有的解析器库从各种文档中检测并提取元数据和结构化文本内容。
支持的格式有:
HyperText Markup Language XML and derived formats Microsoft Office document formats OpenDocument Format Portable Document Format Electronic Publication Format Rich Text Format Compression and packaging formats Text formats Audio formats Image formats Video formats Java class files and archives The mbox format