谁能推荐C或Objective-C库进行HTML解析?它需要处理无法完全验证的凌乱的HTML代码。
这样的库是否存在,还是我最好只是尝试使用正则表达式?
看起来像是libxml2.2SDK中附带的,并libxml/HTMLparser.h具有以下特征:
libxml2.2
libxml/HTMLparser.h
该模块使用与XML解析器兼容的API来实现HTML4.0非验证解析器。即使从规范的角度来看严重损坏,它也应该能够解析“真实世界”的HTML。
这听起来像我所需要的,所以我可能会使用它。