到目前为止,我一直在使用Cobra,因为它很容易,但是不幸的是,它在一些测试用例中存在一些问题。有人建议使用经过测试的库吗?
我尝试了Cobra内置的HTMLCleaner并没有运气。
Mozilla HTML Parser 看起来很有趣。根据定义,它应该和Gecko引擎本身一样好,这很可能满足您的需
当处理糟糕的HTML / XHTML时,TagSoup确实很棒。
Jericho(和NekoHTML)也可以解析无效的HTML。
TagSoup和Jericho:久经考验。NekoHTML:来自可靠来源的反馈。