我已经使用htmldoc一段时间了,但是遇到了一些相当严重的限制。我需要最终解决方案才能在Linux机器上工作。我将从Perl应用程序调用此库/实用程序/应用程序,因此任何Perl接口都将是一个奖励。
注意:此答案来自2008年,现在可能不正确;请检查其他答案
PrinceXML是我见过的最好的XML(它解析常规HTML以及XML / XHTML)。最好吗?好吧,它通过了acid2测试,我认为这真是令人印象深刻
但是,它很贵