我正在使用HtmlCleaner库进行html内容提取。它工作正常,但没有什么限制。
它无法处理特殊字符,例如&pound或引号等。例如,用于url:http : //www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan- classukmadespan-p-280 .html,在给xpath价格时,它给了我“&磅;” 代替£
我们可以在htmlcleaner中设置任何属性来处理此解决方案或任何其他解决方案。
谢谢
吉滕德拉
不,我不相信HtmlCleaner可以做到这一点。但是,您可以使用Apache Commons StringEscapeUtils来“转义” html,如下所示:
StringEscapeUtils.unescapeHtml("£679.00");
会产生£679.00。
£679.00
我建议您尝试使用JSoup而不是HtmlCleaner。