小编典典

解析Java中的元标记

java

我有一个HTML文档集合,我需要为其解析部分中标记的内容。这些是我感兴趣的唯一HTML标记,即不需要在部分中解析任何内容。

我试图使用JDom提供的XPath支持来解析这些值。但是,这不能很好地解决,因为部分中的许多HTML都是无效的XML。

有人对我可能如何处理格式错误的HTML解析这些标记值有任何建议吗?

干杯,唐


阅读 193

收藏
2020-11-26

共1个答案

小编典典

您可能会使用Jericho HTML
Parser
。特别是,请查看此内容以了解如何查找特定标签。

2020-11-26