有没有从 Java 字符串中删除 HTML 的好方法?一个简单的正则表达式
replaceAll("\\<.*?>", "")
会工作,但&不会正确转换,两个尖括号之间的非 HTML 将被删除(即.*?正则表达式中的 将消失)。
&
.*?
使用 HTML 解析器而不是正则表达式。这对于Jsoup来说非常简单。
public static String html2text(String html) { return Jsoup.parse(html).text(); }
Jsoup 还支持针对可自定义的白名单删除 HTML 标记,如果您只想允许例如<b>和.<i>``<u>
<b>
<i>``<u>