小编典典

从字符串中删除 HTML 标记

all

有没有从 Java 字符串中删除 HTML 的好方法?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会工作,但&amp;不会正确转换,两个尖括号之间的非 HTML 将被删除(即.*?正则表达式中的 将消失)。


阅读 138

收藏
2022-03-15

共1个答案

小编典典

使用 HTML 解析器而不是正则表达式。这对于Jsoup来说非常简单。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup 还支持针对可自定义的白名单删除 HTML 标记,如果您只想允许例如<b>和.<i>``<u>

2022-03-15