小编典典

从包含C#的字符串中删除HTML标签

html

如何在C#中使用正则表达式删除所有HTML标记,包括&nbsp。我的弦看起来像

  "<div>hello</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div>"

阅读 343

收藏
2020-05-10

共1个答案

小编典典

如果您不能使用面向HTML解析器的解决方案来过滤标签,则这里有一个简单的正则表达式。

string noHTML = Regex.Replace(inputHTML, @"<[^>]+>|&nbsp;", "").Trim();

理想情况下,您应该再次通过正则表达式过滤器,该过滤器将多个空格

string noHTMLNormalised = Regex.Replace(noHTML, @"\s{2,}", " ");
2020-05-10