如何在C#中使用正则表达式删除所有HTML标记,包括&nbsp。我的弦看起来像
"<div>hello</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div> </div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div>"
如果您不能使用面向HTML解析器的解决方案来过滤标签,则这里有一个简单的正则表达式。
string noHTML = Regex.Replace(inputHTML, @"<[^>]+>| ", "").Trim();
理想情况下,您应该再次通过正则表达式过滤器,该过滤器将多个空格
string noHTMLNormalised = Regex.Replace(noHTML, @"\s{2,}", " ");