我在表格中存储了HTML片段。 不是整个页面,没有标签等,只是基本格式。
我希望能够在给定页面上将Html仅显示为文本,而 无需设置格式 (实际上只是前30-50个字符,但这很容易)。
如何将Html中的“文本”作为纯文本放入字符串中?
所以这段代码。
<b>Hello World.</b><br/><p><i>Is there anyone out there?</i><p>
成为:
你好,世界。有没有人在那里?
如果您在谈论标签剥离,那么无需担心<script>标签之类的事情就相对简单了。如果您需要做的就是显示不带标签的文本,则可以使用正则表达式完成此操作:
<script>
<[^>]*>
如果您确实需要担心<script>标记之类的问题,那么您将需要比正则表达式更强大的功能,因为您需要跟踪状态,更像是上下文无关语法(CFG)。虽然您可能可以通过“从左到右”或非贪婪匹配来实现。
如果您需要CFG的更复杂的行为,我建议您使用第三方工具,但不幸的是,我不知道要推荐哪种工具。