小编典典

PHP解析HTML代码

html

我如何解析包含在PHP变量中的HTML代码,例如:

<h1>T1</h1>Lorem ipsum.<h1>T2</h1>The quick red fox...<h1>T3</h1>... jumps over the lazy brown FROG!

我只想 获取标题之间的文本, 并且我知道使用正则表达式不是一个好主意。


阅读 1570

收藏
2020-05-10

共1个答案

小编典典

使用PHP 文档对象模型:

<?php
   $str = '<h1>T1</h1>Lorem ipsum.<h1>T2</h1>The quick red fox...<h1>T3</h1>... jumps over the lazy brown FROG';
   $DOM = new DOMDocument;
   $DOM->loadHTML($str);

   //get all H1
   $items = $DOM->getElementsByTagName('h1');

   //display all H1 text
   for ($i = 0; $i < $items->length; $i++)
        echo $items->item($i)->nodeValue . "<br/>";
?>

输出为:

 T1
 T2
 T3

[编辑]:OP澄清后:

如果您想要类似 Lorem ipsum 的内容 等,您可以直接使用此正则表达式:

<?php
   $str = '<h1>T1</h1>Lorem ipsum.<h1>T2</h1>The quick red fox...<h1>T3</h1>... jumps over the lazy brown FROG';
   echo preg_replace("#<h1.*?>.*?</h1>#", "", $str);
?>

输出:

Lorem ipsum。快速的红狐狸……跳过了懒惰的棕色FROG

2020-05-10