laravel8(四)使用simple_html_dom库解析html--688IT编程网

laravel8（四）使⽤simple_html_dom库解析html ⾸先：simple_html_dom下载地址：

这是⼀个PHP解析html的⼀个库。

这玩意还是很有⽤的，⽐如我们在使⽤PHP做爬⾍的时候，需要解析html中的内容等。

他的强⼤之处不仅仅只是帮助我们验证html⽂档；更能解析不符合W3C标准的html⽂档。

关于如何引⼊第三⽅类库，请移步《laravel5.8（⼗）引⼊第三⽅类库》laravel8中的设置⽅法也⼤同⼩异。

⼀：加载html

有三种⽅式调⽤这个类：

1. 从url中加载html⽂档

2. 从字符串中加载html⽂档

3. 从⽂件中加载html⽂档

<?php

// 新建⼀个Dom实例

$html=new simple_html_dom();

// 从url中加载

$html->load_file('guanchao.site');

// 从字符串中加载

$html->load('<html><body>从字符串中加载html⽂档演⽰</body></html>');

//从⽂件中加载

$html->load_file('path/file/test.html');

加载标签的时候，我这⾥遇到了⼀个⼩问题，\n以及在使⽤load加载的时候，会被替换成空值，这个体验不太好。那么如何避免这个问题呢？

我们查看⼀下load⽅法的源码：

// load html from string

function load($str,$lowercase=true,$stripRN=true,$defaultBRText=DEFAULT_BR_TEXT,$defaultSpanText=DEFAULT_SPAN_TEXT)

{

global$debugObject;

// prepare

$this->prepare($str,$lowercase,$stripRN,$defaultBRText,$defaultSpanText);

// strip out comments

$this->remove_noise("''is");

// strip out cdata

$this->remove_noise("'<!\[CDATA\[(.*?)\]\]>'is",true);

/ Per sourceforge sourceforge/tracker/?func=detail&aid=2949097&group_id=218559&atid=1044037

// Script tags removal now preceeds style tag removal.

// strip out <script> tags

$this->remove_noise("'<\s*script[^>]*[^/]>(.*?)<\s*/\s*script\s*>'is");

$this->remove_noise("'<\s*script\s*>(.*?)<\s*/\s*script\s*>'is");

// strip out <style> tags

$this->remove_noise("'<\s*style[^>]*[^/]>(.*?)<\s*/\s*style\s*>'is");

$this->remove_noise("'<\s*style\s*>(.*?)<\s*/\s*style\s*>'is");

// strip out preformatted tags

$this->remove_noise("'<\s*(?:code)[^>]*>(.*?)<\s*/\s*(?:code)\s*>'is");

// strip out server side scripts

$this->remove_noise("'(<\?)(.*?)(\?>)'s",true);

// strip smarty scripts

$this->remove_noise("'(\{\w)(.*?)(\})'s",true);

// parsing

while($this->parse());

// end

$this->root->_[HDOM_INFO_END]=$this->cursor;

$this->parse_charset();

// make load function chainable

return$this;

}

参数中的$stripRN 默认是true，我们在调⽤load函数的时候，给其传false，我们的html标签中的\n以及就不会替换成空。

如果从字符串加载html⽂档，需要先从⽹络上下载。建议使⽤CURL来抓取html⽂档并加载DOM中。

PHP Simple HTML DOM Parser提供了3种⽅式来创建DOM对象 :

<?php

// Create a DOM object from a string

$html=str_get_html('<html><body>Hello!</body></html>');

// Create a DOM object from a URL

$html=file_get_html('le/');

// Create a DOM object from a HTML file

$html=file_get_html('test.htm');

⼆：查标签

可以使⽤find函数来查html⽂档中的元素。返回的结果是⼀个包含了对象的数组。我们使⽤HTML DOM解析类中的函数来访问这些对象，下⾯给出⼏个⽰例：

//查html⽂档中的超链接元素

$a=$html->find('a');

//查⽂档中第(N)个超链接，如果没有到则返回空数组.

$a=$html->find('a',0);

// 查id为main的div元素

$main=$html->find('div[id=main]',0);

// 查所有包含有id属性的div元素

$divs=$html->find('div[id]');

// 查所有包含有id属性的元素

$divs=$html->find('[id]');

还可以使⽤类似jQuery的选择器来查定位元素：

<?php

// 查id='#container'的元素

$ret=$html->find('#container');

// 到所有class=foo的元素

$ret=$html->find('.foo');

// 查多个html标签

$ret=$html->find('a, img');

// 还可以这样⽤

$ret=$html->find('a[title], img[title]');

解析器⽀持对⼦元素的查

<?php

// 查 ul列表中所有的li项

$ret=$html->find('ul li');

//查 ul 列表指定class=selected的li项

$ret=$html->find('ul li.selected');

如果你觉得这样⽤起来⿇烦，使⽤内置函数可以轻松定位元素的⽗元素、⼦元素与相邻元素

// 返回⽗元素

$e->parent;

// 返回⼦元素数组

$e->children;

// 通过索引号返回指定⼦元素

$e->children(0);

// 返回第⼀个资源速

$e->first_child ();

// 返回最后⼀个⼦元素

$e->last_child ();

// 返回上⼀个相邻元素

$e->prev_sibling ();

/返回下⼀个相邻元素

$e->next_sibling ();

关于标签查，以上⼤概就差不多够⽤了。

html href属性我这⾥放⼀下我使⽤的⽰例：获取a标签中的href属性

$html=new simple_html_dom();

$res=$html->load($content);

$mp4Arr=array();

//获取 [body a] a标签的href属性

$aHref=$res->find('a');

foreach($aHref as$key=>$item)

{

if(isset($item->attr))

{

if(isset($item->attr['href'])==true)

{

$mp4Arr[]=$item->attr['href'];

}

return$mp4Arr;

// $mp4Arr 是⼀个⼀维数组，⾥边是html中每个a标签的href

/ $content 是⼀段html

三：修改标签

修改标签主要是使⽤setAtribute⽅法，⽰例如下：

//给页⾯中的a标签添加类名、设置样式

$html->find('a',0)->setAttribute('class','bar');

$html->find('a',0)->setAttribute('style','color:red');

//打印指定标签内容

foreach($html->find('div#gbar')as$e)echo$e->innertext.'<br>'; //向指定标签中添加内容

$aaa=[1,2,3];

$tr='';

foreach($aaa as$color)

$tr.="<td>".$color."</td>";

$html->find('tr',3)->innertext=$tr;

四：输出内容

<?php

$html=new simple_html_dom();

// 获取⽂章中所有的img标签(查看源码参数)

$articleData=$html->load($detail->content,true,false);

$articleData->tag;// 获取标签

$articleData->outertext;//获取外⽂本

$articleData->innertext;// 获取内⽂本

$articleData->plaintext;// 获取纯⽂本

/ 具体输出长什么样⼦，你可以⾃⼰尝试⼀下。

//保存修改到指定⽂件（前提是⽂件需要存在）

$html->save('demo.htm

l’);

替换标签+输出内容⽰例

$html=new simple_html_dom();

// 获取⽂章中所有的img标签(查看源码参数)

$articleData=$html->load($detail->content,true,false);

//获取 [body img] img标签的src属性

$imgSrc=$articleData->find('img');

foreach($imgSrc as$key=>$item)

{

// 设置vue点击⽅法

$articleData->find('img',$key)->setAttribute('onclick',"imageBoost('".$item->attr['src']."')");

// 设置class

$articleData->find('img',$key)->setAttribute('class','cursor');

// 设置宽度

$articleData->find('img',$key)->setAttribute('style','width:100%');

// 读取图⽚src属性值

/*if(isset($item->attr))

{

if(isset($item->attr['src'])==true)

{

$imgList[]=$item->attr['src'];

}

}//*/

// 将修改之后的html重新赋值回去

$detail->content=$articleData->outertext;

五：防⽌内存溢出：

// 使⽤结束清除对象

$html->clear();

以上⼤概就是基本的simple_html_dom使⽤。

有好的建议，请在下⽅输⼊你的评论。

欢迎访问⼩程序：

688IT编程网

laravel8(四)使用simple_html_dom库解析html

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

688IT编程网

laravel8(四)使用simple_html_dom库解析html

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

非零金额正则表达式