PHP爬虫最全总结-phpQuery,PHPcrawer,snoopy框架中文介绍--688IT编程网

PHP爬⾍最全总结-phpQuery，PHPcrawer，snoopy框架中⽂

介绍

1.⼏种常⽤的PHP爬⾍框架对⽐

1.1 phpQuery

优势：类似jquery的强⼤搜索DOM的能⼒。

pq()是⼀个功能强⼤的搜索DOM的⽅法，跟jQuery的$()如出⼀辙，jQuery的选择器基本上都能使⽤在phpQuery上，只要把“.”变成“->”,Demo如下(对应我的github的Demo5)

<?php

require('phpQuery/phpQuery.php');

phpQuery::newDocumentFile('www.baidu/');

$menu_a = pq("a");

foreach($menu_a as $a){

echo pq($a)->html()."<br>";

}

foreach($menu_a as $a){

echo pq($a)->attr("href")."<br>";

}

1.2 PHPcrawer

优势：过滤能⼒⽐较强。

官⽅给的Demo如下（我的github中对应demo4）

<?php

jquery框架原理

include("PHPCrawl/libs/PHPCrawler.class.php");

class MyCrawler extends PHPCrawler

{

function handleDocumentInfo(PHPCrawlerDocumentInfo $PageInfo)

{ // As example we just print out the URL of the document

echo $PageInfo->url."<br>";

}

$crawler = new MyCrawler();

$crawler->setURL("www.baidu");

$crawler->addURLFilterRule("#\.(jpg|gif)$# i");

//过滤到含有这些图⽚格式的URL

$crawler->go();

1.3 snoopy

优势：提交表单，设置代理等

Snoopy是⼀个php类，⽤来模拟浏览器的功能，可以获取⽹页内容，发送表单，

demo如下（对应github中的demo3）：

include 'Snoopy/Snoopy.class.php';

$snoopy = new Snoopy();

$url = "www.baidu";

// $snoopy->fetch($url);

// $snoopy->fetchtext($url);//去除HTML标签和其他的⽆关数据

$snoopy->fetchform($url);//只获取表单

//只返回⽹页中链接默认情况下，相对链接将⾃动补全，转换成完整的URL。

// $snoopy->fetchlinks($url);

var_dump($snoopy->results);

1.4 phpspider

优势：安装配置到数据库

提供了安装配置，能够直接连接mysql数据库，使⽤也是⽐较⼴泛，这⾥我们暂时不单独介绍。

发表评论

688IT编程网

PHP爬虫最全总结-phpQuery,PHPcrawer,snoopy框架中文介绍

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

PHP爬虫最全总结-phpQuery,PHPcrawer,snoopy框架中文介绍

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式