网页内容智能抓取实现及实例详解--688IT编程网

网页内容智能抓取实现及实例详解

架构

完全基于java的技术

核心技术

XML解析，HTML解析，开源组件应用。应用的开源组件包括：

● DOM4J：解析XML文件

● jericho-html-2.5：解析HTML文件

● commons-httpclient：读取WEB页面内容工具

其他必须的辅助引用包括：

● commons-codec

● commons-logging

● jaxen

基本业务流程描述

● 通过XML文件定义抓取目标

● 通过DOM4J开源组件读取XML配置文件

● 根据配置文件执行抓取任务

● 对抓取到的内容根据定义进行解析与处理

目前缺陷功能描述

● 抓取内容如果有分页，则无法获取下一分页

● 目标页面可能包含有想抓取的信息，但没有抓取的配置选项。如百度贴吧

● 目标页面链接定义不够灵活，对于百度贴吧的链接参数以50增加的只能手动定义

● 没有多线程支持

● 日志输出比较混乱

● 错误处理比较简单，不能对失败的任务自动重新执行，很多地方缺乏错误判断，如空数组

● 程序架构不够清晰，代码略显凌乱

● 不支持抓取结果存入多个表，目前只能将结果放在一个表中

● 是否考虑写一个XML类，提供通用的调用XML节点跟解析结果的方法？

● 规定任务文件的DTD？

● 通配符替换不支持多个替换

目前功能描述

抓取目标定义

作用：

批量的定义抓取目标，自动生成要抓取的网页的地址。系统通过这个定义，自动生成要抓取的目标。网页抓取的意义在于批量自动化抓取，不可能手动的输入网址一个个进行抓取，所以抓取目标的自动生成是必须的。

抓取目标定义的XML文件范例：

<multi-url>

<single-url href="robbin.javaeye/?page=1" />

</multi-url>

<wildcard-url href="robbin.javaeye/?page=(*)"

startpos="1" endpos="3" />

<target-regex root=" robbin.javaeye">

<![CDATA[

href\=\'(/blog/\d*)\'

]]>

</target-regex>

</target>

XML规则：

1. 必须包含target节点，target的encode与timeout属性如果采用默认，可以不设置

2. multi-url与wildcard-url可以任选一个，也可以并存，最多2个。合理的情况包括：只有一个multi-url，只有一个wildcard-url，一个multi-url和一个wildcard-url。注意，无论wildcard-url跟multi-url的顺序如何，系统都会从multi-url开始执行。

3. multi-url下包含至少一个single-url元素，通过single-url元素的href属性设置url

4. wildcard-url属性包括href，startpos，endpos，这3个属性都是必须的。目前只支持（*）通配，url中只能有一个(*)，（*）将会被替换成startpos和endpos之间的数字。

5. target-regex属性包括root，该属性值将会被添加在通过这个正则匹配得到的url之前。主要针对相对url。相对url需要加上站点的根路径组成完整路径。而如果是绝对url的话，可以将root属性放空。注意，正则表达式需要放在CDATA标签内。因为正则包含特殊字符，必须放在CDATA内，否则很可能导致解析错误。

解析过程：

1. 首先获得页面编码与超时设置，在接下来读取任何html页面的过程中，这2个参数都会被应用。默认的编码为 UTF-8，默认的超时时限为5000ms。如果要抓取的网站访问很慢，响应时间特别长，那么这个超时时限可以相应设置得高一点。如果在target中没有指定这2个值，那么系统会采用默认的编码跟超时设置。

2. 判断是否包含multi-url定义，包含的话调用相应的方法，如果target下定义了target-regex元素，那么multi-url中定义的url会先被读取，然后将读取到的内容使用target-regex中定义

的正则表达式进行匹配，将匹配结果作为目标列表返回。如果target下没有定义target-regex，那么将multi-url下所有的url作为目标列表返回。

3. 判断是否包含wildcard-url定义，包含的话调用相应的方法，首先获得起始跟终结位置，替换生成所有通配的url，接下来同multi-url，如果target下定义了target-regex元素，那么所有生成的通配url会先被读取，然后将读取到的内容使用target-regex中定义的正则表达式进行匹配，将匹配结果作为目标列表返回。如果target下没有定义target-regex，那么将所有生成的通配url作为目标列表返回。

举例1：最简单的定义抓取目标

例如我们抓取百度的首页，显然这是没什么意义的事情，这里只是举例说明抓取目标的定义方法。

<multi-url>

<single-url href="www.baidu/" />

</multi-url>

</target>

这样就完整定义了抓取地址，对于target，我们定义了encode属性，但是省略了timeout属性，因为系统默认是utf8编码，而百度是gb2312编码，必须指定。而timeout我们默认就可以。

举例2：通配符url定义抓取目标

上网时候经常可以看到某篇文章，如果比较长，就可以会被分成多页，我们点击下一页翻看，对于这样的url地址一般都是非常有规律的，通常它的url带有一个类似page=1之类的属性。假设我们抓取某篇文章的全部内容，这篇文章地址为，它总共有3页，地址就是后面page从1变到3。那么我们可以这样定义目标：

<wildcard-url href="st/?page=(*)"

startpos="1" endpos="3" />

</target>

我们假设这个网站响应很快，并采用UTF8编码，target的2个属性我们就忽略了。系统会自动解析成 , , 这样的3个网址。

举例3：multi-url+正则表达式定义抓取目标

比较经常的情况是，我们要抓取的内容在多个地址上。例如百度贴吧，我们想要某个贴吧前5页的所有的帖子的内容，显然，采用例子一定义所有帖子的url太烦琐，而帖子的url地址又没办法用通配符来表示，这个时候，使用正则抓取是最好的方法。这要求使用者有正则表达式的基础。

<multi-url>

<single-url href="tieba.baidu/f?z=0&ct=318767104&lm=11&sc=0&rn=50&tn=baiduKeywordSearch&rs3=0&rs4=0&word=java&pn=0" />

<single-url href="tieba.baidu/f?z=0&ct=318767104&lm=11&sc=0&rn=50&tn=baiduKeywordSearch&rs3=0&rs4=0&word=java&pn=50" />

<single-url href="tieba.baidu/f?z=0&ct=318767104&lm=11&sc=0&rn=50&tn=baiduKeywordSearch&rs3=0&rs4=0&word=java&pn=100" />

</multi-url>

<target-regex root="tieba.baidu">

<![CDATA[

class=t\shref=\"(.*?)\"

]]>

</target-regex>

</target>

url编码和utf8区别首先我们列出3个页面列表，每个页面上大概有50个帖子，通过查看源代码我们看到它的url是这样写的<a class=t href="/f?kz=350025590" target=_blank > ，通过总结规律，我们得出了上面target-regex的正则表达式，系统将通过这个正则去匹配所有符合条件的地址。注意，必须将我们要的地址页就是这里href里面的内容用()括起来，这样系统才会获取这个分组。

由于百度这里采用的是相对路径，所以我们要设定根节点root，系统匹配完成后会用root加上匹配结果作为目标地址，也就是tieba.baidu/f?kz=350025590。

同样的，wildcard-url元素也可以配合target-regex来使用。

清除目标定义

作用：

将抓取到的目标文件用定义的规则进行裁减。先去掉网页中我们不需要的内容，可能对于后面的解析有帮助。

清除目标定义的XML文件范例：

<![CDATA[

]]>

</clean>

<![CDATA[

]]>

</clean>

</cleaner>

XML规则：

1. 必须包含cleaner节点。clean任务只要是为了提高后面处理任务的执行效率。clean任务先去掉了网页中不会参与解析的内容，可以减少后面执行解析的速度。

2. clean节点可以任意多个，预定义的type属性包括：head,css,script,tags,regex。clean类型为head的，会将网页内容截断只保留body跟body之间的内容。head之间的内容会被删除。clean类型为css的，会将页面上所有css定义去掉，但是这个清除不包括去掉内联的style定义。clean类型为script的，会将页面上所有javascript脚本去掉。类型为tags的，如果CDATA内没有定义任何字段，那么会清除页面上所有的html标签，如果CDATA定义了字段，那么会清除定义的html标签。最后一个也是最强大的一个，正则表达式类型，系统会对所有匹配的内容进行正则替换。

688IT编程网

网页内容智能抓取实现及实例详解

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

网页内容智能抓取实现及实例详解

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式