一种网络爬虫去重特征值的提取方法和装置--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 103984753 A (43)申请公布日 2014.08.13

(21)申请号 CN201410231745.9

(22)申请日 2014.05.28

(71)申请人北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司

地址 100080 北京市海淀区杏石口路65号西杉创意园西区11C楼东段1-4层西段1-4层

(72)发明人黎小为周东

(74)专利代理机构北京邦信阳专利商标代理有限公司

代理人王昭林

(51)Int.CI

G06F17/30

权利要求说明书说明书幅图

(54)发明名称

一种网络爬虫去重特征值的提取方法和装置

(57)摘要

本发明公开了一种网络爬虫去重特征值的提取方法，包括：步骤一，根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式；步骤二，从目标网站的URL地址中捕获与所述正则表达式匹配的字符串；步骤三，对所述字符串进行预定的格式转换，得到所述URL地址的去重特征值。本发明还提供一种网络爬虫去重特征值的提取装置。本发明适用于对不同URL链接指向相同页面的情况实现去重。

法律状态

法律状态公告日	法律状态信息	法律状态

权利要求说明书

1.一种网络爬虫去重特征值的提取方法，其特征在于，包括：

步骤一，根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式；

步骤二，从目标网站的URL地址中捕获与所述正则表达式匹配的字符串；

步骤三，对所述字符串进行预定的格式转换，得到所述URL地址的去重特征值。

2.如权利要求1所述的网络爬虫去重特征值的提取方法，其特征在于，在步骤三之前，

所述方法还包括：

为步骤二中捕获的字符串添加第一预设编号和第二预设编号；其中第一预设编号与目标网站相对应，第二预设编号与URL种子的类型相对应。

3.如权利要求2所述的网络爬虫去重特征值的提取方法，其特征在于，所述URL种子的类型包括指向入口类型、指向列表类型和指向单品类型。

4.如权利要求1所述的网络爬虫去重特征值的提取方法，其特征在于，在步骤三中，进行所述预定的格式转换时采用MD5第5版信息摘要算法运算。 js正则表达式验证数字和字母

5.如权利要求1所述的网络爬虫去重特征值的提取方法，其特征在于，在步骤三之后，所述方法还包括：

查询去重特征值集合，判断所述URL地址的去重特征值是否存在于所述去重特征值集合中，如果存在，放弃所述URL地址的去重特征值；如果不存在，下载所述URL地址的页面，并将所述URL地址的去重特征值添加至所述去重特征值集合中；其中所述去重特征值集合中的元素为已完成页面下载的URL地址的去重特征值。

6.如权利要求5所述的网络爬虫去重特征值的提取方法，其特征在于，所述去重特征值集合存储于Redis存储系统中，其中以去重特征值为键，以对应的数据库自增ID为值。

7.如权利要求1所述的网络爬虫去重特征值的提取方法，其特征在于，在步骤一中，如果目标网站的URL种子特征为该URL种子中含有商品库存量单位SKU信息，则在步骤二中，从所述URL地址中捕获的字符串至少含有所述SKU信息。

8.一种网络爬虫去重特征值的提取装置，其特征在于，包括：

正则表达式生成模块，用于根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式；

字符串捕获模块，用于从目标网站的URL地址中捕获与所述正则表达式匹配的字符串；

去重特征值提取模块，用于对所述字符串进行预定的格式转换，得到所述URL地址的去重特征值。

9.如权利要求8所述的网络爬虫去重特征值的提取装置，其特征在于，所述装置还包括：

字符串处理模块，用于为所述字符串捕获模块捕获的字符串添加第一预设编号和第二预设编号；其中第一预设编号与目标网站相对应，第二预设编号与URL种子的类型相对应。

688IT编程网

一种网络爬虫去重特征值的提取方法和装置

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

一种网络爬虫去重特征值的提取方法和装置

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性