(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 103984753 A (43)申请公布日 2014.08.13 | ||
(21)申请号 CN201410231745.9
(22)申请日 2014.05.28
(71)申请人 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
地址 100080 北京市海淀区杏石口路65号西杉创意园西区11C楼东段1-4层西段1-4层
(72)发明人 黎小为 周东
(74)专利代理机构 北京邦信阳专利商标代理有限公司
代理人 王昭林
(51)Int.CI
G06F17/30
权利要求说明书 说明书 幅图 |
(54)发明名称
一种网络爬虫去重特征值的提取方法和装置 | |
(57)摘要
本发明公开了一种网络爬虫去重特征值的提取方法,包括:步骤一,根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式;步骤二,从目标网站的URL地址中捕获与所述正则表达式匹配的字符串;步骤三,对所述字符串进行预定的格式转换,得到所述URL地址的去重特征值。本发明还提供一种网络爬虫去重特征值的提取装置。本发明适用于对不同URL链接指向相同页面的情况实现去重。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1.一种网络爬虫去重特征值的提取方法,其特征在于,包括:
步骤一,根据目标网站的统一资源定位符URL域名和URL种子特 征生成正则表达式;
步骤二,从目标网站的URL地址中捕获与所述正则表达式匹配的字 符串;
步骤三,对所述字符串进行预定的格式转换,得到所述URL地址的 去重特征值。
2.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征 在于,在步骤三之前,
所述方法还包括:
为步骤二中捕获的字符串添加第一预设编号和第二预设编号;其中 第一预设编号与目标网站相对应,第二预设编号与URL种子的类型相对 应。
3.如权利要求2所述的网络爬虫去重特征值的提取方法,其特征 在于,所述URL种子的类型包括指向入口类型、指向列表类型和指向单 品类型。
4.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征 在于,在步骤三中,进行所述预定的格式转换时采用MD5第5版信息摘 要算法运算。 js正则表达式验证数字和字母
5.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征 在于,在步骤三之后,所述方法还包括:
查询去重特征值集合,判断所述URL地址的去重特征值是否存在于 所述去重特征值集合中,如果存在,放弃所述URL地址的去重特征值; 如果不存在,下载所述URL地址的页面,并将所述URL地址的去重特 征值添加至所述去重特征值集合中;其中所述去重特征值集合中的元素 为已完成页面下载的URL地址的去重特征值。
6.如权利要求5所述的网络爬虫去重特征值的提取方法,其特征 在于,所述去重特征值集合存储于Redis存储系统中,其中以去重特征值 为键,以对应的数据库自增ID为值。
7.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征 在于,在步骤一中,如果目标网站的URL种子特征为该URL种子中含 有商品库存量单位SKU信息,则在步骤二中,从所述URL地址中捕获 的字符串至少含有所述SKU信息。
8.一种网络爬虫去重特征值的提取装置,其特征在于,包括:
正则表达式生成模块,用于根据目标网站的统一资源定位符URL域 名和URL种子特征生成正则表达式;
字符串捕获模块,用于从目标网站的URL地址中捕获与所述正则表 达式匹配的字符串;
去重特征值提取模块,用于对所述字符串进行预定的格式转换,得 到所述URL地址的去重特征值。
9.如权利要求8所述的网络爬虫去重特征值的提取装置,其特征 在于,所述装置还包括:
字符串处理模块,用于为所述字符串捕获模块捕获的字符串添加第 一预设编号和第二预设编号;其中第一预设编号与目标网站相对应,第 二预设编号与URL种子的类型相对应。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论