基于排名网站的互联网排行榜抓取系统--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 103020286 A (43)申请公布日 2013.04.03

(21)申请号 CN201210580975.7数据库实例名是什么意思

(22)申请日 2012.12.27

(71)申请人上海交通大学

地址 200240 上海市闵行区东川路800号

(72)发明人朱其立张至先

(74)专利代理机构上海汉声知识产权代理有限公司

代理人郭国中

(51)Int.CI

G06F17/30

权利要求说明书说明书幅图

(54)发明名称

基于排名网站的互联网排行榜抓取系统

(57)摘要

本发明公开了一种互联网排行榜抓取系统，包括将HTML格式的网页解析成为基于文件物件模型的树状数据结构（DOM Tree）的网页预处理模块；判断该网页是否为一个排名网页的标题识别模块；基于HTML标签路径的聚类分析的候选列表排行榜选取模块；基于内容匹配和网页布局的排行榜选取模块；以及排行榜内容后期处理模块。本发明可以针对互联网排行榜这种特殊的网络列表进行快速准确的自动提取，有效挖掘其潜在价值。

法律状态

法律状态公告日	法律状态信息	法律状态

权利要求说明书

1.一种基于排名网站的互联网排行榜抓取系统，其特征在于，包括依次连接的网页预处理模块、网页标题识别模块、候选列表抓取模块、排行榜选取模块以及排行榜内容后期处理模块，候选列表抓取模块的输入为网页预处理模块和网页标题识别模块的输出，其中：

网页预处理模块，用于将HTML格式的输入网页解析成为基于文件物件模型的树状数据结构，以便提供给网页标题识别模块和候选列表抓取模块进行后续处理；

网页标题识别模块，用于对网页标题进行语法分析，然后用基于机器学习方法生成的模型进行分类，判断该网页是否为一个排名网页，其中：如果判断该网页为普通网页，则系统输出判断结果，中断退出；如果判断该网页为排名网页，则提取该网页中排行榜的领域、标准、

列表项个数和时间地点信息，并提供给候选列表抓取模块进行后续处理；

候选列表抓取模块，用于在网页预处理模块中得到的树状数据结构进行基于HTML标签路径的聚类分析，获得多个候选列表，候选列表的列表项个数应当与网页标题识别模块中提取到的列表项个数相同，如果没有合适的候选列表，则判定该排行榜抓取失败，系统输结果，中断退出，否则由排行榜选取模块进行后续处理；

排行榜选取模块，用于通过多种评价标准对多个候选列表进行打分，并选择得分最高的候选列表为该输入网页的排行榜列表，评价标准包括：网页标题的关联程度、在网页中的空间位置、规则模式匹配；

排行榜内容后期处理模块，用于对排行榜选取模块选取获得的排行榜内容进行进一步处理，将每一个列表项的实例名与其对应的属性特征来进行分离，最终得到一个关系数据表。

2.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统，其特征在于，网页标题识别模块在对网页进行分类之前，对标题进行预处理，预处理具体为：用正则表达式匹配的方式，去掉标题中的次要部分，确定标题的主要部分；对主要部分进行英文词法分析，获得单词序列中每一个单词的词性和原型，并将单词、词性、原型构成特征表格。

3.根据权利要求2所述的基于排名网站的互联网排行榜抓取系统，其特征在于，网页标题识别模块包括分类器，分类器利用事先训练好的模型将对输入的特征表格进行分析，其结果为对输入单词序列对应的标注序列，其中K代表列表项的个数，F代表排行榜的领域，C表示排行榜的标准，对于分类结果的处理分为两种情况：如果标注序列中包含K，则说明输入网页为一个排名网页，则需要将结果整理为<个数，领域，标准，时间，地点>的五元组的形式，并触发候选列表抓取模块执行；否则判定该网页非排名网页，系统退出。

4.根据权利要求3所述的基于排名网站的互联网排行榜抓取系统，其特征在于，分类器的模型是基于条件随机域训练获得的。

5.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统，其特征在于，HTML标签路径的含义为，在树状数据结构中，任意一个节点到根节点的路径，具体表示为路径中各个节点的HTML标签的连接；基于HTML标签路径的聚类分析由通过对网页中所有节点进行遍历，将具有相同标签路径的节点进行聚类，形成多个类，其中，包含K个节点的类即为候选的排行榜列表，K为网页标题识别模块中得到的排行榜列表项个数；如果没有到任何候选列表，则判定列表抓取失败，系统退出。

6.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统，其特征在于，网页标题的关联程度，具体为：根据网页中排行榜所涉及的领域，得到该领域的全部或者部分实例，其中，具体对每一个候选列表L的计算公式为：

<Math><MathText>><mrow><mi>PScore</mi><mo>=</mo><mfrac><mn>1</mn><mi>K</mi></mfrac><munder><mi>Σ</mi><mrow><mi>n</mi><mo>∈</mo><mi>L</mi></mrow></munder><mfrac><mrow><mi>LMI</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mrow><mrow><mi>Len</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mrow></mfrac></mrow></math>></Math>

其中，PScore为网页标题的关联程度，n为列表L中的一个列表项，K为列表项个数，LMI(n)表示在列表项n中最长的实例的单词个数，Len(n)为列表项n中的单词总个数。

7.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统，其特征在于，在网页中的空间位置，具体为：根据候选列表的字体大小和字符长度估算候选列表在网页中占据的大小，具体的计算公式为：

<Math><MathText>><mrow><mi>VScore</mi><mo>=</mo><munder><mi>Σ</mi><mrow><mi>n</mi><mo>∈</mo><mi>L</mi></mrow></munder><mi>Text</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>*</mo><mi>Font</mi><msup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mn>2</mn></msup></mrow></math>></Math>

688IT编程网

基于排名网站的互联网排行榜抓取系统

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

基于排名网站的互联网排行榜抓取系统

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式