(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 107577783 A (43)申请公布日 2018.01.12 | ||
(21)申请号 CN201710830492.0
(22)申请日 2017.09.15
(71)申请人 电子科技大学
地址 611731 四川省成都市高新区(西区)西源大道2006号
(72)发明人 于富财 汪辉 文友枥 胡光岷 费高雷
(74)专利代理机构 成都宏顺专利代理事务所(普通合伙)
代理人 周永宏
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
基于Web结构特征挖掘的网页类型自动识别方法 | |
(57)摘要
本发明公开了一种基于Web结构特征挖掘的网页类型自动识别方法,包括以下步骤:S1、通过爬虫系统获取网页源码集;S2、对网页源码进行预处理;S3、进行网页特征提取;S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。本发明在提取网页特征集之前,采用深度优先遍历搜索策略搜寻需要清除的噪声标签,减轻了网页的体积,减少了待处理标签的数量,提高了提取网页特征集的性能;通过对Web结构的挖掘,从与网页结构息息相关的四个方面提取HTML文档的特征集,再运用机器学习中分类算法构造分类器完成网页类型的自动识别,与其他网页类型识别方法相比而言,本发明具有思路简单、易于实现、便于拓展、通用性强和准确率高的特点。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2018-02-06 | 实质审查的生效 | 实质审查的生效 |
2018-01-12 | 公开 | 公开 |
权 利 要 求 说 明 书
1.基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,包括以下步骤:
S1、通过爬虫系统获取网页源码集;
S2、对网页源码进行预处理;
S3、进行网页特征提取;
S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。
2.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S2包括以下子步骤:
S21、清理噪声标签,把对目标网页类型正确自动识别有帮助的特征称为积极特征;把对目标网页类型正确自动识别无帮助的特征称为消极特征,将消极特征作为噪声标签清除;具体包括以下步骤:
S211、用JAVA的API接口将网页源码解析成DOM树;
S212、遍历DOM树的标签节点,判断当前标签是否属于待清除节点,若是则清除该标签节点并遍历下一个标签节点,否则将该标签节点添加到标签节点集中;
S22、对标签节点集中的标签信息进行预处理,对单个标签节点进行处理,获取标签节点的标签结构信息。
3.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S3包括以下子步骤:
S31、采用正则匹配方法提取URL特征;
S32、提取文本标签特征,包括以下步骤:
S321、根据网页源码预处理中保留的标签信息,挖掘标签的9个属性:标签序号、标签文本长度、左标签长度、右标签长度、标签文本标点符号数量、标签层次、叶子标签合并个数、非叶子标签合并个数和标签合并个数;
S322、根据标签属性,定义用于存储标签属性信息的标签属性信息结构体,将标签属性变化为连续值的量度值;
S323、选定标签以及对应的属性,对属性相同的标签进行合并处理;
S33、提取页面特征,包括以下步骤:
S331、提取超链接特征,使用计算相似度来过滤噪声网页,提取网页超链接数量特征,计算相似度的方法为:
正则匹配快代理 <mrow>
<msub>
<mi>Sim</mi>
<mrow>
<mi>U</mi>
<mi>R</mi>
<mi>L</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<mi>C</mi>
<mi>o</mi>
<mi>m</mi>
<mi>m</mi>
<mi>o</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>U</mi>
<mi>R</mi>
<mi>L</mi>
<mo>,</mo>
<msub>
<mi>URL</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>M</mi>
<mi>a</mi>
<mi>x</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>len</mi>
<mrow>
<mi>u</mi>
<mi>r</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>len</mi>
<mrow>
<msub>
<mi>url</mi>
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论