基于特征串的网页去重算法--688IT编程网

1.引言

随着互联网技术的高速发展，网络中网页的数量成倍增加，但不同的网页中存在着重复的信息，根据2006年中国互联网络信息资源数量调查报告，重复网页估计有25%-40%，不仅包括完全相同的网页，而且包括主体内容十分相似，造成存储资源的浪费和检索时的低效率。现阶段识别相同或相似网页的技术还没有很好的应用在现有的搜索引擎上，如果能够实现。势必会极大的方便用户检索信息。

2.几种重复网页识别技术的比较

当前提出的大规模重复网页识别的方法还比较少，主要沿用信息发布系统中相同或相似文档的探测或去重时应用的方法，代表性方法主要有：基于聚类的方法、排除相同URL方法、计算编辑距离和基于特征串的方法等方法。

字符串函数去重

2.1聚类的方法该方法是基于网页文本中包含的字符信息，通常以GB2312中的6763个常用汉字作为向量的基，文本的汉字字频就构成了代表网页的向量。通过计算两篇文本对应的向量的夹角来决定它们是否是相同网页。[1]优点是方法简单，易于实现。缺点是对大规模网页，聚类的类别数目庞大，难以确定，聚类复杂度为O(n2)，计算时间长；实时性差，对于新网页需要重新聚类决定是否重复。[2][3]

2.2排除相同URL的方法这种方法是各种元搜索引擎去重的主要方法，目前已经被广泛应用。它分析来自不

同独立搜索引擎的搜索结果的网页URL，具有相同的URL的网页就被认为是相同的网页，给予去除。优点是方法简单，易于实现，可去除一部分相同网页。缺点是未利用网页的文本内容结构信息，不能对由于转载而产生的重复网页进行识别。

2.3计算网页HT M L标记的编辑距离的方法编辑距离又称为L ev enshtein距离，是指把一个字符串转换成另一个字符串时所需要的最小编辑操作的代价数。计算两个字符串的编辑距离的时间复杂度为O(n2)。[4]

当两个网页的Levenshtein距离小于一个域值时，就认为它们是重复的。这种方法速度快，不足是没有利用上网页的文本内容信息，加之相同模版的网页数量不少，容易把不同的网页错误认作重复网页，准确率相对其它几种方法来说比较低。此外，文章转载时，版面的变化也会对网页的HTM L标记产生影响。

2.4基于特征串的方法为保留文本特征串的内容、结构信息，采用如下设计思想：采用“自然语句分隔标志”将文本切成若干“句子”，从“句子”中抽取若干字符或汉字作特征串，然后按照“句子”在文本中的顺序把特征串连接起来构成特征串。由于把文本看作字符流且不需保留语义信息，所以分隔标志可以是任何符号，但为保持“句子”划分的均匀性，通常采用高频字符，这样得到的特征串只保留了文本内容和结构信息。

因为特征串的精确匹配可以与先进的检索系统联系起来，去重效率较高。不足是特征串的精确匹配不能

抵抗网页转载时产生的噪声；没有利用网页文本结构信息，会发生长度不同，甚至悬殊的文本会看成相同网页；作为产生特征串的标志的句号有时不会在网页文本中出现，或只出现在文章末尾，有时在版权信息和超链接中出现，这些都会导致特征串的产生错误。

3.基于特征串的网页去重算法

在抽取了网页文本的特征串之后，就可以把两篇网页文本相似度的比较转化为它们各自对应的特征串的相似度的比较。

3.1“句子”分隔符的选取特征串的抽取是采用“自然语句分隔标志”将文本切成若干“句子”，从“句子”中抽取若干字符或汉字作特征串，然后按照“句子”在文本中的顺序把特征串连接起来构成特征串。由于把文本看作字符流且不需保留语义信息，所以分隔标志可以是任何符号，但为保持“句子”划分的均匀性，通常采用高频字符，如“。”、“?”和“的”等。

但是“句子”分隔符的选取也会影响系统的召回率和准确率。选取的“句子”分隔符多，可以增加文本的特征串长度，但同时也使得特征串抽取的不稳定因素增加。表3-1是前人在选取不同的“句子”分隔符时进行实验的实验数据:

表3-1“句子”分隔符对系统的影响[3]

从表中可以看出，选取不同的“句子”分隔符对系统的召回率的影响是比较大的。仅由于“句子”分隔符的选取造成的系统召回率的差距最大达到17.4%。

3.2特征串索引散列表的构造构造不含重复网页的索引对系统的召回率和效率都有比较大的影响。它不仅决定了两个特征串比较的可能性，这很大程度上影响了系统的召回率；还决定了要与每个新特征串比较的旧特征串的平均个数，这很大程度上决定了去重的效率。

为了充分利用网页文本的内容、结构特征来进行重复网页文本的识别，应对每个网页文本抽取它的三个结构信息作为构造散列表的维数。这三个结构信息包括：网页文本的段落数(g n)，网页文本的字数(cn，每120个字符为一个单位)，网页文本的“句子”数(kl)。参考实际的网页，网页文本长度一般在70～24k字节之间，以120字节进行分割可以产生200个分割区域,kl一般在1～100之间,g n一般在1～50之间，这样形成了200×100×50=1000000个点的三维散列空间。

3.3英文“句子”分隔符的特殊性及解决方法和中文“句子”分隔符的选取类似，英文中最具代表性的“句子”分隔符就是英文句号“.”。然而“.”在英文文章中的身份比较多，既可以作为句号，又可以作为小数点，标号分隔符。这些非句号的“.”除了影响特征串的代表能力外，还影响一个文件的句子数统计，使两个原本相似的文本没有机会相互比较，会降低系统重复网页识别的召回率。

解决方法：对每一个“.”进行判断，如果之前之后都是数字的，就认为是小数点，舍去。

英文和汉字相比，是小字符集，而中文汉字有几万个，常用汉字也有6000多个。所以，如果在每个“句子”分隔符两侧只抽取一个字符作为特征串的话，英文的特征串的相异性相对中文的特征串来说将会很差，即使是完全无关的两个网页文本，它们的特征串也难免有很长的最长公共子串。

解决方法：只好对英文文本采取在每个“句子”分隔符两侧多抽几个字符的方法，要达到中文字符集的水平，至少要在每个“句子”分隔符两侧抽取三个英文字母加入特征串。

4.结束语

目前，系统的应用是在搜索引擎上建索引阶段去除重复的检索结果，对效率的要求还不是很高。如果希望进一步提高系(下转第3页)

基于特征串的网页去重算法

姚新波马治坤

(1.宁夏大学数学与计算机学院宁夏银川750021;2.宁夏农垦集团宁夏银川750002)

【摘要】用户在互联网中网页检索时，经常会得到大量内容相同的冗余页面，不仅浪费了存储资源，而且给用户带来许多不便。本文对现有的几种重复网页识别技术的优缺点进行了比较，并且重点讨论了基于特征串的网页快速去重算法。

【关键词】重复网页识别；特征串；召回率

"句子"分隔符召回率准确率

。93.5%100%

,87.0%100%

的84.8%100%

。,80.4%100%

。的76.1%100%

411

(上接第411页)统的效率，可以采用多机联合的方式，一台机器负责特征串抽取，一台机器负责建立特征串索引。两个功能模块并行执行，可以提高系统效率。此外，还可以将建立特征串索引的工作也分给一个机来完成，将进一步提高系统效率。

如果要进一步提高召回率和准确率，需要利用上网页文本更多的内容和结构特征，乃至内容信息特征。比如，除了网页文本的段落数,“

句子”数，字数之外，还可以将网页文本中各段落的句子数和字数作为数组抽取出来，这也是网页文本的一种结构特征。当然，更多的文本特征意味着系统要消耗更多的时间来进行特征的抽取和比较。但是随着硬件的发展，人们必然对系统的召回率和准确率提出更高的要求。【

参考文献】[1]Dell Zhang,Wee S un Lee.Question Cla ssification using S upport Vector M achines.

[2]朱克斌，唐菁，杨炳儒.WEB 文本挖掘系统及聚类分析算法.计算机工程第30卷第13期.2004.7.

[3]吴平博，陈秀，马亮.基于特征串的大规模中文网页快速去重算法研究.中文信息学报第17卷第2期.

[4]Giuseppe A ntonio D i LuccaO,Massirniliano D i Penta,A nna Rita Fasoli noO.A n Approac h to Identify Duplicated Web Pages.

[责任编辑张新雷]

产生的转矩也就越大。在一个空载电机上滑差很小，产生的转矩也就很小，电机仅仅做很少的有用功，电机的效率就很低。在一个重载电机上，滑差率就高(典型值大约是5%)，输入的电能绝大部分被用于拖

动负载，电机以很高的效率运行。至于功率因数，空载的电机就像空载的变压器一样，几乎没有阻抗从次级绕组(转子)反应到初级绕组(定子)，因而电力线被看作是电抗负载，功率因数可以低至0.1(10%)。当电机加载时，增加的阻力就从转子的轴反映到定子上，功率因数也随之增大。我们可以把功率因数作为衡量负荷大小(即负荷率)和电机运行效率的指标。

图7

6.怎样控制电机效率?

通过上面的分析，可以看出来，提高电机运行效率的唯一方法就是，提供给电机的电能与电机输出轴所带负荷所需的能量达到比较好的匹配。要做到这样，最好的办法就是使电机的尺寸和被驱动的负载相匹配，也就是让电机驱动图1中效率曲线上端最平坦部分的负载(大于75%满载率的负载)。然而，在很多实际应用中这是不可行的。在很多情况下，被驱动的负载有很大的变化范围，电机必须按最大负载情况制作。在一些情况下，电机在运行时间内多半时间运行在小于20%满载率(例如大型自动扶梯，超过90%的运行时间都如此)。我们选取电机时，都是按运行中最大负载情况选取的，不可能由于电机大部分时间运行于小的负载下而选取小的电机，让它部分时间运行于超载状态。所以，在轻载时要提高效率，就要减少供给电机的电能，使供给的电能和负载所需的电能相匹配。

在交流电机中，有5个导致电能损耗的因素：摩擦损耗，空气阻力，噪音损耗，铜损和铁损。前三个是

机械损耗，对一个电机来说是不变的常量，一般只占总损耗的一小部分。铜损主要是绕组中电能转化为热量的能量损失，与负载的大小相关。铁损是由于转子铁芯和定子铁芯的涡流与磁滞现象的影响而导致的能量损失。当铁损和铜损相等的时候，电机运行于最高效率之下，电机的负载达到75%到90%时，铁损和铜损才相等。随着负载的增加，铜损也在增加，并逐渐占主导地位。当负载很低时，铁损增加并占主导地位，代表了大部分的能量损失。通过在小负载时降低电压，我们就能够减小磁通，从而减小铁损，使铁损接近于铜损,。这将减少供给电机的总电能，但由于提供给负载的能量不变，我们因此提高了电机的效率。同时，通过减少磁通，相当于减少了电机的电感元件，功率因数也就相应提高。

直接测量交流电机的实际效率是非常困难的，而功率因数和效率的趋势是同时升高，同时降低，因而可以通过测量功率因数去间接地监视效率。当电机端的电压降低时，我们就增加了电机的功率因数和效率。功率因数增加的越多，效率增加的也就越多，通过控制功率因

数，我们就能间接地控制电机的效率。

7.如何降低电机的端电压?

我们参考的交流电压值，实际上是有效值，可以认为这个值和同电压的直流电所提供的电力相当，也就是说等同于同电压的直流电。

交流电压是正弦函数，电压在正负最大值之间交替变换。当电压是完全的正弦曲线波时有效值大约等于70%的峰值电压(即峰值的平方根)。

图8

如果我们在每个周期移去一部分电压，那么每个周期内就有一部分电压为0，有效值就会减少，如图9，电压就剩下阴影部分。

图9

每个周期移走的电压越多，电压的有效值就越低。因此，可以通过控制器(比如晶闸管的关断和导通)控制移去电压的多少来控制供给电机的电能。在电机轻载时通过检测负载的大小，然后反馈给控制器，控制器就控制移去更多的电压，使供给电机的电能与负载所需相匹配，提高了功率因数，也就提高了电机效率。随着负载的变化控制器就相应移去电压的一部分，总是使供给电机的电能与负载相匹配，使电机总是运行于高的效率下。我们经常乘坐的自动扶梯和自动人行道就受到这种困扰，负载变化不定，经常运行于低负载状态，甚至空载状态。如果能够使用这种方式控制电机供电的话，最直接的效果就是节省电能消耗，减少经济支出。【参考文献】

[1]陈伯时.电力拖动自动控制系统，上海工业大学主编，机械工业出版社,2005年9月.

[2]张家生.电机原理与拖动基础，北京邮电大学出版社,2006年2月1日.[3]胡立峰.自动扶梯原理设计与维修，机械工业出版社,1996-12-1.

[责任编辑：张新雷

]

●

3:40

688IT编程网

基于特征串的网页去重算法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

基于特征串的网页去重算法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式