关于重复词提取的两种算法分析
作者:蒋 华 殷 波
来源:《计算机应用》2009年第02字段字符串去重复期
作者:蒋 华 殷 波
来源:《计算机应用》2009年第02字段字符串去重复期
摘 要:针对重复网页的去重问题,对两种重复词句提取算法进行了系统分析比较。STC算法在时间成本上具有优秀性能,重复序列的倒排索引方法在空间复杂度方面更胜一筹。结合STC算法对重复序列方法进行了改进,而面向主题转载的重复网页,先抽取重复串,然后将重复串作索引进行STC算法的重复抽取。实验结果表明,改进算法在保持了原有空间特性的基础上极大地提高了时间效率。
关键词:重复词句;重复序列;后缀树
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论