论文分类号:TP391 单  位  代  码  1 0 1 8 3密      级:公  开 研 究 生 学 号2005532033
吉林大学
硕士学位论文
网页的预处理技术
Preprocessing of web pages
作者姓名:万乐
专业:计算机科学与技术
导师姓名:左万利
及职称:教授
吉林大学硕士学位论文原创性声明
本人郑重声明:所呈交的硕士学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明
引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
日期:年月日
《中国优秀博硕士学位论文全文数据库》投稿声明研究生院:
本人同意《中国优秀博硕士学位论文全文数据库》出版章程的内容,愿意将本人的学位论文委托研究生院向中国学术期刊(光盘版)电子杂志社的《中国优秀博硕士学位论文全文数据库》投稿,希望《中国优秀博硕士学位论文全文数据库》给予出版,并同意在《中国博硕士学位论文评价数据库》和CNKI 系列数据库中使用,同意按章程规定享受相关权益。
论文级别:■硕士 □博士
学科专业: 计算机软件与理论
论文题目: 网页的预处理技术正则匹配哈希值
作者签名:  指导教师签名:
年  月  日
作者联系地址(邮编): 吉林大学计算机科学与技术学院
长春市前卫路10号 计算机学院大楼A429室 邮编:130012 作者:135****5974
作者姓名 万乐 论文分类号 TP391
保密级别 公 开 研究生学号 2005532033 学位类别 工学硕士 授予学位单位 吉 林 大 学
专业名称 计算机软件与
理论
培养单位
(院、所、中心)
计算机科学
与技术学院
研究方向 数据库与web
智能
学习时间
2004年9月
至2007年6月
论文中文题目网页的预处理技术
论文英文题目Preprocessing of web pages
关键词(3-8个) Web网页;噪音去除;信息提取;预处理;算法
姓  名左万利 职  称教 授
导师
情况 学历
学位 博 士
工作
单位
计算机科学
与技术学院
论文提交日期 2008年4月答辩
日期
2008年 5月  日
是否基金资助项目是 基金类别
及编号
国家自然科学基金资
助项目(60373099)
如已经出版,请填写以下内容
出版地(城市名、省名)出版者(机构)
名称
出版日期 出版者地址(包括邮编)
提要
本文系统的阐述了网页的预处理技术,它包括:网页的正则化、网页去重、网页去噪。网页正则化统一网页的表示形式;网页去重出并去除网页集合中类似的网页,本文论述了当前网页去重的两个主要方法:即基于shingle-encoding的方法和基于随机映射的方法,并且比较了这两个方法的优劣。网页去噪也是预处理技术中的重要内容,它有三类方法:基于网页结构的方法、基于模版的方法和基于可视化信息的方法。本文对这些方法都做出了系统的阐述。基于前人的工作,作者提出了一种基于主题的网页去噪算法,通过构造网页DOM(Document Object Model)树的一个变种,即内容块树,利用分类器判断网页的噪音块。实验表明,本方法噪音去除精度是87%,而以前的方法仅有42%。
关键词:Web网页;噪音去除;信息提取;预处理;算法;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。