密级
硕士学位论文
垂直搜索引擎
陈凌云
导师姓名(职称)牛振东(教授)答辩委员会主席  宋瀚涛      申请学科门类工程论文答辩日期2007年7月6日申请学位专业  软件工程
2007年4月20日
研究成果声明
本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。
特此申明。
签名:日期:
关于学位论文使用权的说明
本人完全了解北京理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。
签名:日期:
导师签名:日期:
摘要
互联网上的信息每天都在不断的增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张地说,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。因此它也成为除了以外最多人使用的网上服务。
但是,随着信息多元化的增长,通用搜索引擎已经不能满足特定用户更深入的查询需求。同时,通用搜索引擎在目前的情况下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个专业领域的搜索引擎,它具有面向主题的、数据全面深入、更新及时等特点。近几年来,已经出现了一些成型的系统。
本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统中的应用,实现了一个基本的垂直搜索引擎,包括网络爬虫、PageRank、结构化信息提取等。
论文首先阐述了搜索引擎的历史、现状以及不足,指出了垂直搜索引擎的概念和研究的必要性。然后对垂直搜索引擎进行理论性的分析,介绍了系统涉及的关键技术,具体介绍了网络蜘蛛(spider)的设计规则和法则、超链分析以及结构化信息提取相关算法。最后是系统的设计和实现部分,在上述理论分析的基础上提出了系统的设计思想,采用基于链接和基于内容相结合的方法,并介绍了系统的结构和具体实现技术。
关键词:垂直搜索、网络爬虫、PageRank、结构化信息提取
Abstract
Information on the Internet grows explosively every day. Search engine provides all the surfers on it with an entrance,from which they can reach n early every nodes of the Web. Therefore, search engine becomes the most popular Internet service besides email.
With information exploding in all directions , however ,some special kinds of users are not statisfied with general search engine.In the meanwhile ,it is impossible to retrieve enough informantion from internet in time. Therefore people need a vertical search engine which is containing profound and sufficient informaiton and being updated in time. In the past years ,there are some vertical search engine has been put into the market.
After discussing the technology of Web information retrieval both on theory and application, a framework for a vertical search system has been
implemented ,including crawler,pagerank and the extractor of structure information.
First the paper discusses the history and the present situation of the Web information and analyses so
me problems. Related work of other researchers in China and all over the world is narrated in this part. Then the paper analyzes vertical search engine in theory. The technical term and the key techniques involved in the paper are introduced, including the rule of Web spider, hyperlink analysis and the extractor of structure information. Finally the design and the realization of the system are introduced,including the system structure and methods.
Keywords:vertical search engine、web crawler 、PageRank、the extractor of structure information
目录
spider软件摘要 (1)
1.1项目研究背景 (1)
1.2搜索引擎发展现状 (1)
1.2.1搜索引擎分类 (1)
1.2.2 垂直搜索引擎的出现 (3)
1.3论文主要研究内容和结构 (3)
1.4本章小结 (4)
第2章  搜索引擎基本原理 (5)
2.1通用搜索引擎工作原理 (5)
2.2网页抓取技术研究 (6)
2.2.1网络爬虫工作原理 (7)
2.3检索技术 (8)
2.4查询器 (10)
2.5本章小结 (10)
第3章 垂直搜索引擎关键技术 (12)
3.1超链接分析算法 (12)
3.1.1 PageRank (12)
3.1.2 H.I.T算法 (15)
3.2结构化信息抽取 (16)
3.2.1 网页信息结构化抽取方式 (16)
3.3分词技术 (18)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。