网络爬虫(SQL数据库)
摘要
:随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们需求的多样化,和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域己经不能满足人们的要求,于是垂直搜索引擎就应运而生。尽管垂直搜索引擎很多技术与通用搜索引擎很类似,但是还是有很多自己独特的技术,和一些新的需要解决的问题,URL爬虫就是其中的一个重点需要解决的问题。
关键词:搜索引擎,网络爬虫,URL提取
 
 
目 录
第一章 关于web检索URL相关问题 
1.1知识背景
1.2研究意义 
1.3国内外发展概况 
1.4本章小结 
第二章 知识背景 
2.1经济可行性 
2.2技术可行性
2.3操作可行性 
2.4法律可行性 
2.5本章小结 
第三章 总体设计 
3.1系统设计原理 
3.1.1系统功能设计 配上类与类之间的 UML图
3.2数据库设计 
ps大神通关教程慕课网
3.2.1数据库设计规则
3.2.2 数据库概念结构
3.2.4 数据库实体关系模型 还有实体关系图(ER图)
3.2.4 数据库逻辑结构
3.3详细设计
3.3.1 URL的提取
第四章 具体实现 系统实现
4.1系统设计原理 
4.2功能模块设计
4.3本章小结 
第五章 评价自己的毕业设计
5.1实现的目标 
5.2学到了哪些东西
5.3如果还有时间设计,今后你会添加哪些功能 
三角函数公式积化和差第六章 关于软件测试
企业门户网站设计
6.1软件测试的目的和意义
6.2软件测试的步骤
python异步
6.3软件测试的具体实现
6.4软件测试结论
6.5评价
6.6本章小结 爬虫软件 app
总 结 
谢 辞 
参考文献
附 录
unity3d怎么改成中文 
功能模块
1、网络爬虫模块
网络爬虫实际上是一个基于web的程序。它从一个初始的网页集出发,遍历Internet自动的采集网络信息。当爬虫打开某个HTML页面后,它会分析HTML标记结构来获取信息,并获
取指向其它页面的超级链接,然后通过既定的搜索策略选择下一个要访问的站点。从理论上讲,如果为Spider指定个适当的初始文档集和个适当的网络搜索策略,它就可以遍历整个网络。它的性能在很大程度上影响了搜索引擎站点的规模。
2、索引模块
网络爬虫爬取的网页上的信息以固定的格式获取到本地后,索引建立程序对信息进行分析,针对页面中出现的关键词建立一种利于快速查的数据结构,即索引,以供搜索引擎使用。搜索引擎在选择索引数据结构时通常考虑两个因素:紧凑的数据结构和高效的检索能力。由于搜索引擎在建立索引的时候是面对海量的信息,因此在考虑记录大小时要具体到字节中的位,这样才能达到一种比较合理科学性的空间膨胀比。合理的数据结构将使对关键词的检索更加迅速。通常有三种索引的建立基本技术:倒排文件、后缀数组和签名文件。倒排文件在当前大多数信息获取系统中得到应用,它对于关键词的搜索非常有效。后缀数组在短语查询中具有较快的速度,但是该结构在维护上相对比较麻烦。签名文档如今已被倒排索引技术替代。
处理网页的过程主要包括这几部分:文档特征向量提取、网页筛选、相关度分析、文档分类
和入库操作。
 
以下是部分界面图,如图片不清,请直接点击图片,如需要看更详细的资料,请直接!
 
 
                                图1(双击并最大化图片,可看清晰图片)
 
 
                                    图2(双击并最大化图片,可看清晰图片)
 
 
                              图3(双击并最大化图片,可看清晰图片)
           

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。