基于Python的儿童书籍数据爬取研究与应用
摘要:在大数据时代,互联网是丰富的信息和重要的数据来源,而爬虫技术是广泛获取数据的一种手段。儿童是世界的未来,关注儿童的书籍是可以第一时间知道当前儿童书籍的文化导向与未来趋势,而电商网站提供了全面的大量书籍数据。本文首先是利用Python在爬虫方面丰富的库和扩展性的技术优势,先对电商网站上的童书搜索进行URL分析,遍历获取URL并通过Mongo DB存储,再通过Mongo DB获取到URL抓取动态网页数据。同时开启子线程进行广度遍历当前页面有效的URL链接,直到Mongo DB中的URL数据全部遍历完成。本文中实现的分布式爬虫可以进行多台电脑共同抓取数据,能够并行抓取效率相对较高。该方案在思路和架构上优势明显,分布式的爬取,效率高,但是对数据库服务器要求也较高。
c++程序设计心得体会关键词:Python;爬虫;Mongo
Abstract:In the era of big data, the Internet is a rich source of information and important data, and crawler technology is a means of data acquisition. Children are the future of the world, and children's books are the first time to know the cultural orientation and future trends of children's books, and e-commerce sites provide a comprehensive volume of book data. In this paper, first of all, using Python's rich library and extensibility technology advantage, URL analysis of child book search on eCommerce
website is first carried out, URL is traversed, and Mongo DB is stored, and URL to capture dynamic web page data through URL. At the same time, open the sub thread to extend the effective URL link of the current page until the URL data in Mongo DB is traversed. The distributed crawler implemented in this paper can fetch data from multiple computers, and the efficiency of parallel crawling is relatively high. The scheme has obvious advantages in the way of thinking and structure, and the efficiency of distributed crawling is high, but the requirement for database server is higher.
Keywords:Python;Crawler;Mongo
目录
摘要............................................................ I 目录........................................................... II 1绪论 (1)
1.1背景 (1)
1.2意义 (1)
1.3常用爬虫技术 (1)
1.4研究目的 (2)
2相关技术介绍 (2)
2.1系统架构模式 (2)
2.2使用的开发语言 (4)
2.2.1Python (4)
2.2.2Mongo DB (4)
3系统分析 (5)
3.1系统需求分析 (5)
儿童python入门教程3.2系统功能分析 (5)
3.2.1系统业务描述 (5)
3.2.2系统需求建模 (6)
3.2.3系统数据建模 (7)
3.2.4系统过程建模 (8)
4爬虫系统设计 (9)google地图怎么用
4.1爬虫系统应用架构 (9)
4.2爬虫系统功能设计 (10)
4.3爬虫系统数据库设计 (11)
5爬虫系统实现 (12)
java多线程生产者消费者
5.1爬虫功能实现 (12)
学php需要有编程基础吗5.2  URL搜索组件实现 (14)
5.3网页解析组件实现 (17)
5.4数据库操作组件实现 (21)
5.5可视化服务器组件实现 (23)
卵巢畸胎瘤6爬虫测试及分析 (25)
6.1系统运行环境 (25)
6.2系统运行测试 (25)
6.3数据分析 (29)
6.3.1数据分词 (29)
6.3.2数据分析 (30)
7总结 (31)
致谢.......................................... 错误!未定义书签。
1绪论
1.1背景
目前网络的快速发展,互联网上拥有了大量有价值的信息,怎样高效地获取并利用这些数据成为一个
巨大的问题。在搜索引擎方面,传统的通用搜索引擎,作为一个帮助人类搜索信息的工具成为用户访问互联网的通道和途径。但是,这些通用性搜索引擎也存在着一部分的有限性错误!未到引用源。,如:
(1)不同领域和背景的用户通常都具有不同的搜索目标和要求,返回的数据包含大量用户不关心的部分是通用搜索引擎的短板错误!未到引用源。。
(2)一般的搜索引擎的功能是尽最大可能的实现网络覆盖,它最大的矛盾是有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾错误!未到引用源。。
(3)互联网的数据类型的丰富和网络技术的不断进步,文字、图片、音视频等不同数据大量出现,一般通用搜索引擎对这些信息含量密集且具有一定结构的数据无能为力,不能更好地发掘和使用错误!未到引用源。。
1.2意义
网络爬虫为了处理一般搜索引擎的局限性,于是就产生了有目标的抓取相关网页资源的聚焦爬虫。其意义在于能够更加准确的自动化的检索到使用者需要的大量数据信息。其中的聚焦爬虫是一个自动获取网页的程序,它根据有规律的抓取目标,有选择的访问互联网上的网页数据与相关的URL链接,搜
索所需要的信息。与通用爬虫不同,聚焦爬虫并不需要巨大的覆盖面积,而将目标定为抓取与某一目标主题内容关联的网页,为特定的用户查询特定的数据资源错误!未到引用源。。
1.3常用爬虫技术
网络爬虫是一种拥有一定的规律约束,自动地抓取互联网信息的程序,它们广泛的应用于互联网搜索引擎,能够自动获取所有能够访问到的网页数据,并收集或不断刷新网站的内容和检索方式错误!未到引用源。。按照功能来拆分,爬虫一般可拆分为数据获取,数据清洗,数据持久化三个部分错误!未到引用源。。当前流行的爬虫从一个或大量的初始网页的URL链接开始,抓取网页上的URL,在抓取网页的时候,不断从当前页面中清洗出新的URL放入数据库进行数据持久化,直到系统满足的一定条件才会停止。聚焦爬虫拥有较为复杂的工作流程,需要过滤与主题无关的链接,保留有价值的链接到等待抓取的URL数据库。然后,它将从队列中获取下一步要抓取的URL链接,然后不断重复,直到数据库中URL 链接全部被访问完成时错误!未到引用源。,常用的爬虫技术有JA V A,C++,PHP等。
1.4研究目的
目前从个别电商网站为初步目标进行爬取,积累经验,以便日后在其他电商网站上爬取数据打下基础,在今后的优化中设计出效率更高的爬虫,设计出更高效的系统结构打下基础。从网站上抓取关于
儿童书籍的商品数据资料,然后存于数据库中,获取到大量数据后,以便于日后进行数据分析。目的就是探索爬虫搜索、分析、提炼数据过程的实现,然后通过网页对数据进行查询。
2相关技术介绍
2.1系统架构模式
该专用爬虫系统运用了C/S网络架构模式,它把整个系统区分为客户端与服务器。每一个用户都可以通过客户端都可以向服务器中的某一应用程序发出请求。(3.1中有具体的结构示意图)
从而形成一个分布式爬虫系统,而且分布式系统拥有强大的内聚性和透明性。所以网络和分布式系统之间的区别更多的在于应用层软件,而不是网络层和物理
层的硬件。因此爬虫可以在多台不同电脑上运行,数据共享,快速的爬取并高效率的运行。但是该系统也有一定的缺陷需要数据库服务器性能更高(将数据库更改为分布式数据库能改变现状)。
同时还有另外的一种集中单点式爬虫模式,在本地固定电脑上进行数据爬取,然后将数据存储在本地文件中。这种爬虫只适用与小规模的数据爬取,而且数据爬取效率较低爬取的数据无法共享形成大数据。
图2-1 爬虫系统总体结构

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。