网络信息工程
2020. 19
基于Python 的网页数据爬虫设计与数据整理
罗安然,林杉杉
(南京森林警察学院,江苏南京,210023 )
大学生网页设计期末作品摘要:本文通过Python 实现了一套定向爬取网页数据的爬虫程序,并将爬取结果整理写入数据库中。期间解决了设计
爬虫程序过程中遇到的问题。
关键词:网络爬虫;Python ;数据整理
Design of legal document crawler based on Python
Luo Anran, Lin Shanshan
(Nanjing Forest Police College, Nanjing Jiangsu, 210023)
Abstract :In this paper, we implement a set of crawler program of directional crawling web data through python, and write the crawling resuIts into the database. During the process, the problems encountered in the process of designing the crawler are solved.Keywords ; Internet worm ;Python; Data collation
0引言
网页作为信息网络中的重要组成部分,其中蕴含的数据 信息远远不止页面上我们所看到的。如今,随着互联网的发
展,人们在网络上可以查自己需要的内容,搜索引擎作为 中间的一个桥梁起到非常重要的作用。而网络爬虫则是一种
可以自动釆集定向网络信息的程序,通过自主编写爬虫程序
可以实现对自己所需要的某网站或是某页面的信息的定向
收集。而收集并不是主要目的,将收集来的数据整理存储才
能够实现收集效果最大化。本文通过Python 实现了一套定
向爬取网页数据的爬虫程序,并将爬取结果整理写入数据库 中。在进一步了解掌握Python 的基础上,运用Python 在爬虫
方面的优势设计出完整爬虫结构并且可以爬取到所需要的 定向相关内容,同时还设计出与之相应的反爬虫结构,并在 过程中解决了设计爬虫程序过程中遇到的问题。
1爬虫技术概述1. 1 Python 简介
python 作为一种开源的编程语言,在利用python 语 言编写程序中,不用考虑便捷程序的储存效果,有效提高
python 语言分析的有效性。在python 使用中,存在着可移植
性的特点,通过数据的综合利用及系统处理,将所分析的数
据移植到相关平台中,提高信息技术的适用性。同时,python
技术的解释及执行效果较强,也就是说,在python 语言以及
程序编写中,可以将源代码直接生成可编译的执行文件,增
强信息处理的效果。
1.2网络爬虫定义
网络爬虫,主要用于收集互联网上的各种资源,它是搜
索引擎的重要组成部分,是一个可以自动提取互联网上特
定页面内容的程序,一段自动抓取互联网信息的程序称为爬 虫,爬虫指的是:向网站发起请求,获取资源后分析并提取有
用数据的程序,从技术层面来说就是通过程序模拟浏览器请 求站点的行为,把站点返回的HTML 代码、JSON 数据、图片、
视频等爬到本地,进而提取自己需要的数据,存放起来使用。
1.3基本爬虫流程
网络爬虫工作首先要明确爬取对象及定向内容,设计出
适合爬取对象的专门爬虫工具爬取自己所需要的信息后将 数据存储到EXCEL 进而永久存储在数据库中。网络爬虫的基
本工作流程如图1所示。
种子URL
待抓取的URL 任务队列
己经抓1R 到的
提取出URL DNS 駕析円页下徽
的网页URL
网页内容
数据存储
图1网络爬虫的基本工作流程
2网络爬虫案例实现
为了方便大批量网页查数据及分析,本文设计爬虫案
例,使用Python 爬虫工具爬取网页数据并存储,方便数据处
理、分析与挖掘。
基金项目:2019年度南京森林警察学院大学生创新创业训练计划资金项目“基于Python 的法律文书爬虫设计(201912213043)”。
里
甲吕测ii!
F I FC1THONIC
TFST
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论