基于Python的网页数据爬虫设计与数据整理--688IT编程网

网络信息工程

2020. 19

基于Python 的网页数据爬虫设计与数据整理

罗安然，林杉杉

(南京森林警察学院，江苏南京，210023 )

大学生网页设计期末作品

摘要：本文通过Python 实现了一套定向爬取网页数据的爬虫程序，并将爬取结果整理写入数据库中。期间解决了设计

爬虫程序过程中遇到的问题。

关键词：网络爬虫；Python ；数据整理

Design of legal document crawler based on Python

Luo Anran, Lin Shanshan

(Nanjing Forest Police College, Nanjing Jiangsu, 210023)

Abstract ：In this paper, we implement a set of crawler program of directional crawling web data through python, and write the crawling resuIts into the database. During the process, the problems encountered in the process of designing the crawler are solved.Keywords ； Internet worm ;Python; Data collation

0引言

网页作为信息网络中的重要组成部分，其中蕴含的数据信息远远不止页面上我们所看到的。如今，随着互联网的发

展，人们在网络上可以查自己需要的内容，搜索引擎作为中间的一个桥梁起到非常重要的作用。而网络爬虫则是一种

可以自动釆集定向网络信息的程序，通过自主编写爬虫程序

可以实现对自己所需要的某网站或是某页面的信息的定向

收集。而收集并不是主要目的，将收集来的数据整理存储才

能够实现收集效果最大化。本文通过Python 实现了一套定

向爬取网页数据的爬虫程序，并将爬取结果整理写入数据库中。在进一步了解掌握Python 的基础上，运用Python 在爬虫

方面的优势设计出完整爬虫结构并且可以爬取到所需要的定向相关内容，同时还设计出与之相应的反爬虫结构，并在过程中解决了设计爬虫程序过程中遇到的问题。

1爬虫技术概述1. 1 Python 简介

python 作为一种开源的编程语言，在利用python 语言编写程序中，不用考虑便捷程序的储存效果，有效提高

python 语言分析的有效性。在python 使用中，存在着可移植

性的特点，通过数据的综合利用及系统处理，将所分析的数

据移植到相关平台中，提高信息技术的适用性。同时，python

技术的解释及执行效果较强，也就是说，在python 语言以及

程序编写中，可以将源代码直接生成可编译的执行文件，增

强信息处理的效果。

1.2网络爬虫定义

网络爬虫，主要用于收集互联网上的各种资源，它是搜

索引擎的重要组成部分，是一个可以自动提取互联网上特

定页面内容的程序，一段自动抓取互联网信息的程序称为爬虫，爬虫指的是：向网站发起请求，获取资源后分析并提取有

用数据的程序，从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML 代码、JSON 数据、图片、

视频等爬到本地，进而提取自己需要的数据，存放起来使用。

1.3基本爬虫流程

网络爬虫工作首先要明确爬取对象及定向内容，设计出

适合爬取对象的专门爬虫工具爬取自己所需要的信息后将数据存储到EXCEL 进而永久存储在数据库中。网络爬虫的基

本工作流程如图1所示。

种子URL

待抓取的URL 任务队列

己经抓1R 到的

提取出URL DNS 駕析円页下徽

的网页URL

网页内容

数据存储

图1网络爬虫的基本工作流程

2网络爬虫案例实现

为了方便大批量网页查数据及分析，本文设计爬虫案

例，使用Python 爬虫工具爬取网页数据并存储，方便数据处

理、分析与挖掘。

基金项目：2019年度南京森林警察学院大学生创新创业训练计划资金项目“基于Python 的法律文书爬虫设计(201912213043)”。

里

甲吕测ii!

F I FC1THONIC

TFST

688IT编程网

基于Python的网页数据爬虫设计与数据整理

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于Python的网页数据爬虫设计与数据整理

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式