大数据背景下依托于Python的网络爬虫技术研究--688IT编程网

TECHNOLOGY 技术应用摘要：网络爬虫在网络数据收集与分析上发挥了重要的作用。在大数据背景下，依托于Python的网络

爬虫技术具有操作简单、应用便捷、第三方库功能齐全以及文本字符串处理效果好等优势。论文利用爬虫

技术进行网页抓取具有广度最先、深度最先以及相似最先三种检索方案，包含了URL管理器模块、网页下

载器模块与网页解析器模块。

关键词：Python；网络爬虫；技术研究

大数据时代，数据和各个行业领域之间的联系越来越密切，也逐渐成为了行业领域不断发展和进步的重要基础。怎样从庞大的数据资源中获取自身需要的数据，成为当下众多行业共同关注的问题。从数据搜索层面来看，现在使用的搜索引擎较之前也有非常大的进步，做出了许多优化和改进，然而面临某些特别的数据以及难度大的搜索，还是难以达到理想的效果，得到的数据信息已经无法达到实际的使用标准。不管是互联网安全，还是产品市场调查，这些都要有大量的数据资源作支撑，但是在互联网环境中并没有可以直接使用的数据资源，工作人员必须要手动进行搜索、分析以及挖掘等工作，并将获得的数据信息格式转化成需要的数据。手动操作不仅难以获得全面的数据信息，同时也会造成工作效率低下，浪费时间和精力，而通过网络爬虫就可以轻松、便捷地完成网络数据信息的收集和分析工作，很好的改善了工作效率。为此，

本文探究了大数据背景下依托于Python的网络爬虫技术，为进一步提高网络数据分析和整合效果提供帮助。

一、依托于Python实现网络爬虫技术分析

（一）网络爬虫概述

网络爬虫也被叫做网页蜘蛛，能够依照设定的规则，实现万维网数据信息的程序以及脚本的自动抓取[1]。现阶段网络爬虫技术越来越成熟，在互联网搜索引擎以及许多相关网站上都有着非常深入的应用，在促进网站发展上发挥了重要的作用。网络爬虫可以便捷获得关联网站的内容以及检索途径，并且能够将网站的各个访问数据以及内容自动收集起来，为搜索引擎不断优化和改进提供支持，让使用者在进行信息检索时可以快速、便捷地检索到需要的数据信息。

（二）将Python应用到网络爬虫中的优势

第一，相比较于C++以及Java语言，Python语言的语法较为单一，简单易懂，初学者只需要花费较短的时间就可以运用Python完成相关编程工作，非常适合初学者学习。在实际运用Python语言时，编写Python程序与英文写作较为相似，只是较一般的写作有更加苛刻的要求和标准。此外，Python还有一个非常大的优势，就是采用伪代码的方式进行程序编写，让程序员将注意力集中在解决问题上，而不需要花费大量时间来研究语言本身[2]。

第二，Python语言应用十分便捷，抛弃了以往常用的较为笨重的IDE，只要有sublime text以及文本编辑器中的一种，就可以开展软件开发工作，并且能够满足当下绝大多数的中小型应用开发[3]。

第三，可以基于Python构建功能丰富多样的爬虫架构ScraPy，该应用架构专门用于爬虫网站，并能够从中挖掘出结构性数据。ScraPy能够和数据挖掘与存储等程序相兼容，具有很好的应用价值。

第四，拥有规模庞大、功能齐全的第三方网络库与html解析器，通过第三方网络库requests，只需要编写少量的代码，就能够实现网页下载。此外，依托于第三方BeautifulSoup库，能够十分便捷地完成对所有网页标签的解析，再将解析的结果融入到正则表达式中，就可以非常便利地获取网页中的各项信息与内容[4]。

第五，非常适宜应用到文本字符串处理操作中，这是由于Python自身涵盖了许多主流的文本处理函数，同时还能够兼容正则表达式，能够在较短的时间内完成文本内容的处理。

（三）爬虫工作原理

网络爬虫是可以自动收集网页上的指定信息，能够协助搜索引擎进行网页下载，是搜索引擎非常关键的一部分。在具体实现功能上，网络爬虫可以进行数据的收集、处理以及存储操作。

爬虫的实际工作原理是，先依托于少量的初始URL，对互联网相关网页内容进行下载，紧接着利用检索

以及内容匹配等方式，挖掘出网页中有价值的信息，并且持续从当下的网页中收集新的URL，依照网页抓取的规定标准，以特定的顺序和原则将获取的网页信息输

大数据背景下依托于Python的网络爬虫技术研究

周竞鸿

◆

TECHNOLOGY 技术应用

送到待抓取URL部分中，这个过程一直循环往复进行，直到抓取的信息达到系统规定的要求，才停止上述动作，接着将抓取获得的数据信息进行筛选与归纳，同时构建搜索引擎，将其放入到数据库或者文件夹中，最终依照具体查询需求，从数据库或者文件夹中检索出需要的数据信息，并将这些数据信息通过文本或者图表的方式呈现出来[5]。

（四）网页抓取方案

网络爬虫系统运行过程中，待抓取URL是十分关键的一个环节，同时，待抓取URL队伍是通过什么样的规律和特征排列也至关重要，这是由于不同的排列方式直接关系到URL的抓取顺序和抓取方式。值得注意的是，待抓取URL以什么样的顺序排列，是受到抓取方案的影响。通常情况下，网页抓取方案分为了三种形式，即深度最先、广度最先以及相似最先。

第一，广度最先检索方案。该方案的工作方式是以根节点为初始位置，先完成该层面的所有信息检索工作，然后才进入到下一层进行信息检索，按照这样的方式逐层进行下去。这样的检索方案通常使用在主题鲜明的爬虫上，这是由于和基础URL较为接近的URL，相互之间的主题内涵也更加相近[6]。

第二，深度最先检索方案。该方案的工作方式是以根节点为初始位置，直接进行叶子节点位置的寻，并依照这种的逻辑思维，一直持续下去。选取某个网页中包含的一个超链接，与超链接有关联的网页会依照深度最先检索方案进行搜索，并构建一个独立的检索链，一直往下检索，当检索不到新的超链接时，结束本次检索工作。

第三，相似最先检索方案。该方案的工作方式是基于各种计算获得URL描述文本和待检索网页的相近程度，也可以是与主题较为接近的网页，依照系统中设定的标准阙值，提取出符合条件的URL，之后开展抓取工作[7]。

（五）网络爬虫模块

网络爬虫技术结构可以划分成三个部分，即爬虫调度端、爬虫主程序以及目标数据。依托于该结构，网络爬虫主程序通常涵盖了三个部分，分别是URL管理器、网页下载器以及网页解析器，各个模块具体功能描述如表1所示。

表1 网络爬虫模块功能详情

序号模块名称模块功能

URL

管理器

主要负责提取网络爬虫的 Url地址，并

对爬虫已经“经过”的 URL地址进行删

除等编辑处理

网页

下载器

该模块能够根据 Url地址，从万维网上

下载相应的网址内容，获取网页中的详

细信息

网页

解析器

针对网页下载器所获取的信息，选择其

中具有价值的信息

在网络爬虫工作原理的基础之上，开发了一个能够

满足各种形式的爬虫架构，如图1所示为网络爬虫结构

示意图。

图1网络爬虫结构示意图

在实际运行中，网络爬虫一般按照下列步骤开展

工作[8]：

第一，确定一些满足规定要求的种子URL。

第二，将种子URL一并移动到等待抓取的URL队

伍中。

第三，从等待抓取的URL队伍中搜索到URL，同时

将与该URL密切相连的网页下载到系统中，并将获得的

网页传输到网页解析模块，再将使用过的URL放置到已

抓取URL队伍中。

第四，对从下载模块获得的网页数据信息进行研究

和整理，基于正则表达方式，从中寻出有价值的信息

数据，紧接着将有用信息发送给数据清洗模块，再往后

深入探究数据中的其它URL，同时将URL发送到URL调

度模块。

第五，URL调度模块在获得相关数据信息以后，第

一步开展该URL

数据与已抓取URL队伍的对比工作，

假如比对结果显示该URL已经被抓取过，则将该URL抛

弃掉，假如对比结果显示该URL没有被抓取过，则将该

URL放置到待抓取URL队伍中。

第六，在系统运行过程中，会在第三至第五步中

往复进行，一直到待抓取URL队伍中没有可供抓取的

URL，才停止抓取工作。此外，当系统下达停止爬取指令，

也会停止抓取工作。

第七，对数据进行清洗以及归纳，使得数据均具有

统一的格式，再储存到数据库中。

第八，依照用户的习惯和特性，从数据库中调取爬

取数据信息，并将这些数据以文本或者图表的方式展现

出来。

二、系统模块

依托于Python的网络爬虫系统模块涵盖了多个方面，

（下转第73页）

TECHNOLOGY 技术应用

（三）善于利用网络加密技术

在油田企业的安防监控系统的应用中，要加强对于网络加密技术的应用重视程度。通过网络加密技术的运用，避免出现由于信息泄露以及油田企业生产数据丢失和被破坏等一些突发情况，对于油田企业造成无法挽回的经济损失。

八、结语

本文通过对于无线网络技术在油田安防监控系统中的应用进行了分析，对于无线网络技术在油田安防监控中使用的重要意义进行了说明。并且，对于安防系统的系统构成以及性能进行了对比。通过分析总结出了在当前油田安防监控工作中对于无线网络技术的运用策略，需要理清系统构建的思路，加强对于相关工作人员的培训以及加强对于网络加密技术的运用，从而使无线网络技术能够在油田安防监控系统的运用中发挥出更大的作用。

python爬虫开发参考文献

[1]张莹，姚毅立，孙文剑.油田配注系统监控技术研究及效果[J].油气田地面工程,2020,39(10):80-86.

[2]张家田，马权.油田油井远程监控服务系统优化设计[J].清洗世界,2020,36(09):78-79.

[3]张娜，兰明菊，章玲，胡潇文，杨丽蓉.稠油集中监控系统报警参数研究与优化[J].信息系统工程,2020(09):44-45.

[4]段鸿杰，计洪图，李晓宇，梁琦.基于监控视频的油田施工场景状态识别[J].自动化技术与应用,2020,39(08):80-85.

[5]岳妍瑛.远程监控技术与油田信息化管理探究[J].中国管理信息化,2020,23(16):92-93.

[6]魏舒鹏.探讨集中监控技术在油田的应用[J].中国设备工程,2020(13):167-168.

（作者单位：中国石油大港油田分公司信息中心安防信息化部）

通常有主控模块、网页下载以及解析模块等，各个模块有着自身独特的功能，同时又相互配合，确保了网络爬虫系统的正常、稳定运行。

（一）主控模块

该模块的工作职责是进行各种初始化工作，创建新的种子URL，同时将这些URL添加到待抓取URL队伍中；下达命令给网页下载器，对相关网页进行下载操作，紧接着进行网页解析工作，从中寻出有价值的数据信息以及网页地址，开始往复工作，对所有模块工作方式进行管理，确保各个模块能够协同运行。

（二）网页下载模块

该模块的工作职责是进行网页的下载，在实际下载网页过程中，也会出现多种情况。对于允许匿名查看的网页，直接进行下载即可；在遇见有身份验证要求的网页，应当先模仿使用者登录账号，然后再开展下载工作；对于一些要求有数字签名与证书才能够查看的网页，必须要先得到相应的证书与签名，将其融入到程序中，验证通过以后开展下载工作。

（三）网页解析模块

该模块的工作职责是从网页中挖掘出符合规定的信息，并将获得的信息发送到数据清洗模块，搜寻URL地址信息并发送到URL调度模块。于此同时，网页解析模块还可以依托于正则表达式，挖掘出一些满足特殊需求的数据信息，并将获得的数据发送到数据清洗模块。

三、结语

综上所述，当前，我国已经全面进入到大数据时代，许多行业领域对数据产生了严重的依赖，关系到行业领域的未来发展。网络上的许多数据并不能够直接运用，自然也无法从互联网上直接获取或者购买得到，必须要依照需求开发网络爬虫，对数据进行自动收集和分析，Python语言容易上手，本身包含有爬虫架构，能够在网络爬虫设计中提供有力支持。

参考文献

[1]刘顺程，岳思颖. 大数据时代下基于 Python 的网络信息爬取技术 [J]. 电子技术与软件工程,2017(21):160.

[2] 逄菲 . 基于 Python 的分布式网络爬虫系统的设计与实现 [J]. 电子技术与软件工程,2018(23):6.

[3] 孙艺乘，张建敏.大数据数字媒体时代网络爬虫技术下的精准招商[J].贵州大学学报 ( 自然科学版 ),2017,34(02):80-84.

[4] 王思敏，尹伊秋，宣静雯，等 . 基于网络爬虫技术的数字资源检测软件的设计与实现 [J]. 现代电子技术,2019,42(10):132-135.

[5] 温娅娜，袁梓梁，何咏宸，等 . 基于 Python 爬虫技术的网页解析与数据获取研究 [J]. 现代信息科技,2020,4(01):12-13+16.

[6]李杰秦.基于Python语言下网络爬虫的技术特点及应用设计[J].数字通信世界,2020(01):209-210.

[7] 余本国.基于 python 网络爬虫的浏览器伪装技术探讨 [J]. 太原学院学报 ( 自然科学版 ),2020,38(01):47-50.

[8] 胡少宇，刘志民，董科.大数据数字媒体时代网络爬虫技术下的精准招商[J]. 电子技术与软件工程,2019(05):4-5.

（作者单位：湖北国土资源职业学院）

（上接第70页）

688IT编程网

大数据背景下依托于Python的网络爬虫技术研究

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

688IT编程网

大数据背景下依托于Python的网络爬虫技术研究

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

非零金额正则表达式