30
0 引言
在互联网的高速发展下,信息技术的完善与优化,使得人们能够了解各类信息,包括新闻事件、各国历史,遨游于动物世界,了解动物的新奇,畅怀于古往今来,体会历史的变迁。而随着互联网信息量的越来越大,对信息的收集也变得越来越困难,尤其是信息收集的准确性大大降低,加上无效信息的干扰,用户很难从多样的信息中收集到想要的信息。而随着对Python爬虫技术的改进与优化,能够实现对信息的准确挖掘,以达到对庞大信息准确检索的目的,优化用户的网络体验,节约时间与精力。
1 网络爬虫简介
1.1 网络爬虫原理
就网络爬虫而言,其还有其他的称谓,诸如网络机器人、网络蜘蛛,也十分形象的体现了其在复杂的互联网中收集各类信息的特征[1-2]。作为搜索引擎的重要构架,网路爬虫可进行自动收集,即能够对网页数据进行抓取。而其具体的运行机制为,利用种子URL,并将其置入需抓取的URL中,然后提取需抓取
的URL,在予以读取、解析,并进行相关下载。待相关网页下载后,将其存储于专有的网页库中,并使已经下载的网页URL置入已爬URL中。将已爬URL进行处理分析,并将其中的URL设置为种子URL,将其置入需抓取的URL中,依次循环往复。就其简单流程而言,其一,利用URL抓取代码;其二,根据正则匹配的方式提取相关信息;其三,对提取的信息进行相应的处理,并设置种子URL。  1.2 网络爬虫分类
在网络爬虫技术中,可区分为两种类别,其一,聚焦网络爬虫;其二,通用网络爬虫[3-4]。就聚焦网络爬虫而言,其运行机制相对复杂,具有一定的特殊性,即搜索、采集的信息针对性较强。其有一个显著的的特征,便是进行实时抓取,能够从庞大的信息库中选择准确有效的信息。在聚焦网络爬虫的作用下,可抓取、分析相应的数据,并且能够清除无效的干扰网页,其过滤速度相对较快,运行流畅。在清除掉毫无意义的URL地址后,收集并整理相似度极高的U R L地址,并将其纳入U RL 队列中,然后对采集到的URL进行处理与分析,下载相关网页并设置URL种子,进行下一步的信息抓取,在提取到准确有效的主题信息后,即停止运行。就通用网络爬虫而言,其主要是在搜索引擎的辅助下,搜索、抓取相关网页信息,然后在本地下载一份网页信息,以达到信息的采集、存储的目的。而其运行流程主要为以下步骤,首先抓取网站URL,通过DNS解析获取IP,再下载网页信息。然后存储网页,在搜索引擎的帮助下,获得原始页面的相关信息,判断浏览器HTML、网页信息之间是否有较大的差异,若差异较小,则可停止爬行。最后便是处理网页数据,在脚本、应用程序的作用下,处理网页数据的特殊文件、文字信息、相关连接等。
1.3 网络爬虫的应用场景
由于网络爬虫能够检索丰富多样的网络信息,其应用范围相对较大,适用性强。其不仅体现在搜狗、谷歌、夸克等搜索引擎中,还能够用于舆论监控、科学研究等项目中,在网络搜索中其无处不在[5-6]。例如,就舆论监控而言,在网
收稿日期:2020-09-15
*基金项目:南京审计大学教改课题,“新商科”背景下基于数据驱动的实验教学研究(2019JG050)作者简介:徐志(1974—),男,安徽桐城人,国际注册会计师,研究方向:审计理论与实务。Python 爬虫技术的网页数据抓取与分析*
徐志  金伟
(江苏省南京市江宁区审计局,江苏南京  211100)
python 爬虫教学摘要:随着信息化时代的到来,互联网信息量呈现爆发式的增长,如何在诸多复杂的信息中简单快捷的寻到有效信息,而网络爬虫的诞生能够有效的解决此类问题,改善了信息检索的现状,本文通过概述网络爬虫的原理,对Python爬虫技术进行分析。
关键词:网页数据;抓取;Py t h o n 爬虫技术;分析
中图分类号:TP393.092
文献标识码:A
文章编号:1007-9416(2020)10-0030-03
DOI:10.19695/jki12-1369.2020.10.11
应用研究

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。