基于Python的网页信息爬取技术研究--688IT编程网

计算机工程应用技术

本栏目责任编辑：梁

书

基于Python 的网页信息爬取技术研究

陈海燕，朱庆华，常莹

（北京电子科技职业学院电信工程学院，北京100176）

摘要：现在是信息时代，互联网为我们提供了丰富的信息资源。只要我们有需要就能通过网络得到。但是正因为网络上

的资源太丰富了，如果想得到需要的内容，用户就要做大量筛选和甄别工作。网络信息筛选和抓取有很多方法，比如Java 、Python 等语言，还有一些专门的公司为用户提供网络爬虫程序做信息的定向抓取。目前使用较多的是Python 语言，文章要研究的内容是：通过使用Python 库中的Beautiful Soup 库快速、简捷地抓取所需信息。关键词：BeautifulSoup ；Python ；网络爬虫中图分类号：TP393

文献标识码：A

文章编号：1009-3044(2021)08-0195-02

开放科学（资源服务）标识码（OSID ）：

1BeautifulSoup 介绍

Beautiful Soup 是一个可以从网页文件中提取信息的Py⁃thon 库，它包含在bs4库里。需要注意的是下载、安s4时需要联网，否则安装会出错，具体命令为：pip install bs4，如图1所示。

python解释器下载图1安s4库

2解析HTML 流程说明

HTML 文件是由一组尖括号构成的标签组织起来的，每一对尖括号形式一个标签，标签之间存在上下关系，形成一颗标签树。因此可以说Beautiful Soup 是解析、遍历、维护“标签树”的功能库。众所周知：html 由众多标签组成，如何精确定位标签，从标签中提取到需要的内容呢？

在到对应标签位置后，熟悉html 的人知道，信息一般会存储在两个位置中：

1）开始标签和结束标签中的内容；2）开始标签中的属性值。例如下面这行标签：<a href=‘www.baidu ’>美食网</a>。这个标签的含义是：一个段落中有一个超级链接，链接的地址是：www.baidu 。我们要做的就是提取<a>和</a>之间的“美食网”文字，或者提取<a>标签的属性值，即链接www.bai⁃

du 内容。

3使用python 进行网页内容获取的方法

3.1引入BeautifulSoup 库

程序开始的第1行需要引入BeautifulSoup 库。如果bs4下出现波浪线表示安装路径有问题，需要检查。语句如图2所示。

图2引入BeautifulSoup 库

3.2html 代码放入str

将html 代码放入一个变量中，注意，由于html 代码有换行，

需要每一行都加上单引号，这样比较麻烦，可以把html 整个代码用三个单引号里引起来，这样就简单多了，而且也增强了代码的可读性。如下所示：

str ='''<title>西红柿炒鸡蛋</title><body>

这道菜俺从小吃到大，它是我儿时的全部味觉记忆。

美食网免责声明。<ul class='list2'>

收稿日期：2020-09-25作者简介：陈海燕（1971—），女，北京人，讲师，硕士，主要研究方向为移

动终端技术等；朱庆华（1972—），男，北京人，讲师，学士，主

要研究方向为电子技术、物联网技术等；常莹（1972—），女，北京人，副教授，硕士，主要研究方向为软件工程，移动终端技术等。

195

本栏目责任编辑：梁书

计算机工程应用技术Computer Knowledge and Technology 电脑知识与技术第17卷第8期(2021年3月)

</body>'''

3.3使用lxml 解析器实例化BeautifulSoup 对象

BeautifulSoup 支持Python 标准库中的HTML 解析器（HT⁃MLParser ），还支持一些第三方的解析器，如果我们不安装它，则Python 会使用Python 默认的解析器，lxml 解析器更加强大，速度更快，推荐安装使用。具体的语句如图3

所示。

图3使用lxml 解析器实例化BeautifulSoup 对象

3.4获取title 标签里的内容

title 标签的含义是为网页定义标题。需要说明的是：如果要提取“标题”，只需要使用title 标签名来识别，因为整个html 文档中，title 标签只会出现一次。具体的语句如图4

所示。

图4获取title 标签里的内容

3.5获取p 标签里的文字

P 标签是段落标签，如果要提取p 标签里的内容，不能像提取title 标签一样只使用p 标签，因为p 标签可以有多个。因此p 标签要和它的class 属性联合起来使用，例如3.2中给出的标签，用'first'或'second'来识别p 标签。要提取class 属性是’first ’的p 标签，语句如图5所示。

图5获取属性为class='first'的p 标签里的文字

3.6获取所有p 标签里的文字

在进行信息抓取时，有时需要提取所有p 标签里的内容，

这时就可以使用循环获取。具体的语句如图6

所示。

图6获取所有p 标签里的文字

以3.2的标签为例，运行结果为：

这道菜俺从小吃到大，它是我儿时的全部味觉记忆。

美食网免责声明。3.7查ul 标签里的li 标签

ul 是无序列表标签，它与li 标签配合使用，一对ul 标签里可以包含若干对li 标签。因为ul 标签也可以有多个，因此ul 标签也要和它的class 属性联合起来使用，查class='list1'的ul 标签里的所有li 标签，可以使用图7

的方法。

图7查ul 标签里的li 标签

以3.2的标签为例，运行结果

<li>食材准备</li>,<li>制作过程</li>同理，也可以先定位到<ul class='list2'>这个标签上，所获得的所有li 就是我们想要的了。3.8查ul 标签里的li 标签内的内容

3.7中的方法，在获取内容时，连同<li>和</li>标签也一起获取了。当有多个li 标签时，又不想获取<li>和</li>标签时，可以使用图8

的方法。

图8查ul 标签里的li 标签内的内容

运行结果食材准备制作过程3.9到所有某类标签

如果要到所有某标签，或者某几种标签及根据正则表达

式提取，只能用find_all 返回一个列表，具体方法为：

soup.find_all('h2')

4结束语

Beautiful Soup 提供一些python 式的函数，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup 已成为和lxml 、html6lib 一样出的Python 解释器，为用户灵活地提供不同的解析策略或强劲的速度。

参考文献：

[1]周德懋，李舟军.高性能网络爬虫：研究综述[J].计算机科学,2009,36(8):26-29,53.

[2]霍柄良.基于Python 的网络爬虫技术探析[J].数码世界,2020(4):73-74.

[3]王鹏，郑贵省，郭强，等.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90.

[4]王晓楠，李杨，张海峰，张宇.面向网络爬虫的网站优化策略[J].农家参谋,2020(5).

[5]钟机灵.基于Python 网络爬虫技术的数据采集系统研究[J].信息通信,2020,33(4):96-98.

[6]李杰秦.基于Python 语言下网络爬虫的技术特点及应用设计[J].数字通信世界,2020(1):209-210.

[7]陈丽娟，王科，李晨曦.浅谈Python 网络爬虫技术基础知识[J].计算机系统网络和电信,2019,1(2):46-49.

[8]冯丹.基于网络爬虫的搜索引擎的研究[J].移动信息,2019(8):121-122.

【通联编辑：王力】

196

688IT编程网

基于Python的网页信息爬取技术研究

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

基于Python的网页信息爬取技术研究

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则