python中match方法_python用match()函数爬数据方法详解--688IT编程网

python中match⽅法_python⽤match（）函数爬数据⽅法详解match()函数的使⽤。以及从⽂本中提取数据的⽅法。在学习re模块的相关函数前应了解正则表达式的特殊字符

准备⼀个要爬取的⽂本⽂档：

直接从某个⽹页拷贝⼀份代码，粘贴在⼀个txt⽂件⾥，以供学习。

⽅法很简单，⽐如打开百度视频的热门电影⽹页，右键点击查看源代码，然后复制，粘贴到⼀个txt⽂件⾥，保存到⼯作⽬录下。

有4000多⾏。

re.match(pattern, string, flags=0)

①pattern，是正则表达式。string，被检验的字符串。

②flags是可选参数，此标记是⽤来对patten的补充。例如：re.S，可以让正则表达式中的点匹配换⾏符\n。(如图⽚中，可以看帮助⽂档，查看有哪些标记)

③ match()函数由左向右检验string，若匹配到正则表达式，返回⼀个匹配对象，否则就返回None.

④re.match() 匹配字符串的开始位置，⽽不匹配每⾏开始。

----所以才将⽹页的每⾏放⼊列表，以供match函数对每⾏操作。

⽐如要在⽂档中，提取电影的⽹址，和电影名。

①复制那⾏⽂本作为表达式，

②将要提取的⽹址和和电影名替换为(.*)，这只是暂时的，可以在接下来的代码中调整。

读取⽂本：

①⽤with open()语句读取；

②⽤readlines，⼀次性读完，返回⼀个列表，元素是⽂本的每⼀⾏。

with open('aa.txt','r',encoding='utf-8') as f:

adlines()

①判断每⾏是否返回了匹配的对象，

②接收匹配对象，并⽤groups()提取表达式内括号的内容；

for line in lines:

if re.match(pat,line): #判断过滤掉返回None的⾏，

ret=re.match(pat,line) #接收匹配对象

ups())

发现有不符合的⾏，稍加修改，过滤掉不符合的⾏：

因为，不合的⾏都有空格(或其他字符)。可以给第⼆⼦组的点 . 换成⾮[^ ]；⾮空格的任意字符，意思就是不要有空格的。

⽤f-string格式化对输出的⽂本稍加修饰，使⽤group(1)，group(2);

可以将这段代码封装为⼀个函数。爬取百度视频的其他栏⽬。

测试: 百度视频的电影，电视剧，和动漫等栏⽬，⽹页上的格式基本相同，所以⽤上⾯的函数直接套⽤。打开百度视频的动漫，复制源代码，存为bb.txt。

同样可以爬取⽹址和视频名称。

以上仅是练习match()函数的例⼦。

以上就是关于python如何⽤match()函数爬数据的全部内容，感谢⼤家的阅读和对我们的⽀持。

本⽂标题: python⽤match()函数爬数据⽅法详解源代码电影讲解

688IT编程网

python中match方法_python用match()函数爬数据方法详解

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

python中match方法_python用match()函数爬数据方法详解

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则