Python爬虫基础——re模块的提取、匹配和替换--688IT编程网

Python爬⾍基础——re模块的提取、匹配和替换re是Python的⼀个第三⽅库。

为了能更直观的看出re的效果，我们先新建⼀个HTML⽹页⽂件（可直接复制）：

index.html

<!DOCTYPE html>

<head>

<title>Title</title>

</head>

<body>

<div>

Email:re@qq

</div>

⼿机号:88888888

</div>

</footer>

</body>

</html>

## OK，然后我们进⼊主题。

re主要有三个功能：提取、匹配、替换。正则表达式提取中文

1、提取findall：

re.findall(【正则表达式】, 【被提取的字符串】)

注意：返回的类型是列表

我们应如何取出上⽂index.html中的Email或者⼿机号呢：

import re

with open('index.html', 'r', encoding='utf-8') as f:

# 读取index.html

html = f.read()

# 把html中的换⾏符，去掉，也就是替换成空字符串，因为.不能匹配到换⾏符

html = re.sub('\n', '', html)

print(html)

# 定义正则表达式，注意括号

pattern_1 = '<div class="email">(.*?)</div>'

# re.findall(【正则表达式】,【被提取的字符串】)，返回类型是列表

ret_1 = re.findall(pattern_1, html)

# 字符串.strip()，可以去除⾸位的空格和换⾏符

print(ret_1[0].strip())

2、匹配match：

re.match(【正则表达式】, 【被匹配的字符串】)

注意：

如果匹配成功，返回<class 're.Match'>对象；

如果匹配不成功，返回None。

我们应如何编写定义密码的正则表达式呢：

import re

# 英⽂字母开头，可包括应为字母，数字、下划线，总位数6-16位

password_pattern = r'^[a-zA-Z][a-zA-Z0-9_]{5,15}$'

# 定义三个密码

pass1 = '1234567'

pass2 = 'k123456'

pass3 = 'k123'

# 打印测试结果，匹配成功返回re.Match对象，不成功返回None

print(re.match(password_pattern, pass1))

print(re.match(password_pattern, pass2))

print(re.match(password_pattern, pass3))

输出结果为：

3、替换sub：

re.sub(【正则表达式】, 【替换成的字符串】, 【被匹配的字符串】)

觉得没看过sub的同学，那只能说明你看笔记不认真了，⽰范代码请看上上⽂~~为我⼼爱的⼥孩~~

688IT编程网

Python爬虫基础——re模块的提取、匹配和替换

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python爬虫基础——re模块的提取、匹配和替换

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式