Python中的Re库简要总结--688IT编程网

Python中的Re库简要总结

⼀、正则表达式

正则表达式（regular expression）(regex)(RE)，⽤来简洁表达⼀组字符的表达式，由字符和操作符构成。通⽤的字符串表达框架

简洁表达⼀组字符串的表达式

针对字符串表达“简洁”和“特征”思想的⼯具

判断某字符串的特征归属

正则表达式常⽤于⽂本处理

正则匹配空字符串

表达⽂本类型的特征（病毒、⼊侵等）

同时查或替换⼀组字符串

匹配字符串的全部或部分

正则表达式的使⽤

编译：将符合正则表达式语法的字符串转换为正则表达式特征

正则表达式的常⽤操作符

操作符说明实例

.表⽰任何单个字符（默认除换⾏符）

[]字符集，对单个字符给出取值范围[abc]表⽰a、b、c，[a-z]表⽰a到z的单个字符[^]⾮字符集，对单个字符给出排除范围[^abc]表⽰⾮a或⾮b或⾮c的单个字符

*前⼀个字符0次或⽆限次扩展abc*表⽰ab、abc、abcc、abccc等

+前⼀个字符1次或⽆限次扩展abc+表⽰abc、abcc、abccc等

?前⼀个字符0次或1次扩展abc*表⽰ab、abc

|左右表达式任意⼀个abc|def表⽰abc、def

{m}扩展前⼀个字符m次ab{2}c表⽰abbc

{m,n}扩展前⼀个字符m⾄n次（含n）ab{1,2}c表⽰abc,abbc

^匹配字符串开头abc且在⼀个字符串的开头

$匹配字符串结尾abc且在⼀个字符串的结尾

()分组标记，内部只能使⽤|操作符(abc)表⽰abc,(abc|def)表⽰abc、def

\d数字，等价于[0-9]

\w单词字符，等价于[A-Za-z0-9_]

语法实例

正则表达式对应字符串

P(Y|YT|YTH|YTHO)?N‘PN’、’PYN’、’PYTN’、’PYTHN’、’PYTHON’

PYTHON+‘PYTHON’、’PYTHONN’、’PYTHONNN’……

PY[TH]ON‘PYTON’、’PYHON’

PY[^TH]?ON‘PYON’、’PYaON’、’PYbON’、’PYcON’……

PY{:3}ON‘PN’、’PYN’、’PYYN’、’PYYYN’

经典实例

正则表达式意义

^[A-Za-z]+$由26个字母组成的字符串

^[A-Za-z0-9]+$由26个字母和数字组成的字符串

^-?\d+$整数形式的字符串

^ [1-9]*[0-9]*$正整数形式的字符串

[1-9]\d{5}中国境内，6位

[\u4e00-\u9fa5]匹配中⽂字符

\d{3}-\d{8}|\d{4}-\d{7}国内电话号码 3位-8位或4位-7位

⼆、Re库

Re库是Python的标准库，主要⽤于字符串匹配，调⽤⽅法“import re”

1、正则表达式的类型

Re库采⽤raw string(原⽣字符串类型)表达正则表达式，表⽰为r'text'，raw string是不包含转义符的字符串如 r'[1-9]\d{5}'、r'\d{3}-\d{8}|\d{4}-\d{7}'

string类型更繁琐，需要对⼀些特殊符号进⾏转义

如 '[1-9]\\d{5}'、'\\d{3}-\\d{8}|\\d{4}-\\d{7}'

2、Re库的主要功能函数

函数说明

re.search()从⼀个字符串中搜索匹配正则表达式的第⼀个位置，返回match对象

re.match()从⼀个字符串的开始位置起匹配正则表达式，返回match对象

re.findall()搜索字符串，以列表类型返回全部能匹配的⼦串

re.split()将⼀个字符串按照正则表达式匹配结果进⾏分割，返回列表类型

re.finditer()搜索字符串，返回⼀个匹配结果的迭代类型，每个迭代元素是match对象

re.sub()在⼀个字符串中替换所有匹配正则表达式的⼦串，返回替换后的字符串

（1）re.search()函数

re.search(pattern,string,flags = 0)

在⼀个字符串中搜索匹配正则表达式的第⼀个位置，返回match对象

pattern：正则表达式的字符串或原⽣字符串表⽰

string：待匹配字符串

flags：正则表达式使⽤时的控制标记

1import re

2 match = re.search(r'[1-9]\d{5}','BIT 100081')

3if match:

up(0))

5 100081

常⽤标记说明

re.I re.IGNORECASE忽略正则表达式的⼤⼩写，[A-Z]能够匹配⼩写字符

re.M re.MULTILINE正则表达式中^操作符能够将给定字符串的每⾏当做匹配开始

re.S re.DOTALL正则表达式中的.操作符能够匹配所有字符，默认匹配除换⾏外的所有字符

（2）re.match()函数

re.match(pattern,string,flags = 0)

从⼀个字符串的开始位置起匹配正则表达式，返回match对象

pattern：正则表达式的字符串或原⽣字符串表⽰

string：待匹配字符串

flags：正则表达式使⽤时的控制标记

1import re

2 match = re.match(r'[1-9]\d{5}','BIT 100081')

3if match:

4 up(0))

up(0)

7 Traceback (most recent call last):

8 File "<input>", line 1, in <module>

9 AttributeError: 'NoneType' object has no attribute 'group'

由以上代码可看出，匹配不出以'BIT'开头的字符串，调⽤up(0)返回为空

1import re

2 match = re.match(r'[1-9]\d{5}','100081 BIT')

3if match:

up(0))

5 100081

（3）re.findall()函数

re.findall(pattern,string,flags = 0)

搜索字符串，以列表类型返回全部能匹配的⼦串

pattern：正则表达式的字符串或原⽣字符串表⽰

string：待匹配字符串

flags：正则表达式使⽤时的控制标记

1import re

2 ls = re.findall(r'[1-9]\d{5}','BIT100081 TSU100084')

3 ls

4 ['100081', '100084']

（4）re.split()函数

re.split(pattern,string,maxsplit = 0,flags = 0)

将⼀个字符串按照正则表达式匹配结果进⾏分割，返回列表类型

pattern：正则表达式的字符串或原⽣字符串表⽰

string：待匹配字符串

maxsplit：最⼤分割数，剩余部分作为最后⼀个元素输出

flags：正则表达式使⽤时的控制标记

1import re

2 re.split(r'[1-9]\d{5}','BIT100081 TSU100084')

3 ['BIT', ' TSU', ''] #将匹配的字符串去掉，剩余分割部分放⼊⼀个列表

4 re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit = 1)

5 ['BIT', ' TSU100084'] #将匹配的第⼀个字符串去掉，剩余分割部分放⼊⼀个列表（匹配的第⼀个字符串后的所有部分作为⼀个整体）（5）re.finditer()函数

re.finditer(pattern,string,flags = 0)

搜索字符串，返回⼀个匹配结果的迭代类型，每个迭代元素是match对象

pattern：正则表达式的字符串或原⽣字符串表⽰

string：待匹配字符串

flags：正则表达式使⽤时的控制标记

1import re

2for m in re.finditer(r'[1-9]\d{5}','BIT100081 TSU100084'):

3if m:

up(0))

5 100081

6 100084

（6）re.sup()函数

re.sup(pattern,repl,string,count = 0,flags = 0)

在⼀个字符串中替换所有匹配正则表达式的⼦串，返回替换后的字符串

pattern：正则表达式的字符串或原⽣字符串表⽰

repl：替换匹配字符串的字符串

string：待匹配字符串

count：匹配的最⼤替换次数

flags：正则表达式使⽤时的控制标记

1import re

2 re.sub(r'[1-9]\d{5}','zipcode','BIT100081 TSU100084')

3'BITzipcode TSUzipcode'

3、Re库的⽤法

（1）函数式⽤法：⼀次性操作

1 rst = re.search(r’[1-9]\d{5}’,’BIT 100081’)

（2）⾯向对象⽤法：编译后的多次操作

1 pat = repile(r’[1-9]\d{5}’)

2 rst = pat.search(‘BIT 100081’)

（3）repile()函数

regex = repile(pattern,flags = 0)

将正则表达式的字符串形式编译成正则表达式对象

pattern：正则表达式的字符串或原⽣字符串表⽰

flags：正则表达式使⽤时的控制标记

经过repile()⽅法后,regex被编译为正则表达式对象，可以使⽤对象⽅法，

即regex.search()、regex.match()、regex.findall()、regex.split()、regex.finditer()、regex.sub() 1import re

2 regex = repile(r'[1-9]\d{5}')

3 regex.search('100081')

4 <re.Match object; span=(0, 6), match='100081'>

5 regex.search('100081').group(0)

6'100081'

4、Match对象

（1）Match的属性

属性说明

.string待匹配的⽂本

.re匹配时使⽤的pattern对象（正则表达式）

.pos正则表达式搜索⽂本的开始位置

.endpos正则表达式搜索⽂本的结束位置

1import re

2 m = re.search(r'[1-9]\d{5}','BIT100081 TSU100084')

3 m.string #待匹配的字符串

4'BIT100081 TSU100084'

#匹配时使⽤的正则表达式

6 repile('[1-9]\\d{5}')

7 m.pos #正则表达式搜索⽂本的开始位置

8 0

dpos #正则表达式搜索⽂本的结束位置

10 19

（2）Match的⽅法

⽅法说明

.group(0)获得匹配后的字符串

.start()匹配字符串在原始字符串的开始位置

end()匹配字符串在原始字符串的结束位置

.span()返回(.start(),.end())

1import re

2 m = re.search(r'[1-9]\d{5}','BIT100081 TSU100084')

up(0) #获得匹配后的字符串

4'100081'#返回第⼀次匹配的结果

5 m.start() #匹配字符串在原始字符串的开始位置

6 3

d() #匹配字符串在原始字符串的结束位置

8 9

9 m.span() #返回(.start(),.end())

10 (3, 9)

5、贪婪匹配和最⼩匹配

（1）贪婪匹配

贪婪匹配即匹配最长的⼦串，Re库默认采⽤贪婪匹配

1import re

2 match = re.search(r'PY.*N','PYANBNCNDN')

up(0)

4'PYANBNCNDN'

（2）最⼩匹配

最⼩匹配即匹配最短的⼦串

操作符说明

*?前⼀个字符0次或⽆限次扩展，最⼩匹配

+?前⼀个字符1次或⽆限次扩展，最⼩匹配

??前⼀个字符0次或1次扩展，最⼩匹配

{m,n}?扩展前⼀个字符m⾄n次（含n），最⼩匹配

1import re

2 match = re.search(r'PY.*?N','PYANBNCNDN') #最⼩匹配

up(0)

4'PYAN'

资料来源：《Python⽹络爬⾍与信息提取》——嵩天，北京理⼯⼤学，MOOC

688IT编程网

Python中的Re库简要总结

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python中的Re库简要总结

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式