python正则表达式前瞻_Python的正则表达式--688IT编程网

python正则表达式前瞻_Python的正则表达式

引⼦

⾸先说正则表达式是什么？

正则表达式，⼜称正规表⽰式、正规表⽰法、正规表达式、规则表达式、常规表⽰法(英语：Regular Expression，在代码中常简写为regex、regexp或RE)，计算机科学的⼀个概念。正则表达式使⽤单个字符串来描述、匹配⼀系列匹配某个句法规则的字符串。在很多⽂本编辑器⾥，正则表达式通常被⽤来检索、替换那些匹配某个模式的⽂本。

许多程序设计语⾔都⽀持利⽤正则表达式进⾏字符串操作。例如，在Perl中就内建了⼀个功能强⼤的正则表达式引擎。正则表达式这个概念最初是由Unix中的⼯具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”，单数有regexp、regex，复数有regexps、regexes、regexen。

定义是定义，太正经了就没法⽤了。我们来举个栗⼦：假如你在写⼀个爬⾍，你得到了

⼀个⽹页的HTML源码。其中有⼀段

hello world

你想要把这个hello world提取出来，但你这时如果只会python 的字符串处理，那么第⼀反应可能是

s =

hello world

start_index = s.find('

然后从这个位置向下查到下⼀个

出现这样做未尝不可，但是很⿇烦不是吗。需要考虑多个标签，⼀不留神就多匹配到东西了，⽽如果想要⾮常准确的匹配到，⼜得多加循环判断，效率太低。

这时候，正则表达式就是⾸选的帮⼿⼊门级别

接着说我们刚才那个例⼦。我们如果拿正则处理这个表达式要怎么做呢？

import re

key = r"

hello world

"#这段是你要匹配的⽂本

p1 = r"(?<=

).+?(?=

)"#这是我们写的正则表达式规则，你现在可以不理解啥意思

pattern1 = repile(p1)#我们在编译这段正则表达式

matcher1 = re.search(pattern1,key)#在源⽂本中搜索符合正则表达式的部分

up(0)#打印出来

你可以尝试运⾏上⾯的代码，看看是不是和我们想象的⼀样(博主是在python2.7环境下)发现代码挺少挺简单？往下看。⽽且正则表达式实际上要⽐看起来的那种奇形怪状要简单得多。

⾸先，从最基础的正则表达式说起。

假设我们的想法是把⼀个字符串中的所有"python"给匹配到。我们试⼀试怎么做

import re

key = r"javapythonhtmlvhdl"#这是源⽂本

p1 = r"python"#这是我们写的正则表达式

pattern1 = repile(p1)#同样是编译

matcher1 = re.search(pattern1,key)#同样是查询

up(0)

看完这段代码，你是不是觉得：卧槽？这就是正则表达式？直接写上去就⾏？

确实，正则表达式并不像它表⾯上那么奇葩，如果不是我们故意改变⼀些符号的含义时，你看到的就是想要匹配的。

所以，先把⼤脑清空，先认为正则表达式就是和想要匹配的字符串长得⼀样。在之后的练习中我们会逐步进化

初级

0.⽆论是python还是正则表达式都是区分⼤⼩写的，所以当你在上⾯那个例⼦上把"python"换成了"Python"，那就匹配不到你⼼爱的python了。

1.重新回到第⼀个例⼦中那个

hello world

匹配。假如我像这么写，会怎么样？

import re

key = r"

hello world

"#源⽂本

p1 = r"

"#我们写的正则表达式，下⾯会将为什么

pattern1 = repile(p1)

print pattern1.findall(key)#发没发现，我怎么写成findall了？咋变了呢？

有了⼊门级的经验，我们知道那两个

就是普普通通的字符，但是中间的是什么⿁？

.字符在正则表达式代表着可以代表任何⼀个字符(包括它本⾝)

findall返回的是所有符合要求的元素列表，包括仅有⼀个元素时，它还是给你返回的列表。

机智如你可能会突然问：那我如果就只是想匹配"."呢？结果啥都给我返回了咋整？在正则表达式中有⼀个字符\，其实如果你编程经验较多的话，你就会发现这是好多地⽅的“转义符”。在正则表达式⾥，这个符号通常⽤来把特殊的符号转成普通的，把普通的转成特殊的23333(并不是特殊的“2333”，写完才发现会不会有脑洞⼤的想歪了)。

举个栗⼦，你真的想匹配"1051980588@qq"这个邮箱(我的邮箱)，你可以把正则表达式写成下⾯这个样⼦：

import re

key = r"afiouwehrfuich1051980588@qqnaskdjhfiosueh"

p1 = r"1051980588@qq\"

pattern1 = repile(p1)

print pattern1.findall(key)

发现了吧，我们在.的前⾯加上了转义符\，但是并不是代表匹配“\.”的意思，⽽是只匹配“.”的意思！

不知道你细不细⼼，有没有发现我们第⼀次⽤.时，后⾯还跟了⼀个+？那这个加号是⼲什么的呢？

其实不难想，我们说了“.字符在正则表达式代表着可以代表任何⼀个字符(包括它本⾝)”，但是"hello world"可不是⼀个字符啊。

+的作⽤是将前⾯⼀个字符或⼀个⼦表达式重复⼀遍或者多遍。

⽐⽅说表达式“ab+”那么它能匹配到“abbbbb”，但是不能匹配到"a"，它要求你必须得有个b，多了不限，少了不⾏。你如果问我有没有那种“有没有都⾏，有多少都⾏的表达⽅式”，回答是有的。

*跟在其他符号后⾯表达可以匹配到它0次或多次

import re

p1 = r"https*://"#看那个星号！

python正则表达式不包含pattern1 = repile(p1)

print pattern1.findall(key)

输出

['', '']

2.⽐⽅说我们有这么⼀个字符串"cat hat mat qat"，你会发现前⾯三个是实际的单词，最后那个是我胡编乱造的(上百度查完是昆⼠兰英语学院的缩写= =)。如果你本来就知道"at"前⾯是c、h、m其中之⼀时这才构成单词，你想把这样的匹配出来。根据已经学到的知识是不是会想到写出来三个正则表达式进⾏匹配？实际上不需要。因为有⼀种多字符匹⽅式

[]代表匹配⾥⾯的字符中的任意⼀个

还是举个栗⼦，我们发现啊，有的程序员⽐较过分，，在这对标签上，⼤⼩写混⽤，⽼害得我们抓不到想要的东西，我们该怎么应对？是写16*16种正则表达式挨个匹配？no

import re

key = r"lalalahelloheiheihei"

p1 = r".+?[Hh][Tt][Mm][Ll]>"

pattern1 = repile(p1)

print pattern1.findall(key)

输出

['hello']

我们既然有了范围性的匹配，⾃然有范围性的排除。

[^]代表除了内部包含的字符以外都能匹配

还是cat,hat,mat,qat这个例⼦，我们想匹配除了qat以外的，那么就应该这么写：

import re

key = r"mat cat hat pat"

p1 = r"[^p]at"#这代表除了p以外都匹配

pattern1 = repile(p1)

print pattern1.findall(key)

输出

为了⽅便我们写简洁的正则表达式，它本⾝还提供下⾯这样的写法

正则表达式代表的匹配字符

[0-9]

0123456789任意之⼀

[a-z]

⼩写字母任意之⼀

[A-Z]

⼤写字母任意之⼀

等同于[0-9]

等同于[^0-9]匹配⾮数字

等同于[a-z0-9A-Z_]匹配⼤⼩写字母、数字和下划线

等同于[^a-z0-9A-Z_]等同于上⼀条取⾮

3.介绍到这⾥，我们可能已经掌握了⼤致的正则表达式的构造⽅式，但是我们常常会在实战中遇到⼀些匹配的不准确的问题。⽐⽅说：

import re

key = r"chuxiuhong@hit.edu"

p1 = r"@.+\."#我想匹配到@后⾯⼀直到“.”之间的，在这⾥是hit

pattern1 = repile(p1)

print pattern1.findall(key)

输出结果

['@hit.edu.']

呦呵！你咋能多了呢？我理想的结果是@hit.，你咋还给我加量了呢？这是因为正则表达式默认是“贪婪”的，我们之前讲过，“+”代表是字符重复⼀次或多次。但是我们没有细说这个多次到底是多少次。所以它会尽可能“贪婪”地多给我们匹配字符，在这个例⼦⾥也就是匹配到最后⼀个“.”。

我们怎么解决这种问题呢？只要在“+”后⾯加⼀个“？”就好了。

import re

key = r"chuxiuhong@hit.edu"

p1 = r"@.+?\."#我想匹配到@后⾯⼀直到“.”之间的，在这⾥是hit

pattern1 = repile(p1)

print pattern1.findall(key)

输出结果

['@hit.']

加了⼀个“?”我们就将贪婪的“+”改成了懒惰的“+”。这对于[abc]+,\w*之类的同样适⽤。

⼩测验：上⾯那个例⼦可以不使⽤懒惰匹配，想⼀种⽅法得到同样的结果

**个⼈建议：在你使⽤"+","*"的时候，⼀定先想好到底是⽤贪婪型还是懒惰型，尤其是当你⽤到范围较⼤的项⽬上时，因为很有可能它就多匹配字符回来给你**

为了能够准确的控制重复次数，正则表达式还提供

{a,b}(代表a<=匹配次数<=b)

还是举个栗⼦，我们有sas,saas,saaas，我们想要sas和saas，我们怎么处理呢？

import re

key = r"saas and sas and saaas"

p1 = r"sa{1,2}s"

pattern1 = repile(p1)

print pattern1.findall(key)

输出

['saas', 'sas']

如果你省略掉{1,2}中的2，那么就代表⾄少匹配⼀次，那么就等价于？

如果你省略掉{1,2}中的1，那么就代表⾄多匹配2次。

下⾯列举⼀些正则表达式⾥的元字符及其作⽤

元字符说明

代表任意字符

逻辑或操作符

[ ]

匹配内部的任⼀字符或⼦表达式

[^]

对字符集和取⾮

定义⼀个区间

对下⼀字符取⾮(通常是普通变特殊，特殊变普通)

688IT编程网

python正则表达式前瞻_Python的正则表达式

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python正则表达式前瞻_Python的正则表达式

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式