正则表达式的贪婪和非贪婪匹配模式--688IT编程网

正则基础之——贪婪与非贪婪模式转自：百度空间

3 贪婪还是非贪婪模式——再谈匹配效率

在正则表达式中.*和.*?是经常会用到的，可是具体的匹配过程很多人并不是很清楚。这里首先介绍一下他们的匹配过程，一般再这两个模式后面都还会带有其他的需要匹配的表达式，比如.*(a)和.*?(a)这两种正则表达式匹配下面的字符串：res/drawable/l Side-by-Side Unified

.*(a)的匹配是先匹配的字符串的结尾，然后在字符串的末尾向前回溯一直到出现a的位置得到匹配的结果：res/drawable/add_ca；而.*?(a)表达式由于？的存在表示非贪婪所以将优先权让给a去进行匹配，a匹配到第一个a出现的位置停止，所以结果是：res/dra。

这个匹配过程在很多正则应用是很重要的，所以希望自己能记住，所以做了这个文本，也希望对大家有些帮助。

下面是一些其他的更具体的介绍：

一般来说，贪婪与非贪婪模式，如果量词修饰的子表达式相同，比如“.*”和“.*?”，它们的应用场景通常是不同的，所以效率上一般不具有可比性。

而对于改变量词修饰的子表达式，以满足需求时，比如把“.*”改为“[^”]*”，由于修饰的子表达式已不同，也不具有直接的可对比性。但是在相同的子表达式，又都可以满足需求的情况下，比如 “[^”]*”和“[^”]*?”，贪婪模式的匹配效率通常要高些。

同时还有一个事实就是，非贪婪模式可以实现的，通过优化量词修饰的子表达式的贪婪模式都可以实现，而贪婪模式可以实现的一些优化效果，却未必是非贪婪模式可以实现的。

贪婪模式还有一点优势，就是在匹配失败时，贪婪模式可以更快速的报告失败，从而提升匹配效率。下面将全面考察贪婪与非贪婪模式的匹配效率。

3.1 效率提升——演进过程

在了解了贪婪与非贪婪模式的匹配基本原理之后，我们再来重新看一下正则效率提升的演进过程。

需求：取得两个“””中的子串，其中不能再包含 “””。

源字符串：The phrase "regular expression" is called "Regex" for short.

正则表达式一：”.*”

正则表达式一匹配的内容为“"regular expression" is called "Regex"”，不符合要求。

提出正则表达式二：”.*?”

首先“””取得控制权，由位置0位开始尝试匹配，直到位置11处匹配成功，控制权交给“.*?”，匹配过程同2.2.1中非贪婪模

式的匹配过程。“.*?”匹配的内容为“Regex”，匹配过程中进行了四次回溯。

如何消除回溯带来的匹配效率的损失，就是使用更小范围的子表达式，采用贪婪模式，提出正则表达式三：”[^”]*”

首先“””取得控制权，由位置 0位开始尝试匹配，直到位置11处匹配成功，控

制权交给“[^”]*”，匹配过程同2.2.2节中非贪婪模式的匹配过程。“[^”]*”匹配的内容为 “Regex”，匹配过程中没有进行回溯。

3.2 效率提升——更快的报告失败

以上讨论的是匹配成功的演进过程，而对于一个正则表达式，在匹配失败的情况下，如果能够以最快的速度报告匹配失败，也会提升匹配效率，这或许是我们设计正则过程中最容易忽略的。而在源字符串数据量非常大，或正则表达式比较复杂的情况下，是否能够快速报告匹配失败，将对匹配效率产生直接的影响。

下面将构建匹配失败的正则表达式，对匹配过程进行分析。

以下匹配过程分析中，源字符串统一为：The phrase "regular expression" is called "Regex" for short.

3.2.1 非贪婪模式匹配失败过程分析

图3-1

构建匹配失败的非贪婪模式的正则表达式：”.*?”@

由于最后的“@”的存在，这个正则表达式最后一定是匹配失败的，那么看一下匹配过程。

首先由“””取得控制权，由位置0处开始尝试匹配，匹配失败，直到图中标示的A处匹配成功，控制权交给“.*?”。

“.*?”取得控制权后，由A后面的位置开始尝试匹配，由于是非贪婪模式，首先忽略匹配，将控制权交给“””，同时记录一下回溯状态。“””取得控制权后，由A后面的位置开始尝试匹配，匹配字符“r”失败，查可供回溯的状态，将控制权交给“.*?”，由“.*?”匹配字符“r”。重复以上过程，直到“.*?”匹配了B处前面的字符“n”，“””匹配了B处的字符“””，将控制权交给 “@”。由“@”匹配接下来的空格“ ”，匹配失败，查可供回溯的状态，控制权交给“.*?”，由“.*?”匹配空格。继续重复以上匹配过程，直到由“.*?”匹配到字符串结束位置，将控制权交给“””。由于已经是字符串结束位置，匹配失败，报告整个表达式在位置11处匹配失败，一轮匹配尝试结束。正则匹配是什么

正则引擎传动装置使正则向前传动，进入下一轮尝试。后续匹配过程与第一轮尝试匹配过程基本类似，可以参考图3-1。

从匹配过程中可以看到，非贪婪模式的匹配失败过程，几乎每一步都伴随着回溯过程，对匹配效率的影响是很大的。

3.2.2 贪婪模式匹配失败过程分析——大范围子表达式

图3-2

注：以上分析过程图示参考了《精通正则表达式》一书相关章节图示。

构建匹配失败的贪婪模式的正则表达式：”.*”@

其中量词修饰的子表达式为匹配范围较大的“.”，由于最后的“@”的存在，这个正则表达式最后也是一定匹配失败的，看一下匹配过程。

首先由“””取得控制权，由位置0处开始尝试匹配，匹配失败，直到图中标示的A处匹配成

功，控制权交给“.*”。

“.*”取得控制权后，由A后面的位置开始尝试匹配，由于是贪婪模式，优化尝试匹配，一直匹配到字符串的结束位置，将控制权交给“””。“””取得控制权后，由于已经是字符串的结束位置，匹配失败，查可供回溯的状态，将控制权交给“.*”，由“.*”让出已匹配字符 “.”。重复以上过程，直到后面“””匹配了C处后面的字符“””，将控制权交给“@”。由“@”匹配接下来D处的空格“ ”，匹配失败，查可供回溯的状态，控制权交给“.*”，由“.*”让出已匹配文本。继续重复以上匹配过程，直到由“.*”让出所有已匹配的文本到I处，将控制权交给“””。“””匹配失败，由于已经没有可供回溯的状态，报告整个表达式在位置11处匹配失败，一轮匹配尝试结束。

正则引擎传动装置使正则向前传动，进入下一轮尝试。后续匹配过程与第一轮尝试匹配过程基本类似，可以参考图3-2。

从匹配过程中可以看到，大范围子表达式贪婪模式的匹配失败过程，从总体上看，与非贪婪模式没有什么区别，最终进行的回溯次数与非贪婪模式基本一致，对匹配效率的影响仍然很大。

3.2.3 贪婪模式匹配失败过程分析——改进的子表达式

图3-3

构建匹配失败的贪婪模式的正则表达式：”[^”]*”@

其中量词修饰的子表达式，改为匹配范围较小的排除型字符组“[^”]”，由于最后的“@”的存在，这个正则表达式最后也是一定匹配失败的，看一下匹配过程。

首先由“””取得控制权，由位置0处开始尝试匹配，匹配失败，直到图中标示的A处匹配成功，控制权交给“[^”]*”。

“[^”]*” 取得控制权后，由A后面的位置开始尝试匹配，由于是贪婪模式，优先尝试匹配，一直匹配到B处，将控制权交给“””。“””匹配接下来的的字符“””，匹配成功，将控制权交给“@”。由“@”匹配接下来的空格“ ”，匹配失败，查可供回溯的状态，控制权交给“[^”]*”，由“[^”]*”让出已匹配文本。继续重复以上匹配过程，直到由“[^”]*”让出所有已匹配的文本到C处，将控制权交给“””。“””匹配失败，由于已经没有可供回溯的状态，报告整个表达式在位置11处匹配失败，一轮匹配尝试结束。

正则引擎传动装置使正则向前传动，进入下一轮尝试。后续匹配过程与第一轮尝试匹配过程基本类似，可以参考图3-3。

从匹配过程中可以看到，使用了排除型字符组的贪婪模式的匹配失败过程，从总体上看，大量减少了每轮回溯的次数，可以有效的提升匹配效率。

3.2.4 贪婪模式匹配失败过程分析——固化分组

通过3.2.3节的分析可

以知道，由于“[^”]*”使用了排除型字符组，那么图3-3中，在A和B之间被匹配到的字符，就一定不会是字符“””，所以B到C之间回溯过程就是多余的，也就是说在这之间的可供回溯的状态完全可以不记录。.NET中可以使用固化分组，Java中可以使用占有优先量词来实现这一效果。

图3-4

首先由“””取得控制权，由位置0处开始尝试匹配，匹配失败，直到图中标示的A处匹配成功，控制权交给“(?>[^”]*)”。

“(?>[^”]*)”取得控制权后，由A后面的位置开始尝试匹配，由于是贪婪模式，优先尝试匹配，一直匹配到B处，将控制权交给“””，在这一匹配过程中，不记录任何可供回溯的状态。“””匹配接下来的字符“””，匹配成功，将控制权交给“@”。由“@”匹配接下来的空格“ ”，匹配失败，查可供回溯的状态，由于已经没有可供回溯的状态，报告整个表达式在位置11处匹配失败，一轮匹配尝试结束。

正则引擎传动装置使正则向前传动，进入下一轮尝试。后续匹配过程与第一轮尝试匹配过程基本类似，可以参考图3-4。

从匹配过程中可以看到，使用了固化分组的贪婪模式的匹配失败过程，没有涉及到回溯，可以最大限度的提升匹配效率。

3.3 非贪婪模式向贪婪模式的转换

使用匹配范围较大的子表达式时，贪婪模式与非贪婪模式匹配到的内容会有所不同，但是通过优化子表达式，非贪婪模式可以实现的匹配，贪婪模式都可以实现。

比如在实际应用中，匹配img标签的内容。

举例：

需求：取得img标签中的图片地址，src=后固定为“””

源字符串：<img class=”test” src=”/img/logo.gif” title=”测试” />

正则表达式一：<img\b.*?src=”(.*?)”.*?>

匹配结果中，捕获组1的内容即为图片地址。可以看到，这个例子中使用的都是非贪婪模式，而根据上面章节的分析，后面两个非贪婪模式都可以使用排除型字符组，将非贪婪模式转换为贪婪模式。

正则表达式二：<img\b.*?src=”([^”]*)”[^>]*>

注：“src=”…””和标签结束标记符“>”之间的属性中，也可能出现字符“>”，但那是极端情况，这里不予讨论。

后两处非贪婪模式，可以通过排除型字符组转换为贪婪模式，提高匹配效率，而“src=”前的非贪婪模式，由于要排除的是一个字符序列“src=”，而不是单独的某一个或几个字符，所以不能使用排除型字符组。当然也不是没有办法，可以使用顺序环视来达到这一效果。

正则表达式三：<img\b(?:(?!src=).)*src=”([^”]*)”[^& gt;]*>

“(?!src=).”表示这样一个字符，从它开始，右侧不能是字符序列“src=”，而“(?:(?!src=).)*” 就表示符合上面规则的字符，有0

个或无限多个。这样就达到排除字符序列的目的，实现的效果同排除型字符组一样，只不过排除型字符组排除的是一个或多个字符，而这种环视结构排除的是一个或多个有序的字符序列。

但是以顺序环视的方式排除字符序列，由于在匹配每一个字符时，都要进行较多的判断，所以相对于非贪婪模式，是提升效率还是降低效率，要根据实际情况进行分析。对于简单的正则表达式，或是简单的源字符串，一般来说是非贪婪模式效率高些，而对于数量较大源字符串，或是复杂的正则表达式，一般来说是贪婪模式效率高些。

比如上面取得img标签中的图片地址需求，基本上用正则表达二就可以了；对于复杂的应用，如平衡组中，就需要使用结合环视的贪婪模式了。

以匹配嵌套div标签的平衡组为例：

Regex reg = new Regex(@"(?isx) #匹配模式，忽略大小写，“.”匹配任意字符

<div[^>]*> #开始标记“&>”

(?> #分组构造，用来限定量词“*”修饰范围

<div[^>]*> (?<Open>) #命名捕获组，遇到开始标记，入栈，Open计数加1

| #分支结构

</div> (?<-Open>) #狭义平衡组，遇到结束标记，出栈，Open计数减1

| #分支结构

(?:(?!</?div\b).)* #右侧不为开始或结束标记的任意字符

)* #以上子串出现0次或任意多次

(?(Open)(?!)) #判断是否还有'OPEN'，有则说明不配对，什么都不匹配

</div> #结束标记“</div>”

");

“(?:(?!</?div\b).)*”这里使用的就是结合环视的贪婪模式，虽然每匹一个字符都要做很多判断，但这种判断是基于字符的，速度很快，而如果这里使用非贪婪模式，那么每次要做的就是分支结构“|”的判断了，而分支结构是非常影响匹配效率的，其代价远远高于对确定字符的判断。而另外一个原因，就是贪婪模式可以结合固化分组来提升效率，而对非贪婪模式使用固化分组却是没有意义的。

4 贪婪与非贪婪——最后的回顾

4.1 一个例子的匹配原理回顾

再回过头来看一下2.1.1节例子中正则，前面从应用角度进行了分析，但讨论过匹配原理后会发现，匹配过程并不是那么简单的，下面从匹配原理角度分析的匹配过程。

图4-1

首先由“<”取得控制权，由位置0位开始尝试匹配，匹配字符“a”，匹配失败，第一轮匹配结束。第二轮匹配从位置1开始尝试匹配，同样匹配失败。第三轮从位置3开始尝试匹配，匹配字符“<”，匹配成功，控制权交给“d”。

“d”尝试匹配字符“d”，匹配成功，控制权交给“i”。重复以上过程，直到由“>”匹

配到字符“>”，控制权交给“.*”。

“.*”属于贪婪模式，将从B处后的字符“t”开始，一直匹配到E处，也就是字符串结束位置，将控制权交给“<”。

“<” 从字符串结束位置尝试匹配，匹配失败，向前查可供回溯的状态，把控制权交给“.*”，由“.*”让出一个字符“c”，把控制权再交给“<”，尝试匹配，匹配失败，向前查可供回溯的状态。一直重复以上过程，直到“.*”让出已匹配的字符“<”，实际上也就是让出了已匹配的子串 “</div>cc”为止，“<”才匹配字符“<”成功，控制权交给“/”。

接下来由“/”、“d”、“i”、“v” 分别匹配对应的字符成功，此时整个正则表达式匹配完毕。

4.2 贪婪与非贪婪——量词的细节

4.2.1 区间量词的非贪婪模式

前面提到的非贪婪模式，一直都是使用的“*?”，而没有涉及到其它的区间量词，对于“*?”和“+?”这样的非贪婪模式，大多

数接触过正则表达式的人都可以理解，但是对于区间量词的非贪婪模式，比如“{m,n}?”，要么是没见过，要么是不理解，主要是这种应用场景非常少，所以被忽略了。

首先需要明确的一点，就是量词“{m,n}”是匹配优先量词，虽然它有了上限，但是在达到上限之前，能够匹配，还是要尽可能多的匹配的。而“{m,n}?”就是对应的忽略优先量词了，在可匹配可不匹配的情况下，尽可能少的匹配。

接下来举一个例子说明这种非贪婪模式的应用。

举例（参考限制字符长度与最小匹配）：

需求：如何限制在长度为100的字符串中，从头匹配到最先出现的abc

csdn.{1,100}abc 这样写是最大匹配(1-100个字符串中，我需要最小的)

比如 csdnfddabckjdsfjabc，匹配结果应为：csdnfddabc

正则表达式：csdn.{1,100}?abc

或许对这个例子还有人不是很理解，但是想想，其实“*”就等价于“{0,}”，“+”就等价于“{1,}”，“*?”也就是“{0,}?”，抽象出来也就是 “{m,}?”，即上限为无穷大。如果上限为一个固定值，那就是“{m,n}?”，这样应该也就可以理解了。

“{m}”没有放在匹配优先量词中，同样的，“{m}?”虽然被部分语言所支持，但是也没有放在忽略优先量词中，主要是因为这两种量词，实现的效果是一样的，只有被修饰的子表达式匹配m 次才能匹配成功，且没有可供回溯的状态，所以也不存在是匹配优先还是忽略优先的问题，也就不在本文的讨论范围内。事实上即使讨论也没有意义的，只要知道它们的匹配行为也就是了。

4.2.2 忽略优先量词的匹配下限

对于匹配优先量词的匹配下限很好理解，“?”等价于 “{0,1}”，它修饰的子表达式，最少匹配0次，最多匹配1次；“*”等价于“{0,}”

688IT编程网

正则表达式的贪婪和非贪婪匹配模式

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

正则表达式的贪婪和非贪婪匹配模式

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式