深入正则表达式原理
最近很多同学都到了工作,给我的压力很大,我不知道,我怎样才能突破自己,到自己期待已久的工作,可能是我没有到突破口,没有到自己心中最想工作,想干一番大事业的那种冲动,或许是对学生时代的眷恋,或许是对自己的不自信,或许是对于现实的恐惧,我总是一次的在现实中来妥协自己,欺骗自己,以希望能留住我心中一直在呼叫的那种声音,挽留住最后能给自己净化心灵的那最后的一片热土。矿大啊,矿大,既让我爱又让我恨的校园。。。。。。
废话也不多说,就来聊聊我这几天学的一些正则表达式的内容(化了几乎一周的时间终于看懂了大部分的内容),只是为了以后查看,能给自己一个印记。
一 、先说正则表达式(regular expression)的基础语法:元字符(metacharacters)和常用的正则表达式
最近很多同学都到了工作,给我的压力很大,我不知道,我怎样才能突破自己,到自己期待已久的工作,可能是我没有到突破口,没有到自己心中最想工作,想干一番大事业的那种冲动,或许是对学生时代的眷恋,或许是对自己的不自信,或许是对于现实的恐惧,我总是一次的在现实中来妥协自己,欺骗自己,以希望能留住我心中一直在呼叫的那种声音,挽留住最后能给自己净化心灵的那最后的一片热土。矿大啊,矿大,既让我爱又让我恨的校园。。。。。。
废话也不多说,就来聊聊我这几天学的一些正则表达式的内容(化了几乎一周的时间终于看懂了大部分的内容),只是为了以后查看,能给自己一个印记。
一 、先说正则表达式(regular expression)的基础语法:元字符(metacharacters)和常用的正则表达式
1. 点号:. 匹配单个任意的字符(包括空格,换行符,回车符,制表符,换页符)。
2. 字符组 [ ] 匹配单个字符。如[abdcedf]也就是匹配[]中的任一个字符都能成功:匹配a成功匹配b也能成功,但不能匹配k这样没有在[]中出现的字符。
3. 排除型字符组 [^ ] 排除括号内列出的字符 如[^abcd]匹配e能够成功,匹配a就失败
4. 转义字符 \ 通常是把元字符转化成普通的字符 通常用于转换如:在匹配.号时,正常情况下正则表达式引擎(会在后面谈到)会把.当做元字符来处理,但是加上\就可以把\.中的点号当做一个普通的字符来处理。
5. 问号 ? 匹配一个或没有的字符
6. 星号 * 匹配多个或没有的字符
7. 加号 + 至少匹配一个字符或多个
8. 区间词{min,max} 匹配至少min次,和至多max次
9. ^ 匹配一行的开头
10. $ 匹配一行的结尾
11. \b 匹配单词的分界符
12. {?=} 肯定顺序环视
13. {?!} 否定顺序环视
7. 加号 + 至少匹配一个字符或多个
8. 区间词{min,max} 匹配至少min次,和至多max次
9. ^ 匹配一行的开头
10. $ 匹配一行的结尾
11. \b 匹配单词的分界符
12. {?=} 肯定顺序环视
13. {?!} 否定顺序环视
14. {?<=} 肯定逆向环视
15. {?<!} 否定逆向环视
16. {?:} 非捕获分组
17. {?>} 固化分组
二、下面的正则表达式针对各种语言又有一些的变化:
1. \d 匹配任意的数字
2. \D 匹配任意的非数字
3. \w 匹配任意的小写字母,大写字母和数字和下划线_等于[a-zA-Z0-9_]
4. \W 匹配任意的非字母等于[^\s]
5. \s 匹配空字符如空格符,制表符,等
6. \S 匹配非空字符
7. \1\2 主要用于分组获得所分的组项,有时用的很方便哦。
还有就是一些常用的匹配表达式:
1. \n 匹配换行符
2. \A 匹配一行的开头与^一样的功能
4. \W 匹配任意的非字母等于[^\s]
5. \s 匹配空字符如空格符,制表符,等
6. \S 匹配非空字符
7. \1\2 主要用于分组获得所分的组项,有时用的很方便哦。
还有就是一些常用的匹配表达式:
1. \n 匹配换行符
2. \A 匹配一行的开头与^一样的功能
三、 上面的都是些简单的语法,我相信大多数都能懂,那我就讲一些难懂的内容吧:
(1) .正则表达式的核心是正则表达式引擎处理方式。一般正则表达式引擎分为两种:NFA和DFA。
但其中的NFA又有两个分支:传统的NFA和POSIX NFA 以下是各种语言所支持的引擎:
传统NFA:GNU Emacs、java、grep、less、more、.NET、Perl、PHP、Python、Ruby、sed等
DFA :awk、egrep、flex、MySQL、Procmail
POSIX NFA:mawk、Mortice Kern等等。
DFA/NFA混合引擎:GNU awk 、GNU grep/egrep、Tcl
(2). 正则表达式真正起作用是由于这些引擎来计算匹配。所以要想弄懂正则表达式的内部机制,就必须要明白你所熟悉的语言(如java,用的都是传统的NFA)是采用的那种引擎。每一种语言都有这自己引擎,也就有自己的独特的规范和独特的匹配原则。所以正则表达式说采用的匹配结果也不一样。但不管是DFA还是NFA他们又有一些共性原则如:
1. 优先匹配最左端(最靠开头)的匹配结果。
2.标准的匹配量词(*、+、?和{min,max})是匹配优先的。
1* 先来说第一条:最左端匹配结果:
如果你用:cat来匹配下面的一句话:
The dragging belly indicates that your cat is too fat.
你本想匹配其中的cat,但是结果却不是,而是indicates中的cat。单词cat 是能够被匹配出来,但是indicates中的cat出现 的更早,所以就先匹配成功了。对于java程序员来说,他只关心是否能匹配而不关心在哪匹配。再来一个例子: 用:fat | cat | belly | your来匹配字符串上面的那一句话。结果会是什么呢?
你认为会是最后的fat是吗?因为fat在 fat | cat | belly | your最前面,是吗?错:答案是belly,句中的belly,为什么呢?由于匹配是从句中的第一个字母T来一次匹配fat | cat | belly | your,中的所有选项,结果发现都不符合,就走到h来匹配,结果也不符合,就依次走下去,直到b字母,有一项符合,就是fat | cat | belly | your中的belly中的b,所以依次匹配发现成功了,所以就正确了。就不在向后面的单词匹配(这种结果只是在支持NFA的引擎中)。
2* 再来说说第二条:标准量词(*、+等)是匹配优先(greedy 贪婪的意思)的。从英文单词
中,我们就可以发现一些原理。其实的确就是这样。
用\b\w+s\b 来匹配包含s的字符串,如regexes,整个是能够比配成功的,你或许会认为它是正则表达式\w+匹配到xe结束然后让s来匹配最后的regexes中的s,若你这样想,那就错了,其实\w+一次性的匹配到结束包括s在内都被它给匹配了,但后面有个s所以,她很不情愿的吐出一个s来,让后面的s来匹配。这样使得匹配成功。这个+是不是很greedy啊?像欧也妮~葛朗台是吗?O(∩_∩)O哈哈~,对了,就是,这条规则很重要,对于正则表达式的优化很重要。很多时候就是在这个基础上进行优化的。
下面就再来比较一下DFA和NFA的区别。
一般DFA速度较快,而NFA的控制能力较强。这两者各有千秋。
NFA引擎是表达式主导(有点困了,还是下次再写吧,那先留个目录,有助于下次写的:下面主要是NFA的工作原理,不同regular Expression 的流派,然后就是正则表达式的
用\b\w+s\b 来匹配包含s的字符串,如regexes,整个是能够比配成功的,你或许会认为它是正则表达式\w+匹配到xe结束然后让s来匹配最后的regexes中的s,若你这样想,那就错了,其实\w+一次性的匹配到结束包括s在内都被它给匹配了,但后面有个s所以,她很不情愿的吐出一个s来,让后面的s来匹配。这样使得匹配成功。这个+是不是很greedy啊?像欧也妮~葛朗台是吗?O(∩_∩)O哈哈~,对了,就是,这条规则很重要,对于正则表达式的优化很重要。很多时候就是在这个基础上进行优化的。
下面就再来比较一下DFA和NFA的区别。
一般DFA速度较快,而NFA的控制能力较强。这两者各有千秋。
NFA引擎是表达式主导(有点困了,还是下次再写吧,那先留个目录,有助于下次写的:下面主要是NFA的工作原理,不同regular Expression 的流派,然后就是正则表达式的
优化和调校,再者就是正则表达式的书写和案例经典例子的回放,最后是写我最爱的Java语言的正则表达式的应用)
第二章主要讲了一些入门的示例.
1:匹配文本
检查一段文字是否全部由数字组成 ^\d+$ ^\[0-9]+$
检查一段文字是否全部由数字组成,包括小数位,正负数 ^[-+]?\d+(\.=\d*)?$
温度的匹配 ^[-+]?\d+[CFcf]$
浮点温度的匹配 ^[-+]?\d+(\.=\d*)?[CFcf]$
在匹配文本的讲解中,提到了一个小常识,[ab]和(a|b),[ab]效率要高一点
2:环视结构
呵呵,首先我自己对环视进行下定义:来回看一边. 其实在正则中,我觉的环视做的第一步就是来
1:匹配文本
检查一段文字是否全部由数字组成 ^\d+$ ^\[0-9]+$
检查一段文字是否全部由数字组成,包括小数位,正负数 ^[-+]?\d+(\.=\d*)?$
温度的匹配 ^[-+]?\d+[CFcf]$
浮点温度的匹配 ^[-+]?\d+(\.=\d*)?[CFcf]$
在匹配文本的讲解中,提到了一个小常识,[ab]和(a|b),[ab]效率要高一点
2:环视结构
呵呵,首先我自己对环视进行下定义:来回看一边. 其实在正则中,我觉的环视做的第一步就是来
回看一边.
环视结构的特点是不匹配任何字符,只匹配文本中的位置.,这一点和^ $ \b 之类类似.环视包括顺序环视(从左往右看)和逆序环视(从右往左看)
先简单附上书中几个perl下环视的替换的例子,先看一下,我会在后面尽自己能力来说清楚这个东西.
以下几个语句都是完成相同功能的
s/\bJeffs\b/Jeff's/g 最简单,常人最容易想到
s/\b(Jeff)(s)\b/$1'$2/g 采用了捕获和反向应用
s/\bJeff(?=s\b)/Jeff'/g 采用顺序环视,寻Jeff后有字母s并且为单词边界的位置
s/(?<=Jeff)(?=s\b)/'/g 采用了顺序和逆序环视 寻这样一个位置 这个位置需要前面有\bJeff(逆序环视) 后面有s\b(顺序环视)
s/((?=s\b)(?<=Jeff)/'/g 只是对上面的两个环视位置颠倒,从一个方面说明环视只是寻位置,不占用任何字符
环视结构的特点是不匹配任何字符,只匹配文本中的位置.,这一点和^ $ \b 之类类似.环视包括顺序环视(从左往右看)和逆序环视(从右往左看)
先简单附上书中几个perl下环视的替换的例子,先看一下,我会在后面尽自己能力来说清楚这个东西.
以下几个语句都是完成相同功能的
s/\bJeffs\b/Jeff's/g 最简单,常人最容易想到
s/\b(Jeff)(s)\b/$1'$2/g 采用了捕获和反向应用
s/\bJeff(?=s\b)/Jeff'/g 采用顺序环视,寻Jeff后有字母s并且为单词边界的位置
s/(?<=Jeff)(?=s\b)/'/g 采用了顺序和逆序环视 寻这样一个位置 这个位置需要前面有\bJeff(逆序环视) 后面有s\b(顺序环视)
s/((?=s\b)(?<=Jeff)/'/g 只是对上面的两个环视位置颠倒,从一个方面说明环视只是寻位置,不占用任何字符
3:四种类型环视
肯定逆序环视 (?<=...)
否定逆序环视 (?<!...)
肯定顺序环视 (?=...)
否定顺序环视 (?!...)
4:采用环视模拟\b
(?<!\w)(?=\w)|(?<=\w)(?!\w)
(?<!\w)(?=\w) 一个位置,前面不是单词并且后面是单词,即,一个单词的前分界处
(?<=\w)(?!\w) 一个位置,前面是单词,后面不是单词,即单词的后分界处
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论