(完整word版)正则表达式和字符串处理(全)--688IT编程网

正则表达式和字符串处理(全)

第一章正则表达式概述

正则表达式(Regular Expression)起源于人类神经系统的研究。正则表达式的定义有以下几种：

● 用某种模式去匹配一类字符串的公式，它主要是用来描述字符串匹配的工具。

● 描述了一种字符串匹配的模式。可以用来检查字符串是否含有某种子串、将匹配的子串做替换或者从中取出符合某个条件的子串等。

● 由普通字符(a-z)以及特殊字符（元字符）组成的文字模式，正则表达式作为一个模版，将某个字符模式与所搜索的字符串进行匹配。

● 用于描述某些规则的的工具。这些规则经常用于处理字符串中的查或替换字符串。也就是说正则表达式就是记录文本规则的代码。

● 用一个字符串来描述一个特征，然后去验证另一个字符串是否符合这个特征。

以上这些定义其实也就是正则表达式的作用。

第二章正则表达式基础理论

这些理论将为编写正则表达式提供法则和规范，正则表达式主要包括以下基础理论：

● 元字符

● 字符串

● 字符转义

● 反义

● 限定符

● 替换

● 分组

● 反向引用

● 零宽度断言

● 匹配选项

● 注释

● 优先级顺序

● 递归匹配

2．1 元字符

在正则表达式中，元字符（Metacharacter）是一类非常特殊的字符，它能够匹配一个位置或字符集合中的一个字符，如：、 \w等。根据功能，元字符可以分为两种类型：匹配位置的元字符和匹配字符的元字符。

2．1．1 匹配位置的元字符

包括：^、$、和\b。其中^（脱字符号）和$（美元符号）都匹配一个位置，分别匹配行的

开始和结尾。比如，^string匹配以string开头的行，string$匹配以string结尾的行。^string$匹配以string开始和结尾的行。单个$匹配一个空行。单个^匹配任意行。\b匹配单词的开始和结尾，如：\bstr匹配以str开始的单词，但\b不匹配空格、标点符号或换行符号，所以，\bstr可以匹配string、string fomat等单词。\bstr正则表达式匹配的字符串必须以str开头，并且str以前是单词的分界处，但此正则表达式不能限定str之后的字符串形式。以下正则表达式匹配以ing结尾的字符串，如string、This is a string等

Ing\b

正则表达式ing\b匹配的字符串必须以ing结尾，并且ing后是分界符，以下正则表达式匹配一个完整的单词：\bstring\b。

2.1.2 匹配字符的元字符

匹配字符的元字符有7个:.(点号)、\w、\W、、s\、\S、\d和\D。其中点号匹配除换行之外的任意字符；\w匹配单词字符（包括字母、汉字、下划线和数字）；\W匹配任意非单词字符、\s匹配任意的空白字符，如空格、制表符、换行等；\S匹配任意的非空白字符；\d匹配任意数字字符；\D匹配任意的非数字字符。如：

^.$匹配一个非空行，在该行中可以包含除了换行符以外的任意字符。

^\w$匹配一个非空行，并且该行中只能包含字母、数字、下划线和汉字中的任意字符。

\ba\w\w\w\w\w\w\\b匹配以字母a开头长度等于7的任意单词

\ba\w\w\w\d\d\d\D\b匹配以字母a开头后面有3个字符三个数字和1个非数字字符长度等于8的单词

2.2 字符类

字符类是一个字符集合，如果该字符集合中的任何一个字符被匹配，则它会到该匹配项。

字符类可以在[]（方括号）中定义。如：

[012345]可以匹配数字0到5中的任意一个。

<H[123456]>可以匹配HTML标签中的H1到H6。

[Jj]ack可以匹配字符串Jack或jack。

但是，由于表达式[0123456789]书写非常不方便，连字符(-)便应用而生,[0-9]等价于[0123456789]。[a-z]匹配任何小写字母，[A-Z]匹配任意大写字母。如果要在字符类中包含连字符，则必须包含在第一位，如：[-a]表示表达式匹配-或者a。在字符类中如果^是字符类的第一个字符表示否定该字符串，也就是匹配该字符串外的任意字符，如：[^abc]匹配除了abc以外的任意字符，[^-]匹配除了连字符以外的任意字符，a[^b]匹配a之后不是b的字符串。

表2-1 常用的字符类

字符或表达式	说明
\w	匹配单词字符(包括字母、数字、下划线和汉字)
\W	匹配任意的非单词字符(包括字母、数字、下划线和汉字)
\s	匹配任意的空白字符，如空格、制表符、换行符、中文全角空格等
\S	匹配任意的非空白字符
\d	匹配任意数字
\D	匹配任意的非数字字符
[abc]	匹配字符集中的任何字符
[^abc]	匹配除了字符集中包含字符的任意字符
[0-9a-z_A-Z_]	匹配任何数字、字母、下划线。等同于\w
\p{name}	匹配{name}指定的命名字符类中的任何字符
\P{name}	匹配除了{name}指定的命名字符类中之外的任何字符
.	匹配除了换行符号之外的任意字符
[^0-9a-zA-Z_]	等同于\W

2.3 字符转义

表2-2：常用的转义字符

表达式	可匹配
\r, \n	代表回车和换行符
\t	制表符
\\	代表 "\" 本身

还有其他一些在后边章节中有特殊用处的标点符号，在前面加 "\" 后，就代表该符号本身。比如：^, $ 都有特殊意义，如果要想匹配字符串中 "^" 和 "$" 字符，则表达式就需要写成 "\^" 和 "\$"。

表达式	可匹配
regex匹配 \^	匹配 ^ 符号本身
\$	匹配 $ 符号本身
\.	匹配小数点（.）本身

2.4 反义

在使用正则表达式时，如果需要匹配不在字符类指定的范围内的字符时，可以使用反义规则。其实我们已经使用过反义表达式，如\W、\S、\D、[^abc]等。常用的反义表如下：

表2-3：常用的反义表达式

字符或表达式	说明
\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

2.4 限定符

正则表达式的元字符一次只能匹配一个位置或一个字符，如果需要匹配零个一个或多个字符时，则需要使用限定符。限定符用于指定允许特定字符或字符集自身重复出现的次数。如{n}表示出现n次；{n,}表示重复至少n次；{n,m}表示至少出现n次最

多m次。常用限定符如下表：

表2-4：常用限定符

字符	描述
*	匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。
?	匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。
{n}	n 是一个非负整数。匹配确定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。
{n,}	n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。刘， "o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
*？	尽可能少的使用重复的第一个匹配
+？	尽可能少的使用重复但至少使用一次
??	如果有可能使用零次重复或一次重复。
{n}?	等同于{n}
{n,}?	尽可能少的使用重复但至少重复n次
{n,m}?	介于n次和m次之间，尽可能少的使用重复。

2.5 贪婪、惰性和支配性匹配

惰性匹配：先看字符串中的第一个字母是不是一个匹配，如果单独一个字符还不够就读入下一个字符，如果还没有发现匹配，就不断地从后续字符中读取，只道发现一个合适的匹配，然后开始下一次的匹配。

贪婪匹配：先看整个字符串是不是一个匹配，如果没有发现匹配，它去掉字符串中最后一个字符并再次尝试，如果还没有发现匹配，那么再次去掉最后一个字符，这个过程会一直重复直到发现一个匹配或字符串不剩一个字符为止。

支配性匹配：只尝试匹配整个字符串，如果整个字符串不能产生一个匹配，则不再进行尝试。

我们普通的字符类均是贪婪匹配，如果在字符类后加个问号(?)则表示懒惰匹配，要成为支配性匹配则在懒惰匹配后加个问号(?).

2.6替换

正则表达式0\d{2}-\d{8}和0\d{3}-\d{7}分别匹配区号为3位和4位的固定电话号码，如果需要同时匹配区号为3位和4位的固定电话号码，可以使用替换满足这一需求。最简单的替换是使用竖线(|)表示。以下表达式匹配了区号为3位号码为8位和区号为4位号码为7位的的电话号码，区号和号码均使用-连接，0\d{2}-\d{8}|0\d{3}-\d{7}

表2-5 常用替换

字符或表达式	说明
\|	匹配竖线(\|)左侧或右侧
(?(表达式)yes\|no)	表达式要么与yes部分匹配要么与no部分匹配，其中no部分可以省略。
（？（name）yes\|no）	以name命名的字符串要么与yas部分匹配，要么与no部分pp，其中no部分可以省略

2.7 分组

分组又称为子表达式，即把一个正则表达式的全部或部分分成一个或多个组。其中分组使用圆括号()，分组后把圆括号中的表达式看做一个整体来处理，比如:（abc）{1，2}表示abc出现一次或两次的字符串，其中把abc看做一个整体来进行匹配。

2.8 后向引用

当一个正则表达式被分组后，每一个组将自动被赋予一个组号，该组号可以代表该组的表达式。其中，组号的编制规则为：从左到右，以分组的左括号为标志，第一个组号为1，第二个分组号为2，以此类推。如：(A?(B?(C?)))将产生3个组号，第一组为：(A?(B?(C?)))；第二组为： (B?(C?))；第三组为:(C?)。

688IT编程网

(完整word版)正则表达式和字符串处理(全)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

(完整word版)正则表达式和字符串处理(全)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式