字符串⽂本匹配神器———Java正则表达式
什么是正则表达式?
正则表达式是⼀种特殊的字符串模式,⽤于匹配⼀组字符串,就好⽐⽤模具做产品,⽽正则就是这个模具,定义⼀种规则去匹配符合规则的字符。
为什么要学正则表达式
对于正则表达式,相信很多⼈都知道,但是很多⼈的第⼀感觉就是难学,因为看第⼀眼时,觉得完全没有规律可寻,⽽且全是⼀堆各种各样的特殊符号,完全不知所云。
其实只是对正则不了解⽽以,了解了你就会发现,原来就这样啊因为正则所⽤的相关字符其实不多,也不难记,更不难懂,唯⼀难的就是组合起来之后,可读性⽐较差,不容易理解。但是你只要肯花个⼏个⼩时的时间去学习并练习⼀下你就学会了。
正则表达式虽然内容不多但是功能强⼤,对于匹配⽂本或字符串那是相当的⾼效。下⾯我们来看下⾯⼀段百度百科对java语⾔的描述。
Java是⼀门⾯向对象编程语⾔,不仅吸收了C++语⾔的各种优点,还摒弃了C++⾥难以理解的多继承、指针等概念,因此Java语⾔具有功能强⼤和简单易⽤两个特征。
Java语⾔作为静态⾯向对象编程语⾔的代表,极好地实现了⾯向对象理论,允许程序员以优雅的思维⽅式进⾏复杂的编程。
Java具有简单性、⾯向对象、分布式、健壮性、安全性、平台独⽴与可移植性、多线程、动态性等特点。
Java可以编写桌⾯应⽤程序、Web应⽤程序、分布式系统和嵌⼊式系统应⽤程序等。
如果我让你出上述字符串中的所有的java和C++和Web,你会怎么做?传统⽅式可能会想到循环遍历通过判断字母的ASCII码值来输出。但是这样效率不⾼,因为如果让你查询⼤量的⽂本这将⾮常的慢。下⾯我们⽤java正则表达式来处理⼀下。
public class demo01 {
public static void main(String[] args){
//要匹配的字符串
String content="Java是⼀门⾯向对象编程语⾔,不仅吸收了C++语⾔的各种优点,还摒弃了C++⾥难以理解的多继承、指针等概念,"+ "因此Java语⾔具有功能强⼤和简单易⽤两个特征。\n"+
"Java语⾔作为静态⾯向对象编程语⾔的代表,极好地实现了⾯向对象理论,允许程序员以优雅的思维⽅式进⾏复杂的编程。\n"+
"Java具有简单性、⾯向对象、分布式、健壮性、安全性、平台独⽴与可移植性、多线程、动态性等特点。\n"+
"Java可以编写桌⾯应⽤程序、Web应⽤程序、分布式系统和嵌⼊式系统应⽤程序等。";
//匹配模式
String regExp="[a-zA-Z+]+";
//得到⼀个模式对象
Pattern pattern = Patternpile(regExp);
//创建匹配器
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println("到了:"+up(0));
}
}
}
输出:
到了:Java
到了:C++
到了:C++时间正则表达式java
到了:Java
到了:Java
到了:Java
到了:Java
到了:Web
我们通过正则表达式很容易的完成了我们的需求。
我们再来看⼏个需求
⼤家看完如果不知道正则表达式是不是没有什么思路没关系只要看完这篇⽂章你就会觉得不难实现了。
正则表达式底层实现
在讲正则表达式语法之前我们先通过debug来看看上诉java代码他们的底层是怎么运⾏的如何实现的?当我们把他的底层搞清楚之后我们再去学习正则表达式的语法和使⽤那将会如鱼得⽔。
matcher.find()⽅法分析
⼤家可能会觉得find⽅法返回类型⼀个是⼀个字符串但是这⾥的find⽅法返回的是⼀个Boolean值。
该⽅法在这⾥的作⽤是
1. 根据指定的匹配规则到对应的字符串,⽐如上⾯那段字符串,会到第⼀个满⾜条件的字符串(java)。
2. 到后会将该⼦字符串开始的索引储存到matcher对象的⼀个group数组中group[0]=0,最后⼀个索引值+1存储到group[4]中
3.同时记录⼀个LastOld属性的值为上⼀个⼦字符串最后⼀个索引值+1的值,其⽬的是为了让下⼀次查从该索引处继续查。
源码如下:
public String group(int group){
if(first <0)
throw new IllegalStateException("No match found");
if(group <0|| group >groupCount())
throw new IndexOutOfBoundsException("No group "+ group);
if((groups[group*2]==-1)||(groups[group*2+1]==-1))
return null;
return getSubSequence(groups[group *2], groups[group *2+1]).toString();
}
group⽅法按照上⾯源码
getSubSequence(groups[group *2], groups[group *2+1]).toString();
得到 groups[0]=0 和 groups[1]=4 的记录的位置,从 content 开始截取⼦字符串返回[0,4)处的字符串也就是1998.
如果再次指向 find ⽅法.仍然安上⾯分析来执⾏到下⼀个字符串C++的位置 在21和24然后将C++处索引的位置记录到group数组中为groups[0]=21 和 groups[1]=24。
然后group⽅法通过group索引的位置截取到对应的值。
分组情况的分析
既然可以通过group[0]来获取值那么能否通过group[1],group[2]…来获取值呢?答案是肯定可以的,那
就要涉及到分组的概念,什么是分组?
我们来看下⾯⼀个例⼦。
public class demo02 {
public static void main(String[] args){
String content="1243java 4567 c7890 python 1223";
//到4个连续的数字
String regExp="(\\d\\d)(\\d\\d)";
Pattern pattern = Patternpile(regExp);
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println("到了所有符合的值:"+up(0));
System.out.println("到了第⼀组的值:"+up(1));
System.out.println("到了第⼆组的值:"+up(2));
}
}
}
到了所有符合的值:1243
到了第⼀组的值:12
到了第⼆组的值:43
到了所有符合的值:4567
到了第⼀组的值:45
到了第⼆组的值:67
到了所有符合的值:7890
到了第⼀组的值:78
到了第⼆组的值:90
到了所有符合的值:1223
到了第⼀组的值:12
到了第⼆组的值:23
什么是分组,⽐如 (\d\d)(\d\d) ,正则表达式中有() 表⽰分组,第 1 个()表⽰第 1 组,第 2 个()表⽰第 2 组…
1. 根据指定的规则 ,定位满⾜规则的⼦字符串(⽐如(12)(43))
2. 到后,将 ⼦字符串的开始的索引记录到 matcher 对象的属性 int[] groups;
2.1 groups[0] = 0 , 把该⼦字符串的结束的索引+1 的值记录到 groups[1] = 4
2.2 记录 第1 组()匹配到的字符串12的索引存储到 groups[2] = 0 groups[3] = 2
2.3 记录第 2 组()匹配到的字符串43的索引存储到 groups[4] = 2 groups[5] = 4
2.4.如果有更多的分组… 以此类推
总结如下
1. 如果正则表达式有() 即分组
2. 取出匹配的字符串规则如下
3. group(0) 表⽰匹配到的⼦字符串
4. group(1) 表⽰匹配到的⼦字符串的第⼀组字串
5. group(2) 表⽰匹配到的⼦字符串的第 2 组字串
6. … 但是分组的数不能越界.group(3)则会报异常
包主要包括以下三个类:
Pattern 类:
pattern 对象是⼀个正则表达式的编译表⽰。Pattern 类没有公共构造⽅法。要创建⼀个 Pattern对象,你必须⾸先调⽤其公共静态编译⽅法,它返回⼀个 Pattern 对象。该⽅法接受⼀个正则表达式作为它的第⼀个参数。
常⽤⽅法
返回类型⽅法名和描述
String pattern() 返回编译此模式的正则表达式。
static Pattern compile(String regex) 将给定的正则表达式编译为模式。
static Pattern compile(String regex, int flags) 将给定的正则表达式编译为带有给定标志的模式。
Matcher matcher(CharSequence input) 创建⼀个匹配器,匹配给定的输⼊与此模式。
static boolean matches(String regex, CharSequence input) 编译给定的正则表达式,并尝试匹配给定的输⼊。
String[]split(CharSequence input) 将给定的输⼊序列分成这个模式的匹配。
String[]split(CharSequence input, int limit) 将给定的输⼊序列分成这个模式的匹配。
Matcher 类:
Matcher 对象是对输⼊字符串进⾏解释和匹配操作的引擎。与Pattern 类⼀样,Matcher 也没有公共构造⽅法。你需要调⽤ Pattern 对象的 matcher ⽅法来获得⼀个 Matcher 对象。
常⽤⽅法
返回类型⽅法名和描述
int start(int group) 返回给定组在上⼀个匹配操作期间捕获的⼦序列的开始索引。
int start(String name) 返回给定捕获的⼦序列的初始索引 named-capturing group以前的匹配操作期间。
int end() 返回最后⼀个字符匹配后的偏移量。
int groupCount() 返回此匹配器模式中捕获组的数量。
int end(int group) 返回在上次匹配操作期间由给定组捕获的⼦序列的最后⼀个字符之后的偏移量。
boolean find() 尝试到匹配模式的输⼊序列的下⼀个⼦序列。
boolean matches() 尝试将整个区域与模式进⾏匹配。
String group() 返回与上⼀个匹配匹配的输⼊⼦序列。
String group(int group) 返回在上⼀次匹配操作期间由给定组捕获的输⼊⼦序列。
String group(String name) 返回给定捕获的输⼊⼦序列 named-capturing group以前的匹配操作期间。
String replaceAll(String replacement) 将与模式匹配的输⼊序列的每个⼦序列替换为给定的替换字符串。
String replaceFirst(String replacement) 将与模式匹配的输⼊序列的第⼀个⼦序列替换为给定的替换字符串。PatternSyntaxException类:
PatternSyntaxException 是⼀个⾮强制异常类,它表⽰⼀个正则表达式模式中的语法错误。
正则表达式语法
普通字符
普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有⼤写和⼩写字母、所有数字、所有标点符号和⼀些其他符号。
字符描述
[abc]匹配 [abc] 中的所有字符 abcdefg 匹配到abc
[^abc]匹配除了 [abc] 中字符的所有字符 abcdefg 匹配到defg
[A-Z][A-Z] 表⽰⼀个区间,匹配所有⼤写字母,[a-z] 表⽰所有⼩写字母。
[\w]匹配字母、数字、下划线。等价于 [A-Za-z0-9_]
[\s\S]\s 是匹配所有空⽩符,包括换⾏,\S ⾮空⽩符,不包括换⾏。
.匹配除换⾏符(\n、\r)之外的任何单个字符,相等于 [^\n\r]。
[0-9]匹配0-9中的任意⼀个数字
⾮打印字符
⾮打印字符也可以是正则表达式的组成部分。下表列出了表⽰⾮打印字符的转义序列:
字符描述
\cx匹配由x指明的控制字符。例如, \cM 匹配⼀个 Control-M 或回车符。x 的值必须为A-Z 或 a-z 之⼀。否则,将 c 视为⼀个原义的 ‘c’ 字符。
\f匹配⼀个换页符。等价于 \x0c 和 \cL。
\n匹配⼀个换⾏符。等价于 \x0a 和 \cJ。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论