Java正則表達式⼊门
众所周知,在程序开发中,难免会遇到须要匹配、查、替换、推断字符串的情况发⽣,⽽这些情况有时⼜⽐較复杂,假设⽤纯编码⽅式解决,往往会浪费程序猿的时间及精⼒。因此,学习及使⽤正則表達式,便成了解决这⼀⽭盾的主要⼿段。
⼤家都知道,正則表達式是⼀种能够⽤于模式匹配和替换的规范,⼀个正則表達式就是由普通的字符(⽐如字符a到z)以及特殊字符(元字符)组成的⽂字模式,它⽤以描写叙述在查⽂字主体时待匹配的⼀个或多个字符串。正則表達式作为⼀个模板,将某个字符模式与所搜索的字符串进⾏匹配。
⾃从jdk1.4推出包,就为我们提供了⾮常好的JAVA正則表達式应⽤平台。
由于正則表達式是⼀个⾮常庞杂的体系,所以我仅例举些⼊门的概念,很多其它的请參阅相关书籍及⾃⾏摸索。
// 反斜杠
/t 间隔 ('/u0009')
/n 换⾏ ('/u000A')
/r 回车 ('/u000D')
/d 数字等价于[0-9]
/D ⾮数字等价于[^0-9]
/s 空⽩符号 [/t/n/x0B/f/r]
/S ⾮空⽩符号 [^/t/n/x0B/f/r]
/w 单独字符 [a-zA-Z_0-9]
/W ⾮单独字符 [^a-zA-Z_0-9]
/f 换页符
/e Escape
/b ⼀个单词的边界
/B ⼀个⾮单词的边界
/
G 前⼀个匹配的结束
^为限制开头
^java 条件限制为以Java为开头字符
$为限制结尾
java$ 条件限制为以java为结尾字符
. 条件限制除/n以外随意⼀个单独字符
java.. 条件限制为java后除换⾏外随意两个字符
增加特定限制条件「[]」
[a-z] 条件限制在⼩写a to z范围中⼀个字符
[A-Z] 条件限制在⼤写A to Z范围中⼀个字符
[a-zA-Z] 条件限制在⼩写a to z或⼤写A to Z范围中⼀个字符
[0-9] 条件限制在⼩写0 to 9范围中⼀个字符
[0-9a-z] 条件限制在⼩写0 to 9或a to z范围中⼀个字符
[0-9[a-z]] 条件限制在⼩写0 to 9或a to z范围中⼀个字符(交集)
[]中增加^后加再次限制条件「[^]」
[^a-z] 条件限制在⾮⼩写a to z范围中⼀个字符
[^A-Z] 条件限制在⾮⼤写A to Z范围中⼀个字符
[^a-zA-Z] 条件限制在⾮⼩写a to z或⼤写A to Z范围中⼀个字符
[^0-9] 条件限制在⾮⼩写0 to 9范围中⼀个字符
[^0-9a-z] 条件限制在⾮⼩写0 to 9或a to z范围中⼀个字符
[^0-9[a-z]] 条件限制在⾮⼩写0 to 9或a to z范围中⼀个字符(交集)
在限制条件为特定字符出现0次以上时,能够使⽤「*」
J* 0个以上J
.* 0个以上随意字符
J.*D J与D之间0个以上随意字符
在限制条件为特定字符出现1次以上时,能够使⽤「+」
J+ 1个以上J
.+ 1个以上随意字符
J.+D J与D之间1个以上随意字符
在限制条件为特定字符出现有0或1次以上时,能够使⽤「?」
JA? J或者JA出现
限制为连续出现指定次数字符「{a}」
J{2} JJ
J{3} JJJ
⽂字a个以上,⽽且「{a,}」
J{3,} JJJ,JJJJ,JJJJJ,(3次以上J并存)
⽂字个以上,b个以下「{a,b}」
J{3,5} JJJ或JJJJ或JJJJJ
两者取⼀「|」
J|A J或A
Java|Hello Java或Hello
「()」中规定⼀个组合类型
⽐⽅,我查询<a href=/"index.html/">index</a>中<a href></a>间的数据,可写作<a.*href=/".*/">(.+?)</a>
在使⽤Patternpile函数时,能够增加控制正則表達式的匹配⾏为的參数:
Pattern Patternpile(String regex, int flag)
flag的取值范围例如以下:
Pattern.CANON_EQ 当且仅当两个字符的"正规分解(canonical decomposition)"都全然同样的情况下,才认定匹配。⽐⽅⽤了这个标志之后,表达式"a/u030A"会匹配"?"。默认情况下,不考虑"规范相等性(canonical equivalence)"。
Pattern.CASE_INSENSITIVE(?i) 默认情况下,⼤写和⼩写不明感的匹配仅仅适⽤于US-ASCII字符集。这个标志能让表达式忽略⼤写和⼩写进⾏匹配。要想对Unicode字符进⾏⼤⼩不明感的匹配,仅仅要将UNICODE_CASE与这个标志合起来即可了。
Pattern.COMMENTS(?x) 在这样的模式下,匹配时会忽略(正則表達式⾥的)空格字符(译者注:不是指表达式⾥的"//s",⽽是指表达式⾥的空格,tab,回车之类)。凝视从#開始,⼀直到这⾏结束。能够通过嵌⼊式的标志来启⽤Unix⾏模式。
字符串截取特定字符前的文字Pattern.DOTALL(?s) 在这样的模式下,表达式'.'能够匹配随意字符,包括表⽰⼀⾏的结束符。默认情况下,表达式'.'不匹配⾏的结束符。Pattern.MULTILINE
(?m) 在这样的模式下,'^'和'$'分别匹配⼀⾏的開始和结束。此外,'^'仍然匹配字符串的開始,'$'也匹
配字符串的结束。默认情况下,这两个表达式仅仅匹配字符串的開始和结束。
Pattern.UNICODE_CASE
(?u) 在这个模式下,假设你还启⽤了CASE_INSENSITIVE标志,那么它会对Unicode字符进⾏⼤写和⼩写不明感的匹配。默认情况下,⼤写和⼩写不敏感的匹配仅仅适⽤于US-ASCII字符集。
Pattern.UNIX_LINES(?d) 在这个模式下,仅仅有'/n'才被认作⼀⾏的中⽌,⽽且与'.','^',以及'$'进⾏匹配。
抛开空泛的概念,以下写出⼏个简单的Java正则⽤例:
◆⽐⽅,在字符串包括验证时
//查以Java开头,随意结尾的字符串
Pattern pattern = Patternpile("^Java.*");
Matcher matcher = pattern.matcher("Java不是⼈");
boolean b= matcher.matches();
//当条件满⾜时,将返回true,否则返回false
System.out.println(b);
◆以多条件切割字符串时
Pattern pattern = Patternpile("[, |]+");
String[] strs = pattern.split("Java Hello World Java,Hello,,World|Sun");
for (int i=0;i<strs.length;i++) {
System.out.println(strs[i]);
}
◆⽂字替换(⾸次出现字符)
Pattern pattern = Patternpile("正則表達式");
Matcher matcher = pattern.matcher("正則表達式 Hello World,正則表達式 Hello World");
/
/替换第⼀个符合正则的数据
System.out.placeFirst("Java"));
◆⽂字替换(所有)
Pattern pattern = Patternpile("正則表達式");
Matcher matcher = pattern.matcher("正則表達式 Hello World,正則表達式 Hello World");
//替换第⼀个符合正则的数据
System.out.placeAll("Java"));
◆⽂字替换(置换字符)
Pattern pattern = Patternpile("正則表達式");
Matcher matcher = pattern.matcher("正則表達式 Hello World,正則表達式 Hello World ");
StringBuffer sbr = new StringBuffer();
while (matcher.find()) {
matcher.appendReplacement(sbr, "Java");
}
matcher.appendTail(sbr);
System.out.String());
◆验证是否为邮箱地址
String str="ceponline@yahoo";
Pattern pattern = Patternpile("[//w//.//-]+@([//w//-]+//.)+[//w//-]+",Pattern.CASE_INSENSITIVE); Matcher matcher = pattern.matcher(str);
System.out.println(matcher.matches());
◆去除html标记
Pattern pattern = Patternpile("<.+?>", Pattern.DOTALL);
Matcher matcher = pattern.matcher("<a href=/"index.html/">主页</a>");
String string = placeAll("");
System.out.println(string);
◆查html中相应条件字符串
Pattern pattern = Patternpile("href=/"(.+?)/"");
Matcher matcher = pattern.matcher("<a href=/"index.html/">主页</a>");
if(matcher.find())
System.out.up(1));
}
◆截取地址
//截取url
Pattern pattern = Patternpile("(|){1}[//w//.//-/:]+");
Matcher matcher = pattern.matcher("dsdsds<dsds//gfgffdfd>fdf");
StringBuffer buffer = new StringBuffer();
while(matcher.find()){
buffer.up());
buffer.append("/r/n");
System.out.String());
}
◆替换指定{}中⽂字
String str = "Java眼下的发展史是由{0}年-{1}年";
String[][] object={new String[]{"//{0//}","1995"},new String[]{"//{1//}","2007"}};
System.out.println(replace(str,object));
public static String replace(final String sourceString,Object[] object) {
String temp=sourceString;
for(int i=0;i<object.length;i++){
String[] result=(String[])object[i];
Pattern pattern = Patternpile(result[0]);
Matcher matcher = pattern.matcher(temp);
placeAll(result[1]);
}
return temp;
}
◆以正则条件查询指定⽂件夹下⽂件
//⽤于缓存⽂件列表
private ArrayList files = new ArrayList();
//⽤于承载⽂件路径
private String _path;
//⽤于承载未合并的正则公式
private String _regexp;
class MyFileFilter implements FileFilter {
/**
* 匹配⽂件名称称
*/
public boolean accept(File file) {
try {
Pattern pattern = Patternpile(_regexp);
Matcher match = pattern.Name());
return match.matches();
} catch (Exception e) {
return true;
}
}
}
/**
* 解析输⼊流
* @param inputs
*/
FilesAnalyze (String path,String regexp){
getFileName(path,regexp);
}
/**
* 分析⽂件名称并增加files
* @param input
*/
private void getFileName(String path,String regexp) {
/
/⽂件夹
_path=path;
_regexp=regexp;
File directory = new File(_path);
File[] filesFile = directory.listFiles(new MyFileFilter());
if (filesFile == null) return;
for (int j = 0; j < filesFile.length; j++) {
files.add(filesFile[j]);
}
return;
}
/
**
* 显⽰输出信息
* @param out
*/
public void print (PrintStream out) {
Iterator elements = files.iterator();
while (elements.hasNext()) {
File file=(File) ();
out.Path());
}
}
public static void output(String path,String regexp) {
FilesAnalyze fileGroup1 = new FilesAnalyze(path,regexp);
fileGroup1.print(System.out);
}
public static void main (String[] args) {
output("C://","[A-z|.]*");
}
Java正则的功⽤还有⾮常多,其实仅仅要是字符处理,就没有正则做不到的事情存在。(当然,正则解释时较耗时间就是了|||……)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论