正则表达式怎么和if判断组成_正则表达式实现简介--688IT编程网

正则表达式怎么和if判断组成_正则表达式实现简介

正则表达式(Regular Expression)是⼀种⽂本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"）。

正则表达式描述了⼀种字符串匹配的模式（pattern），可以⽤来检查⼀个字符串是否含有满⾜该pattern的⼦串，正则表达式典型应⽤如下图：

常见的*表⽰前⾯的符号重复0或多次，⽐如AB*表⽰的字符串由⼀个A和0个或多个B组成。

|表⽰或操作，如AB|CD，可以表⽰字符串AB或者CD

()可以改变默认的优先级，举例如下：

每个正则表达式都对应⼀个⾮确定有限状态⾃动机(NFA)，根据正则表达式查字符串⾸先将其转化成对应的NFA，然后在⽂本上模拟NFA 的运⾏，看⽂本是否与该NFA对应的正则表达式匹配

//grep命令简单实现

public class GREP {

public static void main(String[] args) {

String regexp = "(.*" + args[0] + ".*)";

//根据正则表达式构造NFA

NFA nfa = new NFA(regexp);

while (StdIn.hasNextLine()) {

String line = adLine();

//在⽂本line上模拟NFA的运⾏看是否与对应的正则表达式匹配

if (izes(line)) {

StdOut.println(line);

}

//NFA实现

public class NFA {

private Digraph graph; // digraph of epsilon transitions

private String regexp; // regular expression

private final int m; // number of characters in regular expression

根据正则表达式构造NFA

长度为M的正则表达式中的每个字符在NFA中都对应⼀个状态，NFA的起始状态为0，并有⼀个虚拟的接受状态M，如下图

字母表中的字符对应的状态都有⼀条从它指出的边，如图中⿊⾊的边(A,B,A,C,D⽔平指出的边)

元字符(,),|,*对应的状态⾄少有⼀条指出的边，如图中红⾊的边

⼀个状态可以有多条指出的边，但只能有⼀条⿊⾊的边

约定模式由括号包围，所以NFA第⼀个状态是(，最后⼀个状态是)并指向接受状态M

NFA中的状态转换有两种⽅式，⽰意图如下：

1.如果当前状态的字符和⽂本中当前字符匹配，则可以通过⿊⾊的边转换到下⼀状态，称为匹配转换.

2.⾃动机可以通过红⾊的边转换到下⼀状态⽽不扫描⽂本中的任何字符，这种转换称为E-转换.

⽤char数组re[]保存正则表达式本⾝，如果re[i]在字母表中，就存在从i到i+1的匹配转换

⽤有向图G表⽰所有的E-转换，如上图的NFA对应的有向图含有下⾯9条边

⽤栈来处理括号，构造规则如下图

代码如下，结合正则表达式对应的NFA图来看就⽐较好理解了public NFA(String regexp) {

m = regexp.length();

Stack<Integer> ops = new Stack<Integer>();

graph = new Digraph(m+1);

for (int i = 0; i < m; i++) {

int lp = i;

if (regexp.charAt(i) == '(' || regexp.charAt(i) == '|') ops.push(i);

else if (regexp.charAt(i) == ')') {

int or = ops.pop();

// 2-way or operator

if (regexp.charAt(or) == '|') {

lp = ops.pop();

graph.addEdge(lp, or+1);

graph.addEdge(or, i);

}

else if (regexp.charAt(or) == '(')

lp = or;

else assert false;

}

// closure operator (uses 1-character lookahead)

if (i < m-1 && regexp.charAt(i+1) == '*') {

graph.addEdge(lp, i+1);

graph.addEdge(i+1, lp);

}

if (regexp.charAt(i) == '(' || regexp.charAt(i) == '*' || regexp.charAt(i) == ')')

graph.addEdge(i, i+1);

}

if (ops.size() != 0)

throw new IllegalArgumentException("Invalid regular expression");

}

在⽂本txt上模拟NFA的运⾏看是否与对应的正则表达式匹配，如果到达了接受状态，则称该NFA识别了这段⽂本模拟运⾏流程如下图

//代码如下

public boolean recognizes(String txt) {

//获取从起始状态0通过E-转换后能够到达的所有状态，存在Bag pc中

//深度优先搜索获取有向图graph中顶点0可达的所有顶点

DirectedDFS dfs = new DirectedDFS(graph, 0);

Bag<Integer> pc = new Bag<Integer>();

for (int v = 0; v < graph.V(); v++)

if (dfs.marked(v)) pc.add(v);

// Compute possible NFA states for txt[i+1]

for (int i = 0; i < txt.length(); i++) {

if (txt.charAt(i) == '*' || txt.charAt(i) == '|' || txt.charAt(i) == '(' || txt.charAt(i) == ')')

throw new IllegalArgumentException("text contains the metacharacter '" + txt.charAt(i) + "'"); //

Bag<Integer> match = new Bag<Integer>();

//看Bag pc中是否有与txt[i]匹配的字符，如果有则把匹配后v可达的状态v+1存⼊Bag match中

for (int v : pc) {

if (v == m) continue;

if ((regexp.charAt(v) == txt.charAt(i)) || regexp.charAt(v) == '.')

match.add(v+1);

}

//再把match中的状态通过E-转换后能够到达的所有状态，存在Bag pc中

dfs = new DirectedDFS(graph, match);

pc = new Bag<Integer>();

for (int v = 0; v < graph.V(); v++)

if (dfs.marked(v)) pc.add(v);

regex匹配// optimization if no states reachable

if (pc.size() == 0) return false;

//⽤Bag pc继续匹配txt中下⼀个字符 go for

}

// check for accept state

for (int v : pc)

if (v == m) return true;

return false;

}

* Unit tests the {@code NFA} data type.

* @param args the command-line arguments

public static void main(String[] args) {

String regexp = "(" + args[0] + ")";

String txt = args[1];

NFA nfa = new NFA(regexp);

688IT编程网

正则表达式怎么和if判断组成_正则表达式实现简介

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

正则表达式怎么和if判断组成_正则表达式实现简介

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式