正则表达式怎么和if判断组成_正则表达式实现简介
正则表达式(Regular Expression)是⼀种⽂本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。
正则表达式描述了⼀种字符串匹配的模式(pattern),可以⽤来检查⼀个字符串是否含有满⾜该pattern的⼦串,正则表达式典型应⽤如下图:
常见的*表⽰前⾯的符号重复0或多次,⽐如AB*表⽰的字符串由⼀个A和0个或多个B组成。
|表⽰或操作,如AB|CD,可以表⽰字符串AB或者CD
()可以改变默认的优先级,举例如下:
每个正则表达式都对应⼀个⾮确定有限状态⾃动机(NFA),根据正则表达式查字符串⾸先将其转化成对应的NFA,然后在⽂本上模拟NFA 的运⾏,看⽂本是否与该NFA对应的正则表达式匹配
//grep命令简单实现
public class GREP {
public static void main(String[] args) {
String regexp = "(.*" + args[0] + ".*)";
//根据正则表达式构造NFA
NFA nfa = new NFA(regexp);
while (StdIn.hasNextLine()) {
String line = adLine();
//在⽂本line上模拟NFA的运⾏看是否与对应的正则表达式匹配
if (izes(line)) {
StdOut.println(line);
}
}
}
}
//NFA实现
public class NFA {
private Digraph graph; // digraph of epsilon transitions
private String regexp; // regular expression
private final int m; // number of characters in regular expression
根据正则表达式构造NFA
长度为M的正则表达式中的每个字符在NFA中都对应⼀个状态,NFA的起始状态为0,并有⼀个虚拟的接受状态M,如下图
字母表中的字符对应的状态都有⼀条从它指出的边,如图中⿊⾊的边(A,B,A,C,D⽔平指出的边)
元字符(,),|,*对应的状态⾄少有⼀条指出的边,如图中红⾊的边
⼀个状态可以有多条指出的边,但只能有⼀条⿊⾊的边
约定模式由括号包围,所以NFA第⼀个状态是(,最后⼀个状态是)并指向接受状态M
NFA中的状态转换有两种⽅式,⽰意图如下:
1.如果当前状态的字符和⽂本中当前字符匹配,则可以通过⿊⾊的边转换到下⼀状态,称为匹配转换.
2.⾃动机可以通过红⾊的边转换到下⼀状态⽽不扫描⽂本中的任何字符,这种转换称为E-转换.
⽤char数组re[]保存正则表达式本⾝,如果re[i]在字母表中,就存在从i到i+1的匹配转换
⽤有向图G表⽰所有的E-转换,如上图的NFA对应的有向图含有下⾯9条边
⽤栈来处理括号,构造规则如下图
代码如下,结合正则表达式对应的NFA图来看就⽐较好理解了public NFA(String regexp) {
m = regexp.length();
Stack<Integer> ops = new Stack<Integer>();
graph = new Digraph(m+1);
for (int i = 0; i < m; i++) {
int lp = i;
if (regexp.charAt(i) == '(' || regexp.charAt(i) == '|') ops.push(i);
else if (regexp.charAt(i) == ')') {
int or = ops.pop();
// 2-way or operator
if (regexp.charAt(or) == '|') {
lp = ops.pop();
graph.addEdge(lp, or+1);
graph.addEdge(or, i);
}
else if (regexp.charAt(or) == '(')
lp = or;
else assert false;
}
// closure operator (uses 1-character lookahead)
if (i < m-1 && regexp.charAt(i+1) == '*') {
graph.addEdge(lp, i+1);
graph.addEdge(i+1, lp);
}
if (regexp.charAt(i) == '(' || regexp.charAt(i) == '*' || regexp.charAt(i) == ')')
graph.addEdge(i, i+1);
}
if (ops.size() != 0)
throw new IllegalArgumentException("Invalid regular expression");
}
在⽂本txt上模拟NFA的运⾏看是否与对应的正则表达式匹配,如果到达了接受状态,则称该NFA识别了这段⽂本模拟运⾏流程如下图
//代码如下
public boolean recognizes(String txt) {
//获取从起始状态0通过E-转换后能够到达的所有状态,存在Bag pc中
//深度优先搜索获取有向图graph中顶点0可达的所有顶点
DirectedDFS dfs = new DirectedDFS(graph, 0);
Bag<Integer> pc = new Bag<Integer>();
for (int v = 0; v < graph.V(); v++)
if (dfs.marked(v)) pc.add(v);
// Compute possible NFA states for txt[i+1]
for (int i = 0; i < txt.length(); i++) {
if (txt.charAt(i) == '*' || txt.charAt(i) == '|' || txt.charAt(i) == '(' || txt.charAt(i) == ')')
throw new IllegalArgumentException("text contains the metacharacter '" + txt.charAt(i) + "'"); //
Bag<Integer> match = new Bag<Integer>();
//看Bag pc中是否有与txt[i]匹配的字符,如果有则把匹配后v可达的状态v+1存⼊Bag match中
for (int v : pc) {
if (v == m) continue;
if ((regexp.charAt(v) == txt.charAt(i)) || regexp.charAt(v) == '.')
match.add(v+1);
}
//再把match中的状态通过E-转换后能够到达的所有状态,存在Bag pc中
dfs = new DirectedDFS(graph, match);
pc = new Bag<Integer>();
for (int v = 0; v < graph.V(); v++)
if (dfs.marked(v)) pc.add(v);
regex匹配// optimization if no states reachable
if (pc.size() == 0) return false;
//⽤Bag pc继续匹配txt中下⼀个字符 go for
}
// check for accept state
for (int v : pc)
if (v == m) return true;
return false;
}
/
**
* Unit tests the {@code NFA} data type.
*
* @param args the command-line arguments
*/
public static void main(String[] args) {
String regexp = "(" + args[0] + ")";
String txt = args[1];
NFA nfa = new NFA(regexp);
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论