正则表达式不包含属性
出所有img标签的,没有带说明属性alt的标签:
正则:<img(?![^<>]*?alt[^<>]*?>).*?>
例⼦:<img src="" alt=""> <img src="" > <img src="" title=""> <img src="" id=""> <img src="" title="" alt="">
扩展,如果要没有带title属性的a应该是:
正则:<a(?![^<>]*?title[^<>]*?>).*?>
例⼦:<a src="" alt=""> <a src="" > <a src="" title=""> <a src="" id=""> <a src="" title="" alt="">
[^abc]表⽰不包含a、b、c中任意字符, 我想实现不包含字符串abc应该如何写表达式?
就我⾃⼰⽽⾔,这个问题最简单的解决⽅法是使⽤编程语⾔的配合,出那些包含abc的,剩下的就是不包含的了——懒⼈的风格。但我写的是教程,读者未必都有编程的基础,有些只是使⽤⼀些⼯具从txt⽂档中抽取出⼀些信息,所以要回答还是必须完全通过正则表达式来完成。
于是打开了RegexTester,开始试验,先是试了使⽤((?'test'abc)|.)*(?(test)(?!))(含意是:查abc,或任意的字符,如果
到了abc,就把它存⼊命名为test的组⾥,到最后检查test组⾥是否有内容,如果有就匹配失败,相关说明见教程),结果是"abc","aabc","abcd","aa"都能通过测试,看来是到最后测试到test组存在后⼜回溯了,此解决⽅案不可⾏。
然后⼜试了(.(?!abc))*(出所有后⾯不是abc的字符),结果是"abc","abcd"通过测试,"aabc"则只截取了后⾯的"abc",显然不⾏。
那加强条件试试:((?<!abc).(?!abc))*(出所有前⾯和后⾯都不是abc的字符),结果是所有包含abc的字符串都只截取了⾥⾯的"abc",不包含abc的则直接通过。
现在看来有点戏了,但是怎么把那些内部包含abc的字符串过滤掉呢?这个问题换句话说也就是怎么匹配整体⽽不是部分呢?现在需要明确⽤户的需求了:如果⽤户想要的是单词,那就在表达式的两端加上\b,如果要的是⾏,就加上^和$。由于⽤户的问题没有明确说明,我就当作是单词吧。
于是等到了这样的表达式:\b((?<!abc).(?!abc))*\b,经过测试,这个表达式能匹配所有不包含abc的单词,以及单词abc。
怎么排除单词abc?经过⼀番思考,最后我认为判断单词是否以a开头的⽅式最为⽅便:\b(a(?!bc)|[^a](?!abc))((?<!abc).
(?!abc))*\b(要么以后⾯不是bc的a开头,要么不以a开头,除了开头后⾯所有的字符必须前⾯和后⾯都不是abc)。经过测试,完全满⾜要求,Bingo!
使⽤正则表达式查不包含连续字符串abc的单词,最终结果:\b(a(?!bc)|[^a](?!abc))((?<!abc).(?!abc))*\b
----------------
更新:根据maple的评论,更简洁的作法是:\b((?!abc)\w)+\b
在使⽤正则表达式的场合,常常有这种需求,就是匹配⼀个不包含某个⼦串的⼦符串。⽐如说,我要从“eabcdfgh”得到"cd"之前的⼦串。有些⼈可能会写:
([^cd]*)
这种写法是彻底错误的,因为[]中的是集合,也就是说,[^cd]表⽰不等于c或者d,⽽不是cd。下⾯的程序中没有cd,但eab还是被匹配出来了。
复制代码代码如下:
String s = "([^cd]*)";
Match m = Regex.Match("eabcfgh", s);
MessageBox.Show(m.Value);//eab
MessageBox.Show(m.Groups[1].Value);//eab
上⾯这种写法是错的⽐较离谱的,正常青年⼀般都可以避免这种错误。在特殊情况下,正则表达式可以这么写,⽽且效率是⽐较⾼的。
([/s/S]*cd)
先说明下/s/S是表⽰匹配任何字符。所谓特殊情况,就是我知道这个字符串中必有cd的存在。假如,我的要求是匹配不包含cd 的部分(为了描述⽅便,只匹配cd之前的部分),也就是说,当cd不存在时,应该把整个字符串都取出来。
复制代码代码如下:
String s = "((.(?!cd))*.)";
//String s = "([/s/S]*cd)";
Match m = Regex.Match("eabcdfgh", s);
MessageBox.Show(m.Value);//eab
MessageBox.Show(m.Groups[1].Value);//eab
这种写法终于符合要求了。不过值得⼀提的是,相较前⼀种⽽⾔,它的效率⽐较低。
回顾⼀下相关的语法:正则匹配怎么匹配单词
(?:⼦表达式) 定义⾮捕获组。
复制代码代码如下:
//定义⾮捕获组
String s = "e(?:ab)(.*)";
Match m = Regex.Match("eabcd", s);
MessageBox.Show(m.Value);//eabcd
MessageBox.Show(m.Groups[1].Value);//cd
ab是被匹配的,但是它所在的组没有被捕获,Group[1]是cd
(?=⼦表达式) 零宽度正预测先⾏断⾔。
复制代码代码如下:
//零宽度正预测先⾏断⾔
//String s = "b(cd|de)(.*)";
String s = "b(?=cd|de)(.*)";
Match m = Regex.Match("eabcdfg", s);
MessageBox.Show(m.Value);
MessageBox.Show(m.Groups[1].Value);//区别 cd cdfg
这种写法和注释掉的写法是有区别的,区别就是“零宽度”,这种写法会被捕获,也就是不占⼀个Group。
(?!⼦表达式) 零宽度负预测先⾏断⾔。
!表⽰⾮,就是不包含,同样是零宽度,不会被捕获。
(?<=⼦表达式) 零宽度正回顾后发断⾔。
例:(?<=19)\d{2}\b
“1851 1999 1950 1905 2003”中的“99”、“50”和“05”
(?<!⼦表达式) 零宽度负回顾后发断⾔。
例:(?<!19)\d{2}\b
“1851 1999 1950 1905 2003”中的“51”和“03”
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论