利用正则表达式排除特定字符串--688IT编程网

利⽤正则表达式排除特定字符串

查不以baidu开头的字符串

baidu

sina

正则：^(?!baidu).*$ 匹配结果就是第2⾏，也就是第1⾏被排除了

这⾥使⽤了零宽度断⾔(?!exp)，注意，我们有⼀个向前查的语法(也叫顺序环视) (?=exp)

(?=exp) 会查exp之前的【位置】如果将等号换成感叹号，就变成了否定语义，也就是说查的位置的后⾯不能是exp

⼀般情况下?!要与特定的锚点相结合，例如^⾏开头或者$⾏结尾，那么上⾯的例⼦的意思如下：

^(?!baidu).*$ 先匹配⼀个⾏开头的位置，并且要求接下来的位置的后⾯不是baidu这个字符串。这样由于第⼀⾏^之后的位置后⾯是baidu所以匹配失败，被排除在外了。

查不以com结尾的字符串

www.sina

www.baidu

www.123

正则 ^.*?(?<!com)$ 匹配前3⾏结果。

如果查以com结尾的字符串则使⽤正则 ^.*?(?<=com)$或者 ^.*?com$

对正则表达式的解释：^.*?(?<!com)$

⾸先匹配⾏开头，然后是 .*? 这个是忽略优先，也就是优先忽略不匹配任何字符，(?<!com) 这个是⼀个逆序环视的否定形式，意思是匹配⼀个位置此位置的前⾯不能是字符串com，最后是⼀个⾏结束。对于www.123来说，⾸先匹配⾏⾸，接着匹配w后⾯的位置，发现前⾯不是com，所以成功但紧接着要匹配⾏尾，失败，回溯让.*? 匹配⼀个w符号，接着(?<com)匹配第⼆个w后⾯的位置，发现前⾯也不是com匹配成功，紧接着要匹配$对应的⾏尾失败，⼀直到.*?匹配了www.baidu的时候，此时(?<!com)匹配m后⾯的位置，此时此位置的前⾯是com匹配直接失败，接着.*?匹配⾏末尾，(?<!com)匹配$后⾯的位置，显然这次也失败了，所以整个全局匹配都失败。 www.123被排除到匹配之外。这⾥的.*后⾯加不加问号结果都⼀样。

查不含有if的⾏

if (a>b)

printf("hello");

else if(a<b)

printf("hello2");

else

printf("hello3");

正则 ^([^f]|[^i]f)+$

其实这个匹配也是⼀个排除型字符串的匹配，但是不同于上⾯两种，因为这⾥的if可能既不在⾏开头，也不在⾏结尾，⽽是在字符串中间这样就给匹配带来了⿇烦，在正则表达式中没有提供类似排除的功能。我们最容易想到的就是下⾯的正则：

^[^if]+$ 这种写法看起来是那么回事，但是排除型字符组排除的是i和f两个字符，⽽不是if这个字符串，所以这个正则表达

式匹配的是那些既没有i字符也不包含f字符的字符串。但是如果字符串中有⼀个i或多个i或者有⼀个或多个f，或者i和f字符都有只不过没有连在⼀起。这些情况都是我们需要匹配的情况，⽽我们不能匹配的情况是那些包含if字符串的⾏，⽽不是包含i或f字符的⾏，所以这种写法漏洞很⼤。

^.*(?!if).*$ 这种写法使⽤了零宽度断⾔，表⾯意思看起来好像是说任意字符+⾮if+任意字符组成了整个字符串，但是仔细研究匹配过程就知道这个是错的，(?!if)匹配的是⼀个位置，所以对于字符串aifb他也是可以匹配到的，⽽实际上这样的字符正是我们不要的。按照这个正则表达式，对于aifb ⾸先匹配⾏⾸，其次.*是贪婪模式(匹配优先)，会⼀直匹配到字符串的末尾(此时传动装置定位在$位置前⾯)，此时(?!if)需要匹配⼀个位置，这个位置的后⾯不能是if，这个时候正好位置在b字符的后⾯，符合匹配条件，紧接着匹配⾏尾，到这⾥整个全局匹配成功。

也就是说对于⼀个字符串例如我要排除abc这个字串，那么对于任意⼀个字符串 helloworld abc helloworld 在匹配的时候(?!abc)可以匹配h、e、l、l、o、w、o、r、l、d等这些字符后⾯的位置，都是成功的。所以匹配根本还没有进⾏到abc这个地⽅，(?!abc)就会匹配成功。这个时候根本起不到排除的作⽤，为什么上⾯的第1和第2个例⼦可以呢，因为他们的位置有⾏⾸和⾏尾限定。例如我要匹配⾏⾸不是abc的话，那么此时^(?!abc) 这个时候(?!abc)实际上在匹配的时候其传动装置的位置被⾏⾸进⾏了限定，所以对于那些以abc开头的字符串来说就会匹配失败了。

对于正则表达式^.*(?!abc).*$怎么能让第⼀个.*匹配到 helloworldabcxxx中的helloworld的问题。

对于上⾯的题⽬，我们的答案是^([^f]|[^i]f)+$ 其实就将所有的匹配分成了2种情况，⼀种情况是假设字符串中没有f字符，

⾃然就不可能有if字符串了，这种情况下正则匹配特定字符串

匹配的字符串中是不可能有if的。第⼆种情况就是有f字符，但是我们要求此时f的前⾯不能是i，所以在有f和没有f两种情况都考虑到的情况下，这个正则就应该可以满⾜所有的情况了。

其实这个问题的解答是不完美的，对于排除的字符串if只有2个字符i和f字符，我们可以使⽤这种⽅式，但是如果我们要排除的是字符串helloworld，这种⽅法显然就不实⽤了，那要考虑到多少种情况呢?

排除不含有某字符串的最终⽅案：在这种情况下我们使⽤ ^(?!.*helloworld).*$ 正则表达式我们将第⼀个.*移到了零宽度断⾔的⾥⾯。在匹配的时候⾸先匹配⾏⾸的位置，然后接下来是匹配⾏⾸后⾯的位置，要求此位置的后⾯不能是 .*helloworld 匹配的字符串，说⽩了要求此位置的后⾯不能是xxxxxxxxxxxxxxxxxxhelloworld 类似的字符串，这样就排除了从⾏⾸开始后⾯含有helloworld的情况了。

688IT编程网

利用正则表达式排除特定字符串

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

利用正则表达式排除特定字符串

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式