pythonre.match()⽤法相关正则表达式
学习python爬⾍时遇到了⼀个问题,书上有⽰例如下:
import re
line='Cats are smarter than dogs'
matchObj=re.match(r'(.*)are(.*?).*',line)
if matchObj:
print('up():',up())
print('up(1):', up(1))
print('up(2):', up(2))
else:
print('No match!\n')
书上的期望输出是:
但是我在电脑上跑了⼀遍得到的输出却是:
于是开始想办法彻底搞清楚这个差别的原因所在。
⾸先要读懂这⼏⾏代码,⽽这⼀⾏代码的关键在于这⼀句:
matchObj=re.match(r'(.*)are(.*?).*',line)
匹配的正则表达式是
(.*)are(.*?).*
前⾯的r表⽰的是匹配的字符不进⾏转义,⽽要匹配的字符串是line,也就是
Cats are smarter than dogs
后⾯使⽤group(num),个⼈理解是,按照正则表达式中的括号数可以捕获得到对应数量的捕获组,⽽调⽤group(num)就可以得到对应捕获组的内容,
其中group(0)表⽰的是匹配的整个表达式的字符串,在本例中就是‘Cats are smarter than dogs’。
参照⽹上可以搜到的符号的作⽤:
.匹配除换⾏符以外的任意字符
*重复之前的字符零次或更多次
?重复之前的字符零次或⼀次
那么第⼀个括号的内容,应当就是匹配要匹配的字符串中are之前的所有字符(除换⾏符),
⽽第⼆个括号的内容应当是匹配are之后的内容,但具体想指代什么却显得有些不明确。
不明确的点就在于*和?这两个符号的连⽤,根据优先级这两个符号是同⼀优先级的,那么应当按照顺序⽣效,那么如此翻译的话,这⼀语句匹配的就是长度为0到⽆限⼤的任意字符串,为了探清此时程序判断的具体内容,我们给匹配字符串末尾的.*也加上括号以提取其内容,⽽后在输出部分加上对应语句:
import re
line='Cats are smarter than dogs'
matchObj=re.match(r'(.*)are(.*?)(.*)',line)
if matchObj:
print("up():",up())
print("up(1):", up(1))
print("up(2):", up(2))
print("up(3):", up(3))
else:
print('No match!\n')
得到的结果是:
可见第⼆个括号⾥的内容被默认为空了,然后删去那个?,可以看到结果变成:
那么这是否就意味着?的默认值很可能是0次,那?这个符号到底有什么⽤呢
仔细想来这个说法并不是很严谨。尝试使⽤单独的.?组合可以看到这个组合可以⽤于提取
单个不知道是否存在的字符,⽽如下代码
import re
line='Cats are smarter than dogs'
matchObj=re.match(r'(.*) are(.*)?',line)
if matchObj:
print("up():",up())
print("up(1):", up(1))
print("up(2):", up(2))
也能在组别2中正常提取到are之后的字符内容,但稍微改动⼀下将?放到第⼆个括号内,
就什么也提取不到,同时导致group(0)中匹配的字符到Cats are就截⽌了(也就是第⼆个括号匹配失败)。
令⼈感到奇怪的是,如果将上⾯的代码改成
import re
line='Cats are smarter than dogs'
matchObj=re.match(r'(.*) are (.*)+',line)
if matchObj:
print("up():",up())
print("up(1):", up(1))
print("up(2):", up(2))
也就是仅仅将?改为+,虽然能成功匹配整个line但group(2)中没有内容,
如果把+放到第⼆个括号中就会产⽣报错,匹配失败。
那么是否可以认为.*?这三个符号连⽤只是⼀个不规范的操作,但由于?的特殊性所以没有报错反⽽匹配成功了呢?
具体的可能要研究代码本⾝的机理了,暂且搁置。还有⼀个问题就是如何达到样例本⾝想要的,⽤第⼆个括号提取单个单词的⽬的。如果单单考虑这个例⼦的话,把原本第⼆个括号中的?换成r就可以了,也就是如下代码:
import re
line='Cats are smarter than dogs'
matchObj=re.match(r'(.*) are (.*r).*',line)
if matchObj:
print("up():",up())
print("up(1):", up(1))
print("up(2):", up(2))
#print("up(3):", up(3))
else:
print('No match!\n')
为了泛⽤性尝试了⼀下把r改成‘ ’但是得到的结果是‘smarter than ’。于是尝试把.换成表⽰任意字母的
[a-zA-Z],成功提取出了单个smarter,代码如下:
import re
line='Cats are smarter than dogs'
matchObj=re.match(r'(.*) are ([a-zA-Z]* ).*',line)
if matchObj:
print("up():",up())
print("up(1):", up(1))
print("up(2):", up(2))
#print("up(3):", up(3))python正则表达式不包含
else:
print('No match!\n')

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。