用python正则表达式提取字符串--688IT编程网

⽤python正则表达式提取字符串

转⾃ wwwblogs/rj81/p/5933838.html

在⽇常⼯作中经常遇见在⽂本中提取特定位置字符串的需求.python的正则性能好，很适合做这类字符串的提取，这⾥讲⼀下提取的技巧，正则表达式的基础知识就不说了，有兴趣的可以看re的教程. 提取⼀般分两种情况,⼀种是提取在⽂本中提取单个位置的字符串，另⼀种是提取连续多个位置的字符串.⽇志分析会遇到这种情况.下⾯我会分别讲⼀下对应的⽅法:

1. 单个位置的字符串提取

这种情况我们可以使⽤(.+?)这个正则表达式来提取. 举例,⼀个字符串"a123b"，如果我们想提取ab之间的值123，可以使⽤findall配合正则表达式，这样会返回⼀个包含所以符合情况的list，代码如下:

import re

str = "a123b"

print re.findall(r"a(.+?)b",str)#

输出['123']

1.1贪婪和⾮贪婪匹配

如果我们有⼀个字符串”a123b456b”，如果我们想匹配a和最后⼀个b之间的所有值⽽⾮a和第⼀个出现的b之间的值，可以⽤?来控制正则贪婪和⾮贪婪匹配的情况. 代码如下:

import re

str = "a123b456b"

print re.findall(r"a(.+?)b", str)

#输出['123']#?控制只匹配0或1个，所以只会输出和最近的b之间的匹配情况正则化匹配26个字母python

print re.findall(r"a(.+)b", str)

#输出['123b456']

print re.findall(r"a(.*)b", str)

#输出['123b456']

1.2多⾏匹配

如果你要多⾏匹配，那么需要加上re.S和re.M标志. 加上re.S后, .将会匹配换⾏符，默认.不会匹配换⾏符. 代码如下:

str = "a23b\na34b"

re.findall(r"a(\d+)b.+a(\d+)b", str)

#输出[]

#因为不能处理str中间有\n换⾏的情况

re.findall(r"a(\d+)b.+a(\d+)b", str, re.S)

#s输出[('23', '34')]

加上re.M后,^$标志将会匹配每⼀⾏，默认^和$只会匹配第⼀⾏. 代码如下:

str = "a23b\na34b"

re.findall(r"^a(\d+)b", str)

#输出['23']

re.findall(r"^a(\d+)b", str, re.M)

#输出['23', '34']

2. 连续多个位置的字符串提取

这种情况我们可以使⽤(?P<name>…)这个正则表达式来提取. 举例，如果我们有⼀⾏webserver的access⽇志:'192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "abc/search" "Mozilla/5.0"'，我们想提取这⾏⽇志⾥⾯所有的内容，可以写多个(?P<name>expr)来提取，其中name可以更改

为你为该位置字符串命名的变量,expr改成提取位置的正则即可. 代码如下:

import re

line ='192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "abc/search"

"Mozilla/5.0"'

reg = repile('^(?P<remote_ip>[^ ]*) (?P<date>[^ ]*) "(?P<request>[^"]*)"

(?P<status>[^ ]*) (?P<size>[^ ]*) "(?P<referrer>[^"]*)" "(?P<user_agent>[^"]*)"')

regMatch = reg.match(line)

linebits = updict()

print linebits

for k, v in linebits.items() :

print k+": "+v

输出的结果为:

status: 200

referrer:

request: GET /api HTTP/1.1

user_agent: Mozilla/5.0

date: 25/Oct/2012:14:46:34size: 44

remote_ip: 192.168.0.1

688IT编程网

用python正则表达式提取字符串

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

用python正则表达式提取字符串

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式