Python正则表达式完美匹配中文与中文标点符号--688IT编程网

Python正则表达式完美匹配中⽂与中⽂标点符号

匹配中⽂标点符号： [\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]

匹配中⽂字符的正则表达式： [\u4e00-\u9fa5]

import re

s = "\n\r\t@#$%^&*这样⼀本书⼤卖，有点意外，据说已经印了四五⼗万，排⾏榜仅次于《希拉⾥⾃传》。⼤概是⼤众抛弃了⼀位表演过⽕的“⽂化⼤师”后，需要再⼀位有格调的“⽂化饰品”来装点吧？书的装帧果然有品格，书⽪是淡棕⾊的皱纹纸，t= re.findall('[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]',s)

print(''.join(t))

匹配中⽂字符的正则表达式： [/u4e00-/u9fa5]

评注：匹配中⽂还真是个头疼的事，有了这个表达式就好办了

匹配双字节字符(包括汉字在内)：[^/x00-/xff]

js中文正则表达式

评注：可以⽤来计算字符串的长度（⼀个双字节字符长度计2，ASCII字符计1）

匹配空⽩⾏的正则表达式：/n/s*/r

评注：可以⽤来删除空⽩⾏

匹配HTML标记的正则表达式：<(/S*?)[^>]*>.*?<//1>|<.*? />

评注：⽹上流传的版本太糟糕，上⾯这个也仅仅能匹配部分，对于复杂的嵌套标记依旧⽆能为⼒

匹配⾸尾空⽩字符的正则表达式：^/s*|/s*$

评注：可以⽤来删除⾏⾸⾏尾的空⽩字符(包括空格、制表符、换页符等等)，⾮常有⽤的表达式

匹配Email地址的正则表达式：/w+([-+.]/w+)*@/w+([-.]/w+)*/./w+([-.]/w+)*

评注：表单验证时很实⽤

匹配⽹址URL的正则表达式：[a-zA-z]+://[^/s]*

评注：⽹上流传的版本功能很有限，上⾯这个基本可以满⾜需求

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

评注：表单验证时很实⽤

匹配国内电话号码：/d{3}-/d{8}|/d{4}-/d{7}

评注：匹配形式如 0511-******* 或 021-********

匹配腾讯QQ号：[1-9][0-9]{4,}

评注：腾讯QQ号从10000开始

匹配中国：[1-9]/d{5}(?!/d)

评注：中国为6位数字

匹配⾝份证：/d{15}|/d{18}

评注：中国的⾝份证为15位或18位

匹配ip地址：/d+/./d+/./d+/./d+

评注：提取ip地址时有⽤

匹配特定数字：

^[1-9]/d*$ //匹配正整数

^-[1-9]/d*$ //匹配负整数

^-?[1-9]/d*$ //匹配整数

^[1-9]/d*|0$ //匹配⾮负整数（正整数 + 0）

^-[1-9]/d*|0$ //匹配⾮正整数（负整数 + 0）

^[1-9]/d*/./d*|0/./d*[1-9]/d*$ //匹配正浮点数

^-([1-9]/d*/./d*|0/./d*[1-9]/d*)$ //匹配负浮点数

^-?([1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0)$ //匹配浮点数

^[1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0$ //匹配⾮负浮点数（正浮点数 + 0）

^(-([1-9]/d*/./d*|0/./d*[1-9]/d*))|0?/.0+|0$ //匹配⾮正浮点数（负浮点数 + 0）

评注：处理⼤量数据时有⽤，具体应⽤时注意修正

匹配特定字符串：

^[A-Za-z]+$ //匹配由26个英⽂字母组成的字符串

^[A-Z]+$ //匹配由26个英⽂字母的⼤写组成的字符串

^[a-z]+$ //匹配由26个英⽂字母的⼩写组成的字符串

^[A-Za-z0-9]+$ //匹配由数字和26个英⽂字母组成的字符串

^/w+$ //匹配由数字、26个英⽂字母或者下划线组成的字符串

评注：最基本也是最常⽤的⼀些表达式

在Perl:

从ISO 8859-1到UTF-8: s/([/x80-/xFF])/chr(0xC0|ord($1)>>6).chr(0x80|ord($1)&0x3F)/eg;

从UTF-8到ISO 8859-1: s/([/xC2/xC3])([/x80-/xBF])/chr(ord($1)<<6&0xC0|ord($2)&0x3F)/eg;

688IT编程网

Python正则表达式完美匹配中文与中文标点符号

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python正则表达式完美匹配中文与中文标点符号

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式