匹配Unicode字符的正则表达式(中文)--688IT编程网

匹配Unicode字符的正则表达式（中⽂）

这⾥是⼏个主要⾮英⽂语系字符范围(google上到的):

2e80～33ffh：中⽇韩符号区。收容康熙字典部⾸、中⽇韩辅助部⾸、注⾳符号、⽇本假名、韩⽂⾳符，中⽇韩的符号、标点、带圈或带括符⽂数字、⽉份，以及⽇本的假名组合、单位、年号、⽉份、⽇期、时间等。

3400～4dffh：中⽇韩认同表意⽂字扩充a区，总计收容6,582个中⽇韩汉字。

4e00～9fffh：中⽇韩认同表意⽂字区，总计收容20,902个中⽇韩汉字。

a000～a4ffh：彝族⽂字区，收容中国南⽅彝族⽂字和字根。

ac00～d7ffh：韩⽂拼⾳组合字区，收容以韩⽂⾳符拼成的⽂字。

f900～faffh：中⽇韩兼容表意⽂字区，总计收容302个中⽇韩汉字。

fb00～fffdh：⽂字表现形式区，收容组合拉丁⽂字、希伯来⽂、阿拉伯⽂、中⽇韩直式标点、⼩符号、半⾓符号、全⾓符号等。

⽐如需要匹配所有中⽇韩⾮符号字符，那么正则表达式应该是^[\u3400-\u9fff]+$

理论上没错, 可是我到ko随便复制了个韩⽂下来, 发现根本不对, 诡异

再到jp复制了个'お', 也不得⾏..

中文字符unicode查询然后把范围扩⼤到^[\u2e80-\u9fff]+$, 这样倒是都通过了, 这个应该就是匹配中⽇韩⽂字的正则表达式了, 包括我們臺灣省還在盲⽬使⽤的繁體中⽂

⽽关于中⽂的正则表达式, 应该是^[\u4E00-\u9FFF]+$, 和论坛⾥常被⼈提起的^[\u4E00-\u9FA5]+$很接近

需要注意的是论坛⾥说的^[\u4e00-\u9fa5]+$这是专门⽤于匹配简体中⽂的正则表达式, 实际上繁体字也在⾥⾯, 我⽤测试器测试了下'中華⼈民共和國', 也通过了, 当然, ^[\u4E00-\u9FFF]+$也是⼀样的结果

发表评论

688IT编程网

匹配Unicode字符的正则表达式(中文)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

匹配Unicode字符的正则表达式(中文)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式