java中⽂标点正则表达式⽤法_中⽂字符和中⽂标点符号的正
则表达式
匹配中⽂标点符号: String str="[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]" 该表达式可以识别出: 。 ; , : “ ”( ) 、 ? 《 》 这些标点符号。 匹配中⽂汉字 String str="[\u4e00-\u9fa5]"; 该表达式可以识别出任何汉字。
正则表达式提取中文字符
\w匹配的仅仅是中⽂,数字,字母,对于国⼈来讲,仅匹配中⽂时常会⽤到,见下 复制代码 代码如下:
匹配中⽂字符的正则表达式: [\u4e00-\u9fa5]
或许你也需要匹配双字节字符,中⽂也是双字节的字符 复制代码 代码如下:
匹配双字节字符(包括汉字在内):[^\x00-\xff]
注:可以⽤来计算字符串的长度(⼀个双字节字符长度计2,ASCII字符计1)
import Matcher;
import Pattern;
import org.apachemons.lang3.StringUtils;
public class Test
{
public static void main(String[] args)
{
// String regEx = "[1]?";
String words = "にほんご(かな)ニホンゴ(カナ)1sdfasdfasdf您的说法撒的发⽣的阿斯顿发斯蒂芬dsdddd#¥%@#%¥@#%¥";
String result = patternZh(words);
System.out.println(result);
}
private static String patternZh(String words)
{
String regEx = "[\u4e00-\u9fa5]?"; // 匹配中⽂字符的正则表达式
// String regEx = "[^\\x00-\\xff]?"; //匹配双字节字符(包括汉字在内)
Pattern pattern = Patternpile(regEx, Pattern.UNICODE_CASE | Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(words);
StringBuffer strBuf = new StringBuffer(0);
while (matcher.find())
{
if (StringUtils.up()))
{
strBuf.up());
}
}
String(); }
}

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。