JavaString字符串和Unicode字符相互转换代码详解--688IT编程网

JavaString字符串和Unicode字符相互转换代码详解

⽹上⼤部分有关“Java String字符串和Unicode字符相互转换代码”的博⽂⼏乎都仅是将全为Unicode字符的字符串进⾏转换，⽽我们⽇常很可能需要的是将混有普通字符的Unicode⼀并转换（例如“\u0061\u0062\u0063(123)”，我们希望转换

成“abc(123)”，⽽实际上⽹上的通⽤⽅法并不符合该需求，运⾏即报错），普通字符跳过⽽Unicode字符要进⾏转换，在进⾏字符串的查替换截取什么的使⽤正则表达式往往是个很好的选择。

因此作者我结合了⽹上提供的⽅法结合正则i表达式实现该需求！

在进⾏代码讲解时我先贴出实现代码：

⽹上⼀般实现代码：

字符串转换unicode java⽅法代码⽚段：

/**

* 字符串转换unicode

* @param string

* @return

public static String string2Unicode(String string) {

StringBuffer unicode = new StringBuffer();

for (int i = 0; i < string.length(); i++) {

// 取出每⼀个字符

char c = string.charAt(i);

// 转换为unicode

unicode.append("\\u" + HexString(c));

}

String();

}

unicode转换字符串java⽅法代码⽚段：

/**

* unicode 转字符串

* @param unicode 全为 Unicode 的字符串

* @return

public static String unicode2String(String unicode) {

StringBuffer string = new StringBuffer();

String[] hex = unicode.split("\\\\u");

for (int i = 1; i < hex.length; i++) {

// 转换出每⼀个代码点

int data = Integer.parseInt(hex[i], 16);

// 追加成stringunicode所有字符

string.append((char) data);

}

String();

结合正则实现的代码：

混有普通字符的Unicode转换为字符串：

/**

* 含有unicode 的字符串转⼀般字符串

* @param unicodeStr 混有 Unicode 的字符串

* @return

public static String unicodeStr2String(String unicodeStr) {

int length = unicodeStr.length();

int count = 0;

//正则匹配条件，可匹配“\\u”1到4位，⼀般是4位可直接使⽤ String regex = "\\\\u[a-f0-9A-F]{4}";

String regex = "\\\\u[a-f0-9A-F]{1,4}";

Pattern pattern = Patternpile(regex);

Matcher matcher = pattern.matcher(unicodeStr);

StringBuffer sb = new StringBuffer();

while(matcher.find()) {

String oldChar = up();//原本的Unicode字符

String newChar = unicode2String(oldChar);//转换为普通字符

// int index = unicodeStr.indexOf(oldChar);

// 在遇见重复出现的unicode代码的时候会造成从源字符串获取⾮unicode编码字符的时候截取索引越界等 int index = matcher.start();

sb.append(unicodeStr.substring(count, index));//添加前⾯不是unicode的字符

sb.append(newChar);//添加转换后的字符

count = index+oldChar.length();//统计下标移动的位置

}

sb.append(unicodeStr.substring(count, length));//添加末尾不是Unicode的字符

String();

}

完整代码：

package util;

import Matcher;

import Pattern;

/**

* Title: String 与 Unicode 互相转换的⼯具类

* Description:

* Company: SCAU@Copyright

* @Copyright 1.0

* @author jodenhe (824923282@qq)

* @version 1.0

* @since 2017年8⽉17⽇下午9:42:50

public class StringUnicodeUtil {

/**

* 含有unicode 的字符串转⼀般字符串

* @param unicodeStr 混有 Unicode 的字符串

* @return

public static String unicodeStr2String(String unicodeStr) {

int length = unicodeStr.length();

int count = 0;

//正则匹配条件，可匹配“\\u”1到4位，⼀般是4位可直接使⽤ String regex = "\\\\u[a-f0-9A-F]{4}";

String regex = "\\\\u[a-f0-9A-F]{1,4}";

Pattern pattern = Patternpile(regex);

Matcher matcher = pattern.matcher(unicodeStr);

StringBuffer sb = new StringBuffer();

while(matcher.find()) {

String oldChar = up();//原本的Unicode字符

String newChar = unicode2String(oldChar);//转换为普通字符

// int index = unicodeStr.indexOf(oldChar);

/ 在遇见重复出现的unicode代码的时候会造成从源字符串获取⾮unicode编码字符的时候截取索引越界等 int index = matcher.start();

sb.append(unicodeStr.substring(count, index));//添加前⾯不是unicode的字符

sb.append(newChar);//添加转换后的字符

count = index+oldChar.length();//统计下标移动的位置

}

sb.append(unicodeStr.substring(count, length));//添加末尾不是Unicode的字符

String();

}

/**

* 字符串转换unicode

* @param string

* @return

public static String string2Unicode(String string) {

StringBuffer unicode = new StringBuffer();

for (int i = 0; i < string.length(); i++) {

// 取出每⼀个字符

char c = string.charAt(i);

// 转换为unicode

unicode.append("\\u" + HexString(c));

}

String();

}

/**

* unicode 转字符串

* @param unicode 全为 Unicode 的字符串

* @return

public static String unicode2String(String unicode) {

StringBuffer string = new StringBuffer();

String[] hex = unicode.split("\\\\u");

for (int i = 1; i < hex.length; i++) {

// 转换出每⼀个代码点

int data = Integer.parseInt(hex[i], 16);

// 追加成string

string.append((char) data);

}

String();

}

public static void main(String[] args) {

String str = "abc";

String str2 = string2Unicode(str);

System.out.println(str2);

System.out.println(unicodeStr2String(str2));

System.out.println(unicodeStr2String("\\u61HJ\\u62\\u63(sfkfdsl)"));

}

代码运⾏结果图：

重要代码讲解：

代码的实现其实很简单，因此只对核⼼主要代码进⾏讲解，如对代码有疑惑可私信或留下评论！

1、正则匹配规则：

String regex = \\\\u[a-f0-9A-F]{1,4};

这个是正则匹配的规则，可能你会疑惑为什么使⽤“\\\\u”来匹配javan字符串的“\\u”，原因很简单，因为这样才匹配得上嘛（开个玩笑）直接看测试图1-2

测试图1：

测试图2：

很明显在菜鸟上使⽤两种匹配⽅式匹配到的结果是不同的，⽽java字符串需要转义，上图的“\u”java就应该是“\\u”，因此就要使⽤“\\\\u”来进⾏匹配！

[a-f0-9A-F]{1,4}

”[a-f0-9A-F]“ ：这个意思就是a到f，0到9,A到F出现的数都符合要求，“{1,4}”意思是前⾯的字符出现1到4个（其实⼀般的Unicode都是“\u”后⾯家4个字符的，如“\u0061”代表“a”，因此该式⼦可改为“\\\\u[a-f0-9A-F]{4}”，这样可能更符合实际要求）其余的代码部分可查看源⽂件的注释，应该是可以理解的，慢慢推敲⼀下，应该不难。

以上所述是⼩编给⼤家介绍的Java String字符串和Unicode字符相互转换代码详解整合，希望对⼤家有所帮助，如果⼤家有任何疑问请给我留⾔，⼩编会及时回复⼤家的。在此也⾮常感谢⼤家对⽹站的⽀持！

688IT编程网

JavaString字符串和Unicode字符相互转换代码详解

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

JavaString字符串和Unicode字符相互转换代码详解

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式