javaunicode转义字符串_Unicode转义(uXXXX)的编码和解
码
多数时候遇到需要解码的情况多点, 所以会先介绍解码decode, 后介绍编码encode.
下⽂会提供Javascript下不同⽅法的实现和简单说明, 会涉及到正则和位运算的典型⽤法.
Javascript的实现
解码的实现
function decode(s) {
return place(/\\(u[0-9a-fA-F]{4})/gm, '%$1'));
}
unescape是⽤来处理%uXXXX这样格式的字符串, 将\uXXXX替换成%uXXXX后unescape就可以处理了.
编码的实现
function encode1(s) {
return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {
return $1 && '\\' + $1.toLowerCase() || unescape($2);
});
}
和解码中相对应,使⽤escape编码, 然后将%uXXXX替换为\uXXXX, 因为escape还可能把⼀些字符编码成%XX的格式, 所以这些字符还需要使⽤unescape还原回来.
escape编码结果%uXXXX中的XXXX是⼤写的, 所以后⾯的replace只处理⼤写的A-F.
另⼀种编码的实现
不使⽤正则和escape
function encode2(s) {
var i, c, ret = [],
pad = '000';
for (i = 0; i < s.length; i++) {
c = s.charCodeAt(i);
if (c > 256) {
c = c.toString(16);
ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c;
} else {
ret[i] = s[i];
}
}
return ret.join('');
}
遍历字符串中的字符, 那些charCode⼤于256的会转换成16进制字符串c.toString(16), 如果不⾜4位则左边补0pad.substr(0, 4 -
c.length). 结尾将遍历的结果合并成字符串返回.
C#的实现
解码的实现
static Regex reUnicode = new Regex(@"\\u([0-9a-fA-F]{4})", RegexOptions.Compiled);public static string Decode(strings)
{return reUnicode.Replace(s, m =>{shortc;if (short.TryParse(m.Groups[1].Value,
System.Globalization.NumberStyles.HexNumber, CultureInfo.InvariantCulture,outc))
{return "" + (char)c;
}returnm.Value;
});
}
正则和js中的⼀样, 将XXXX转换以16进制System.Globalization.NumberStyles.HexNumber解析为short类型, 然后直接(char)c就能转换成对应的字符, "" + (char)c⽤于转换成字符串类型返回.
由于正则中也有\uXXXX, 所以需要写成\\uXXXX来表⽰匹配字符串\uXXXX, ⽽不是具体的字符.
上⾯使⽤到了Lambda, 需要⾄少dotnet 4的SDK才能编译通过, 可以在dotnet 2下运⾏.
编码的实现
数字转unicode编码static Regex reUnicodeChar = new Regex(@"[^\u0000-\u00ff]", RegexOptions.Compiled);public static string
Encode(strings)
{return reUnicodeChar.Replace(s, m => string.Format(@"\u{0:x4}", (short)m.Value[0]));
}
和C#的解码实现正好相反, 0-255之外的字符, 从char转换成short, 然后string.Format以16进制, ⾄少输出4位.
Java的实现
解码的实现
和C#相似的, 使⽤正则
static final Pattern reUnicode = Patternpile("\\\\u([0-9a-zA-Z]{4})");public staticString decode1(String s) {
Matcher m=reUnicode.matcher(s);
StringBuffer sb= newStringBuffer(s.length());while(m.find()) {
m.appendReplacement(sb,
}
m.appendTail(sb);String();
}
Java语⾔没有内嵌正则语法, 也没有类似C#的@"\u1234"原始形式字符串的语法, 所以要表⽰正则中匹配\, 就需要\\\\, 其中2个是⽤于Java中字符转义, 2个是正则中的字符转义.
Java语⾔中没有设计函数或者委托的语法, 所以它的正则库提供的是find appendReplacement appendTail这些⽅法的组合, 等价于js和
C#中的replace.
这⾥使⽤StringBuffer类型是由于appendReplacement只接受这个类型, StringBuffer有线程安全的额外操作, 所以性能差⼀点. 也许第三⽅的正则库能把API设计的更好⽤点.
Integer.up(1), 16)⽤于解析为int类型, 之后再(char), 以及String转换成字符串.
解码的另⼀种实现
因为StringBuffer的原因, 不使⽤正则的实现
public staticString decode2(String s) {
StringBuilder sb= newStringBuilder(s.length());char[] chars =s.toCharArray();for (int i = 0; i < chars.length; i++) {char c
=chars[i];if (c == '\\' && chars[i + 1] == 'u') {char cc = 0;for (int j = 0; j < 4; j++) {char ch = LowerCase(chars[i + 2 +j]);if ('0' <= ch && ch <= '9' || 'a' <= ch && ch <= 'f') {
cc|= (Character.digit(ch, 16) << (3 - j) * 4);
}else{
cc= 0;break;
}
}if (cc > 0) {
i+= 5;
sb.append(cc);continue;
}
}
sb.append(c);
}String();
}
⼿⼯做就是⿇烦很多, 代码中也⼀坨的符号.
遍历所有字符chars, 检测到\u这样的字符串, 检测后续的4个字符是否是16进制数字的字符表⽰. 因为Character.isDigit会把⼀些其它语系的数字也算进来, 所以保险的做法'0' <= ch && ch <= '9'.
Character.digit会把0-9返回为int类型的0-9, 第2个参数是16时会把a-f返回为int类型的10-15.
剩下的就是⽤|=把各个部分的数字合并到⼀起, 转换成char类型. 还有⼀些调整遍历位置等.
编码的实现
考虑到Java正则的杯具, 还是继续⼿⼯来吧, 相对解码来说代码少点.
public staticString encode(String s) {
StringBuilder sb= new StringBuilder(s.length() * 3);for (charc : s.toCharArray()) {if (c < 256) {
sb.append(c);
}else{
sb.append("\\u");
sb.append(Character.forDigit((c>>> 12) & 0xf, 16));
sb.append(Character.forDigit((c>>> 8) & 0xf, 16));
sb.append(Character.forDigit((c>>> 4) & 0xf, 16));
sb.append(Character.forDigit((c)& 0xf, 16));
}
}String();
}
对应于上⽂Java编码的实现正好是反向的实现, 依旧遍历字符, 遇到⼤于256的字符, ⽤位运算提取出4部分并使⽤Character.forDigit转换成16进制数对应的字符.
剩下就是sb.toString()返回了.
总结
编码从逻辑上⽐解码简单点.
对付字符串, js还是最顺⼿的, 也⽅便测试.
位运算的性能很⾼.
Java的正则库设计的很不⽅便, 可以考虑第三⽅.
Java的语法设计现在看来呆板, 落后, 也没有js那种灵活.
上⽂Java的⾮正则实现可以写成等价的C#代码.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论