Unicode转义(uXXXX)的编码和解码--688IT编程网

Unicode转义（uXXXX ）的编码和解码

在涉及Web前端开发时, 有时会遇到\uXXXX格式表⽰的字符, 其中XXXX是16进制数字的字符串表⽰形式, 在js中这个叫Unicode转义字符, 和\n \r 同属于转义字符. 在其他语⾔中也有类似的, 可能还有其它变形的格式.

多数时候遇到需要解码的情况多点, 所以会先介绍解码decode, 后介绍编码encode.

下⽂会提供Javascript C# Java 三种语⾔下不同⽅法的实现和简单说明, 会涉及到正则和位运算的典型⽤法.

Javascript的实现

解码的实现

function decode(s) { return place(/\\(u[0-9a-fA-F]{4})/gm, '%$1')); }

unescape是⽤来处理%uXXXX这样格式的字符串, 将\uXXXX替换成%uXXXX后unescape就可以处理了.

编码的实现

2 3 4 5function encode1(s ) { return escape(s).replace (/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function ($0, $1, $2) { return $1&&'\\'+$1.toLowerCase() ||unescape($2); }); }

和解码中相对应, 使⽤escape编码, 然后将%uXXXX 替换为\uXXXX, 因为escape还可能把⼀些字符编码成%XX的格式, 所以这些字符还需要使⽤unescape还原回来.

escape编码结果%uXXXX中的XXXX是⼤写的, 所以后⾯的replace只处理⼤写的A-F.

另⼀种编码的实现

不使⽤正则和escape

7 8 9 10 11 12 13 14function encode2(s) { var i, c, ret= [], pad='000'; for (i=0; i<s.length; i++) { c=s.charCodeAt(i); if (c>256) { c =c.toString(16); ret[i ] ='\\u'+pad .substr(0, 4-c.length) +c; } else { ret[i] =s[i]; } } return ret.join(''); }

遍历字符串中的字符, 那些charCode⼤于256的会转换成16进制字符串c.toString(16), 如果不⾜4位则左边补0pad.substr(0, 4 - c.length). 结尾将遍历的结果合并成字符串返回.

C#的实现

解码的实现

6 7 8 9 10 11 12 13 14static Regex reUnicode = new Regex(@"\\u([0-9a-fA-F]{4})", RegexOptions.Compiled); public static string Decode(string s) { return reUnicode.Replace(s, m => { short c; if (short.TryParse(m.Groups[1].Value, System.Globalization.NumberStyles.HexNumber, CultureInfo.InvariantCulture, out c)) { return"" + (char)c; } return m.Value; }); }

正则和js中的⼀样, 将XXXX转换以16进制System.Globalization.NumberStyles.HexNumber 解析为short类型, 然后直接(char)c就能转换成对应的字符, "" + (char)c⽤于转换成字符串类型返回.

由于正则中也有\uXXXX, 所以需要写成\\uXXXX来表⽰匹配字符串\uXXXX, ⽽不是具体的字符.

上⾯使⽤到了Lambda, 需要⾄少dotnet 4的SDK才能编译通过, 可以在dotnet 2下运⾏.

编码的实现

3 4 5 6static Regex reUnicodeChar = new Regex(@"[^\u0000-\u00ff]", RegexOptions.Compiled); public static string Encode(string s) { return reUnicodeChar.Replace(s, m => string.Format (@"\u{0:x4}", (short)m.Value[0])); }

和C#的解码实现正好相反, 0-255之外的字符, 从char转换成short, 然后string.Format以16进制, ⾄少输出4位. Java的实现

解码的实现

和C#相似的, 使⽤正则

5 6 7 8 9 10 11 12static final Pattern reUnicode=Patternpile("\\\\u([0-9a-zA-Z]{4})");public static String decode1(String s){ Matcher m=reUnicode.matcher(s);StringBuffer sb=new StringBuffer(s.length());while(m.find()){

m.appendReplacement(String((char)Integer.up(1),16)));}m.appendTail(sb); String();}

Java语⾔没有内嵌正则语法, 也没有类似C#的@"\u1234"原始形式字符串的语法, 所以要表⽰正则中匹配\, 就需要\\\\, 其中2个是⽤于Java中字符转义, 2个是正则中的字符转义.

Java 语⾔中没有设计函数或者委托的语法, 所以它的正则库提供的是find appendReplacement appendTail这些⽅法的组合, 等价于js和C#中的replace.

这⾥使⽤StringBuffer 类型是由于appendReplacement只接受这个类型, StringBuffer有线程安全的额外操作, 所以性能差⼀点. 也许第三⽅的正则库能把API设计的更好⽤点.

数字转unicode编码Integer.up(1), 16)⽤于解析为int类型, 之后再(char), 以及String转换成字符串.

解码的另⼀种实现

因为StringBuffer的原因, 不使⽤正则的实现

11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26public static String decode2(String s){StringBuilder sb=new StringBuilder(s.length());char[]chars=

sb.append(cc);continue;}}sb.append(c );}String();}

⼿⼯做就是⿇烦很多, 代码中也⼀坨的符号.

遍历所有字符chars, 检测到\u这样的字符串, 检测后续的4个字符是否是16进制数字的字符表⽰. 因为Character.isDigit会把⼀些其它语系的数字也算进来, 所以保险的做法'0' <= ch && ch <= '9'.

Character.digit会把0-9返回为int类型的0-9, 第2个参数是16时会把a-f返回为int类型的10-15.

剩下的就是⽤|=把各个部分的数字合并到⼀起, 转换成char类型. 还有⼀些调整遍历位置等.

编码的实现

考虑到Java正则的杯具, 还是继续⼿⼯来吧, 相对解码来说代码少点.

1 2 3 4 5

6 7 8 9 10 11 12 13 14 15public static String encode(String s){StringBuilder sb=new StringBuilder(s.length()*3);for(char c:

对应于上⽂Java编码的实现正好是反向的实现, 依旧遍历字符, 遇到⼤于256的字符, ⽤位运算提取出4部分并使⽤Character.forDigit转换成16进制数对应的字符.

剩下就是sb.toString()返回了.

总结

编码从逻辑上⽐解码简单点.

对付字符串, js还是最顺⼿的, 也⽅便测试.

位运算的性能很⾼.

Java的正则库设计的很不⽅便, 可以考虑第三⽅.

Java的语法设计现在看来呆板, 落后, 也没有js那种灵活.

上⽂Java的⾮正则实现可以写成等价的C#代码.

688IT编程网

Unicode转义(uXXXX)的编码和解码

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

Unicode转义(uXXXX)的编码和解码

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则