unicode编码详解,一看就懂--688IT编程网

unicode编码详解，⼀看就懂

⼀、Unicode编码

1 UTF-8 -16 -32编码和Unicode编码

Unicode编码是⼀种计算机字符编码标准，其实个⼈认为叫字符集更为准确；⽽我们熟悉的UTF-8 UTF-16 UTF-32是Unicode的具体实现(怎么存储在计算机)。

1）Unicode编码规范制定标准：unicode汉字

　把世界上所有能出现的字符，都为其分配⼀个数字来表⽰，⽐如，数字U+7F57被分配给了汉字中的"罗"字。Unicode编码的标准⾥字符数量⼀直实在新增（包括⼀些稀有字符，当然emoji表情字符也属于unicode编码哈哈），19年3⽉刚发布了Unicode12.0版本，⽐之前的版本新增了⼀些字符，现在在标准中的字符⼀共有137929个，⽽Unicode编码⽬前规划了U+0000⾄U+10FFFF为unicode编码（以世界上字符的数量应该是很久不会考虑扩展的），算⼀下⽬前还剩下976183（1114112-137929）个代码点，这976183个代码点是规划在unicode中的数字，但是还没被分配对应的字符。

2）UTF-8编码：

　UTF-8可以说是当前互联⽹最常⽤的编码格式了，它基于Unicode字符集进⾏编码设计。它最⼤的特点是变长字节的编码设计，⼀个字符最长4个字节，最少1个字节，⼤部分的中⽂字符占3个字节。

　编码规则如下：

1.⽤⼀个字节表⽰的字符，第⼀位设为 0，后⾯的 7 位对应这个字符的 Unicode 码点。由于这128个字符的unicode完全对照ASCII码，可以说完全向下兼容ASCII码。即ASCII编码的⽂件可以⽤UTF-8打开⽽不乱码；

2.⽤⼀个字节以上表⽰的字符，假设是N个字节表⽰这个字符：则该字符第⼀个字节的前N位都为1，第N+1位为0，剩下的N-1个字节的前两位都设为10，剩下没有主动设值的位置则使⽤这个字符的Unicode⼆进制代码点从低位到⾼位填充，不够⽤0补⾜。

　编码对照表如下：

Unicode字符集范围（⼗六进制） UTF-8编码（⼆进制）

0000 0000 - 0000 007F 0xxxxxxx

0000 0080 - 0000 07FF 110xxxxx 10xxxxxx

0000 0800 - 0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx

0001 0000 - 0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

　结合编码规则和编码对照表，讲解汉字“罗”是如何编码和解码的：

　编码（encode）：字符“罗”所对应的unicode代码点由以上规则转化为UTF-8所对应的⼆进制数字，则称为编码。可以理解为使字符成为代码的意思，⽽解码就是代码成为字符。

　⾸先“罗”对应了unicode中的U+7F57，对应编码表中第三⾏，也就是⽤3个字节来表⽰的字符，把7F57的⼆进制111 1111 0101 0111从低位对应补⾜到1110xxxx 10xxxxxx 10xxxxxx(从低位) 如下图所⽰：

　最后成为11100111 10111101 10010111即⼗六进制E7BD97。

　解码（decode）： UTF-8所对应的⼆进制数字由以上规则转化为unicode码再对应到具体字符，则称为编码。

　如11100111 10111101 10010111这段⼆进制编码，第⼀个字节是111，对应编码对照表则这段编码表⽰的字符由3个字节组成，⽤1110xxxx 10xxxxxx 10xxxxxx规则剔除出x对应的数为111 1111 0101 0111，即7F57，该数字对应unicode字符集中的字符“罗”。

3）UTF-32编码：

　同理和UTF-8基于unicode字符集。UTF-32编码为固定长度4个字节。因为unicode范围为00FFFF-10FFFF，4个字节表⽰的范围为00000000-FFFFFFFF，能直接表⽰所有unicode编码，不需要进⾏转换编码转换。以空间换时间。

3）UTF-16编码：

　UTF-16以2或者4个字节编码表⽰unicode字符：

　unicode字符集中，000000-00FFFF表⽰的字符，在UTF-16中⽤2字节直接编码表⽰，不需要编码转换，这点和UTF-32⼀样（这⾥有点需要说明⼀下， U+D800 到 U+DFFF 是⼀个空段，即这些码点不对应任何字符，4字节需要⽤到）

　u nicode字符集中，010000-10FFFF表⽰的字符，在UTF-16中⽤4字节编码表⽰，但是需要进⾏编码转换。⽐如010000-10FFFF中的

某个字符X的uicode编码为AAAA AAAA AABB BBBB BBBB，分为⾼10位和低10位，⾼10位加上⾼位代理位D8（110110），低10位加上低位代理位DF（110111），即组成字符X的UTF-16编码110110AAAAAAAAAAA 110111BBBBBBBBBB。

⼆、java中的char类型

java中char类型是2个字节长度，⼀个char在java中称作⼀个代码单元，⽽unicode的字符编码叫做代码点。

也就是说utf-16编码中的0000-FFFF的范围可以⽤⼀个char表⽰，10000-10FFFF就需要⽤两个char来表⽰。

688IT编程网

unicode编码详解,一看就懂

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

unicode编码详解,一看就懂

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式