Unicode存储--688IT编程网

// UTF-8 编码字符理论上可以最多到 6个字节长，但目前全世界的所

// 有文字和符号种类加起来也只要编到 4个字节长就够了。

// 　UTF-8 是以 8位（即 1个字节）为单元对原始码进行编码（注意一

// 点：这里所讲的原始码都是指Unicode码），并规定：多字节码（2个字

// 节以上才称为多字节）以转换后第1个字节起头的连续“1”的数目（这

// 些连续“1”称为标记位），表示转换成几个字节：“110”连续两个

// “1”，表示转换结果为2个字节，“1110”表示3个字节，而“11110”

// 则表示4个字节……跟随在标记位之后的“0”，其作用是分隔标记位和

// 字符码位。第2～第4个字节的起头两个位固定设置为“10”，也作为标

// 记，剩下的6个位才做为字符码位使用。

// 　这样，2字节UTF-8码剩下11个字符码位，可用以转换0080～07FF的

/ 原始字符码，3字节剩下16个字符码位，可用以转换0800～FFFF的原始字

// 符码，由此类推。编码方式的模板如下：

// 原始码（16进制）　UTF－8编码（二进制）

unicode码和ascii码区别

// --------------------------------------------

// 0000 - 007F 0xxxxxxx

// 0080 - 07FF 110xxxxx 10xxxxxx

// 0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

// ……

// --------------------------------------------

/ 　模板中的“x”表示字符码。

// 　Ascii码＜007F，编为1个

// 字节的UTF－8码。汉字的 Unicode编码范围为0800－FFFF，所以被编为

// 3个字节的UTF－8码。

// 　例如“汉”字的Unicode编码是6C49，6C49在0800-FFFF之间，所以

// 要用3个字节的模板：1110wwww 10xxxxyy 10yyzzzz。

// 6 C 4 9

// 0110 1100 0100 1001

// wwww xxxx yyyy zzzz

// wwww xxxxyy yyzzzz

// 1110wwww 10xxxxyy 10yyzzzz。

/ 11100110 10110001 10001001

// E 6 B 1 8 9

//“汉”字的UTF-8编码是E6 B1 89

发表评论

688IT编程网

Unicode存储

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Unicode存储

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式