各类字符集的发展历史--688IT编程网

各类字符集的发展历史

字符集

在计算机系统中，所有的数据都以⼆进制存储，所有的运算也以⼆进制表⽰，⼈类语⾔和符号也需要转化成⼆进制的形式，才能存储在计算机中，于是需要有⼀个从⼈类语⾔到⼆进制编码的映射表。这个映射表就叫做字符集。

ASCII

最早的字符集叫 American Standard Code for Information Interchange（美国信息交换标准代码），简称 ASCII，由 American National Standard Institute（美国国家标准协会）制定。在ASCII 字符集中，字母 A 对应的字符编码是 65，转换成⼆进制是 0100 0001，由于⼆进制表⽰⽐较长，通常使⽤⼗六进制 41。

GB2312、GBK

ASCII 字符集总共规定了 128 种字符规范，但是并没有涵盖西⽂字母之外的字符，当需要计算机显⽰存储中⽂的时候，就需要⼀种对中⽂进⾏编码的字符集，GB 2312 就是解决中⽂编码的字符集，由国家标准委员会发布。同时考虑到中⽂语境中往往也需要使⽤西⽂字母，GB 2312 也实现了对 ASCII 的向下兼容，原理是西⽂字母使⽤和 ASCII 中相同的代码，但是 GB 2312 只涵盖了 6000 多个汉字，还有很多没有包含

在其中，所以⼜出现了 GBK 和 GB 18030，两种字符集都是在 GB 2312 的基础上进⾏了扩展。

Unicodeunicode编码转换二进制

可以看到，光是简体中⽂，就先后出现了⾄少三种字符集，繁体中⽂⽅⾯也有 BIG5 等字符集，⼏乎每种语⾔都需要有⼀个⾃⼰的字符集，每个字符集使⽤了⾃⼰的编码规则，往往互不兼容。同⼀个字符在不同字符集下的字符代码不同，这使得跨语⾔交流的过程中双⽅必须要使⽤相同的字符编码才能不出现乱码的情况。为了解决传统字符编码的局限性，Unicode 诞⽣了，Unicoide 的全称是 Universal Multiple-Octet Coded Character Set（通⽤多⼋位字符集，简称 UCS）。Unicode 在⼀个字符集中包含了世界上所有⽂字和符号，统⼀编码，来终结不同编码产⽣乱码的问题。

字符编码 UTF-8

Unicode 统⼀了所有字符的编码，是⼀个 Character Set，也就是字符集，字符集只是给所有的字符⼀个唯⼀编号，但是却没有规定如何存储，⼀个编号为 65 的字符，只需要⼀个字节就可以存下，但是编号 40657 的字符需要两个字节的空间才可以装下，⽽更靠后的字符可能会需要三个甚⾄四个字节的空间。

这时，⽤什么规则存储 Unicode 字符就成了关键，我们可以规定，⼀个字符使⽤四个字节存储，也就是 32 位，这样就能涵盖现有Unicode 包含的所有字符，这种编码⽅式叫做 UTF-32（UTF 是 UCS Transfo

rmation Format 的缩写）。UTF-32 的规则虽然简单，但是缺陷也很明显，假设使⽤ UTF-32 和 ASCII 分别对⼀个只有西⽂字母的⽂档编码，前者需要花费的空间是后者的四倍（ASCII 每个字符只需要⼀个字节存储）。

在存储和⽹络传输中，通常使⽤更为节省空间的变长编码⽅式 UTF-8，UTF-8 代表 8 位⼀组表⽰ Unicode 字符的格式，使⽤ 1 - 4 个字节来表⽰字符。

UTF-8 的编码规则如下（U+ 后⾯的数字代表 Unicode 字符代码）：

U+ 0000 ~ U+ 007F: 0XXXXXXX

U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX

U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX

U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

可以看到，UTF-8 通过开头的标志位位数实现了变长。对于单字节字符，只占⽤⼀个字节，实现了向下兼容 ASCII，并且能和 UTF-32 ⼀样，包含 Unicode 中的所有字符，⼜能有效减少存储传输过程中占⽤的空间。

688IT编程网

各类字符集的发展历史

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

各类字符集的发展历史

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式