各类字符集的发展历史
字符集
在计算机系统中,所有的数据都以⼆进制存储,所有的运算也以⼆进制表⽰,⼈类语⾔和符号也需要转化成⼆进制的形式,才能存储在计算机中,于是需要有⼀个从⼈类语⾔到⼆进制编码的映射表。这个映射表就叫做字符集。
ASCII
最早的字符集叫 American Standard Code for Information Interchange(美国信息交换标准代码),简称 ASCII,由 American National Standard Institute(美国国家标准协会)制定。在ASCII 字符集中,字母 A 对应的字符编码是 65,转换成⼆进制是 0100 0001,由于⼆进制表⽰⽐较长,通常使⽤⼗六进制 41。
GB2312、GBK
ASCII 字符集总共规定了 128 种字符规范,但是并没有涵盖西⽂字母之外的字符,当需要计算机显⽰存储中⽂的时候,就需要⼀种对中⽂进⾏编码的字符集,GB 2312 就是解决中⽂编码的字符集,由国家标准委员会发布。同时考虑到中⽂语境中往往也需要使⽤西⽂字母,GB 2312 也实现了对 ASCII 的向下兼容,原理是西⽂字母使⽤和 ASCII 中相同的代码,但是 GB 2312 只涵盖了 6000 多个汉字,还有很多没有包含
在其中,所以⼜出现了 GBK 和 GB 18030,两种字符集都是在 GB 2312 的基础上进⾏了扩展。
Unicodeunicode编码转换二进制
可以看到,光是简体中⽂,就先后出现了⾄少三种字符集,繁体中⽂⽅⾯也有 BIG5 等字符集,⼏乎每种语⾔都需要有⼀个⾃⼰的字符集,每个字符集使⽤了⾃⼰的编码规则,往往互不兼容。同⼀个字符在不同字符集下的字符代码不同,这使得跨语⾔交流的过程中双⽅必须要使⽤相同的字符编码才能不出现乱码的情况。为了解决传统字符编码的局限性,Unicode 诞⽣了,Unicoide 的全称是 Universal Multiple-Octet Coded Character Set(通⽤多⼋位字符集,简称 UCS)。Unicode 在⼀个字符集中包含了世界上所有⽂字和符号,统⼀编码,来终结不同编码产⽣乱码的问题。
字符编码 UTF-8
Unicode 统⼀了所有字符的编码,是⼀个 Character Set,也就是字符集,字符集只是给所有的字符⼀个唯⼀编号,但是却没有规定如何存储,⼀个编号为 65 的字符,只需要⼀个字节就可以存下,但是编号 40657 的字符需要两个字节的空间才可以装下,⽽更靠后的字符可能会需要三个甚⾄四个字节的空间。
这时,⽤什么规则存储 Unicode 字符就成了关键,我们可以规定,⼀个字符使⽤四个字节存储,也就是 32 位,这样就能涵盖现有Unicode 包含的所有字符,这种编码⽅式叫做 UTF-32(UTF 是 UCS Transfo
rmation Format 的缩写)。UTF-32 的规则虽然简单,但是缺陷也很明显,假设使⽤ UTF-32 和 ASCII 分别对⼀个只有西⽂字母的⽂档编码,前者需要花费的空间是后者的四倍(ASCII 每个字符只需要⼀个字节存储)。
在存储和⽹络传输中,通常使⽤更为节省空间的变长编码⽅式 UTF-8,UTF-8 代表 8 位⼀组表⽰ Unicode 字符的格式,使⽤ 1 - 4 个字节来表⽰字符。
UTF-8 的编码规则如下(U+ 后⾯的数字代表 Unicode 字符代码):
U+ 0000 ~ U+ 007F: 0XXXXXXX
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX
U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
可以看到,UTF-8 通过开头的标志位位数实现了变长。对于单字节字符,只占⽤⼀个字节,实现了向下兼容 ASCII,并且能和 UTF-32 ⼀样,包含 Unicode 中的所有字符,⼜能有效减少存储传输过程中占⽤的空间。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论