字符编码简单总结-ASCII 、ASNI 、GB2312、Unicode 、UTF-8
⽂章⽬录
⽬前的⽂字编码标准主要有 ASCII、GB2312、GBK、Unicode等。ASCII 编码是最简单的西⽂编码⽅案。GB2312、GBK、GB18030是汉字字符编码⽅案的国家标准。ISO/IEC 10646 和 Unicode 都是全球字符编码的国际标准。
1、ASCII 码—美国信息交换标准代码,共128个字符,⽤于英语/西欧语⾔显⽰
ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码)是基于拉丁字母的⼀套电脑编码系统,主要⽤于显⽰现代英语和其他西欧语⾔。它是最通⽤的信息交换标准,并等同于国际标准ISO/IEC 646。ASCII共定义了128个字符。常见ASCII码的⼤⼩规则:0
Z<a~z。⼏个常见字母的ASCII码⼤⼩: “A”为65;“a”为97;“0”为 48 。
2、ASNI—ASCII 的扩展,Windows 系统中代表系统默认编码(不固定)
unicode汉字ASNI 是ASCII的扩展,向下包含 ASCII。对于ASCII字符仍以⼀个字节来表⽰,对于⾮ASCII字符则使⽤2字节来表⽰。并没有固定的ASNI 编码,它跟本地化密切相关,不同的国家和地区制定了不同的标准。中国⼤陆ANSI的默认编码是GB2312;在港澳台地区默认编码是BIG5。以数值“0xd0d6”为例,对于 GB2312 编码它表⽰“中”;对于 BIG5 编码它表⽰“笢”。
3、常见中⽂编码GB2312(简体)/ BIG5(繁体)/ GBK (GB2312的扩展)/ GB18030(最新最全)
GB2312 :1980 年制定的中国汉字编码国家标准。共收录 7445 个字符,其中汉字 6763 个。GB2312 兼容标准 ASCII码,采⽤扩展ASCII 码的编码空间进⾏编码,⼀个汉字占⽤两个字节,每个字节的最⾼位为 1。 具体办法是:收集了 7445 个字符组成 94*94 的⽅阵,每⼀⾏称为⼀个“区”,每⼀列称为⼀个“位”,区号位号的范围均为 01-94,区号和位号组成的代码称为“区位码”。为了兼容标准 ASCII 码,给国标码的每个字节加 0xa0,这样⾼低字节的第8位都变成了1。⼀个⼩于127的字符的意义与原来相同,但两个⼤于127的字符连在⼀起时,就表⽰⼀个汉字。例如“啊”字在⼤多数程序中,会以两个字节,0xB0(第⼀个字节) 0xA1(第⼆个字节)储存。区位码=区字节+位字节(与区位码对⽐:0xB0=0xA0+16,0xA1=0xA0+1)。
9<A
BIG5 : GB2312⾯向简体中⽂字符集,并不⽀持繁体汉字,1984年台湾五⼤⼚商宏碁、神通、佳佳
、零壹以及⼤众⼀同制定了⼀种繁体中⽂编码⽅案BIG5。⼤五码采⽤双字节编码,第1字节范围0x81-0xFE,避开了同ASCII码的冲突,第2字节范围是0x40-0x7E和
0xA1-0xFE。
GBK : 《汉字内码扩展规范》(GBK) 于1995年制定,兼容GB2312、GB13000-1、BIG5 编码中的所有汉字,使⽤双字节编码,编码空间为 0x8140~0xFEFE,共有 23940 个码位,其中 GBK1 区和 GBK2 区也是 GB2312 的编码范围。收录了 21003 个汉字。GBK 向下与 GB 2312 编码兼容,向上⽀持 ISO 10646.1国际标准。
GB18030 :《信息交换⽤汉字编码字符集基本集的补充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标
准,2000年发布的,并且将作为⼀项国家标准在2001年的1⽉正式强制执⾏。以汉字为主并包含多种我国少数民族⽂字(如藏、蒙古、傣、彝、朝鲜、维吾尔⽂等)的超⼤型中⽂编码字符集强制性标准,其中收⼊汉字70000余个 。
4、国际码Unicode包含各国语⾔业界标准,编码⽅式UTF-8/UTF-16等
Unicode(中⽂:万国码、国际码、统⼀码、单⼀码)是计算机科学领域⾥的⼀项业界标准。Unicode是为了解决传统的字符编码⽅案的局限⽽产⽣的,它为每种语⾔中的每个字符设定了统⼀并且唯⼀的⼆进制编码,以满⾜跨语⾔、跨平台进⾏⽂本转换、处理的要求 ,1994年正式公布。UNICODE 仍然向下兼容 ASCII,数值范围是 0x0000 ⾄ 0x10FFFF,可以表⽰ 100 多万个字符。
Unicode的编码⽅案⼜叫Unicode转换格式,简称为UTF(Unicode Transformation Format),包括UTF-16、UTF-32以及UTF-8等。
UTF-8是⼀种针对Unicode的可变长度字符编码,也是⼀种前缀码。它可以⽤来表⽰Unicode标准中的任何字符,⽽且其编码中的第⼀个字节仍与ASCII相容,逐渐成为电⼦邮件、⽹页及其他存储或传送⽂
字的应⽤中,优先采⽤的编码。UTF-8使⽤⼀⾄六个字节为每个字符编码(后续标准更新,实际最多4字节)。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论