GB2312,GBK和GB18030三种汉字编码标准有什么区别和联系
从GB2312、GBK 到 GB18030,这些编码⽅法是向下兼容的,即同⼀个字符在这些⽅案中总是有相同的编码,后⾯的标准⽀持更多的字符。在这些编码中,英⽂和中⽂可以统⼀地处理。区分中⽂编码的⽅法是⾼字节的最⾼位不为 0。按照程序员的称GBK、GB18030、GB2312 区别
1、标准标准编号:GB 2312-1980
标准名称:信息交换⽤汉字编码字符集基本集
标准状态:现⾏
英⽂标题:Code of chinese graphic character set for information interchange; Primary set
实施⽇期:1981-10-01
GB2312(1980年)⼀共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围⾼字节从B0-F7,低字节从A1-FE,占⽤的码位是72*94=6768。其中有5个空位
是D7FA-D7FE。
GB2312 码是中华⼈民共和国国家汉字信息交换⽤编码,全称《信息交换⽤汉字编码字符集——基本集》,由国家标准总局发布,1981年5⽉1⽇实施,通⾏于⼤陆。新加坡等地
也使⽤此编码。
GB2312 收录简化汉字及符号、字母、⽇⽂假名等共 7445 个图形字符,其中汉字占 6763 个。GB2312 规定“对任意⼀个图形字符都采⽤两个字节表⽰,每个字节均采⽤七位编
码表⽰”,习惯上称第⼀个字节为“⾼字节”,第⼆个字节为“低字节”。
GB2312 将代码表分为 94 个区,对应第⼀字节;每个区 94 个位,对应第⼆字节,两个字节的值分别为区号值和位号值加 32(2OH),因此也称为区位码。01-09 区为符号、数
字区,16-87 区为汉字区,10-15 区、88-94 区是有待进⼀步标准化的空⽩区。GB2312 将收录的汉字分成两级:第⼀级是常⽤汉字计 3755 个,置于 16-55 区,按汉语拼⾳字母/
笔形顺序排列;第⼆级汉字是次常⽤汉字计 3008 个,置于 56-87 区,按部⾸/笔画顺序排列。故⽽GB2312最多能表⽰ 6763 个汉字。
GB2312 的编码范围为 2121H-777EH,与 ASCII 有重叠,通⾏⽅法是将 GB 码两个字节的最⾼位置 1 以⽰区别。
2、GBK
1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。
GBK是GB18030的⼦集 , GBK是包括中⽇韩字符的⼤字符集合
在90年代初期,制定了⼀个GBK的规范,就是在⼤陆的6763字后⾯,增加BIG5⾥⾯的15000汉字的部分.这个部分是字型与台湾的字型是⼀样的,但是编码仍然是SO2022.
全国信息技术化技术委员会于1995年12⽉1⽇《汉字内码扩展规范》。GBK 向下与 GB2312 完全兼容,向上⽀持 ISO 10646 国际标准,在前者向后者过渡过程中起到的承上启
下的作⽤。GBK 亦采⽤双字节表⽰,总体编码范围为 8140-FEFE 之间,⾸字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 XX7F ⼀条线。
GBK 共收⼊ 21886 个汉字和图形符号,包括:
* GB2312 中的全部汉字、⾮汉字符号。
* BIG5 中的全部汉字。
* 与 ISO 10646 相应的国家标准 GB13000 中的其它 CJK 汉字,以上合计 20902 个汉字。
* 其它汉字、部⾸、符号,共计 984 个。
微软公司⾃ Windows 95 简体中⽂版开始⽀持GBK代码,但⽬前的多数搜索引擎都不能很好地⽀持 GBK 汉字。
GBK 编码区分三部分:
* 汉字区,包括:
GBK/2:OXBOA1-F7FE, 收录 GB2312 汉字 6763 个,按原序排列;
GBK/3:OX8140-AOFE,收录 CJK 汉字 6080 个;
GBK/4:OXAA40-FEAO,收录 CJK 汉字和增补的汉字 8160 个。
* 图形符号区,包括:
GBK/1:OXA1A1-A9FE,除 GB2312 的符号外,还增补了其它符号
GBK/5:OXA840-A9AO,扩除⾮汉字区。
* ⽤户⾃定义区:
即 GBK 区域中的空⽩区,⽤户可以⾃⼰定义字符。unicode汉字
3、标准编号:GB 18030-2005
标准名称:信息技术中⽂编码字符集
标准状态:现⾏
英⽂标题:Information technology -- Chinese coded character set
替代情况:GB 18030-2000
实施⽇期:2006-05-01
颁布部门: 国家标准化管理委员会
内容简介:本标准规定了信息技术⽤的中⽂图形字符及其⼆进制编码的⼗六进制表⽰。
2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏⽂、蒙⽂、维吾尔⽂等主要的少数民族⽂字。从汉字字汇上说,GB18030在
GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),⼀共收录了27484个汉字。
GB18030的编码采⽤单字节、双字节和4字节⽅案。其中单字节、双字节和GBK是完全兼容的。4字节编码的码位就是收录了CJK扩展A的6582个汉字。
GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030 编码是⼀⼆四字节变长编码。⼀字节部分从 0x0~0x7F 与 ASCII 编码兼容。⼆字节部
分, ⾸字节从 0x81~0xFE, 尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK 标准基本兼容。四字节部分, 第⼀字节从 0x81~0xFE, 第⼆字节从 0x30~0x39, 第三和第四字节的范围
和前两个字节分别相同。四字节部分覆盖了从 0x0080 开始, 除去⼆字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准
⼀⼀对应,这⼀点与 UTF-8 编码类似。
⽬前最新的 glibc 2.2.x 系列已经全⾯⽀持了 GB18030 Locale 和 GB18030 与 UCS-4 之间的编码转换, 也就是说在系统层上 Linux 已经可以⽀持 GB18030 标准了。下⾯问题的
关键就是怎样让 XFree86 窗⼝系统也⽀持 GB18030 标准。
BIG5
BIG5 是通⾏于台湾、⾹港地区的⼀个繁体字编码⽅案。虽然存在⼀些瑕疵,但⼴泛应⽤于电脑⾏业,尤其是互联⽹中,从⽽成为⼀种事实上的⾏业标准。
1983年10⽉,科学委员会、教育部国语推⾏委员会、中央标准局、⾏政院共同制定了《通⽤汉字标准交换码》,后经修订于1992年5⽉公布,更名为《中⽂标准交换码》,BIG5 是台湾资讯⼯业策进会根据以上标准制定的编码⽅案。
BIG5 码是双字节编码⽅案,其中第⼀个字节的值在 OXAO-OXFE 之间,第⼆个字节在 OX40-OX7E 和 OXA1-OXFE 之间。
BIG5 收录 13461 个汉字和符号,包括:
* 符号 408 个,编码位置 A140-A3BE
* 常⽤字 5401 个,编码位置 A440-C67E,包括台湾教育部颁布的《常⽤国字标准字体表》的全部汉字 4808 个,台湾教科书常⽤字 587 个,异体字 6 个。
* 次常⽤字 7652 个,编码位置 C940-F9D5,包括台湾教育部颁布的《次常⽤国字标准字体表》的全部汉字 6341 个,《罕⽤国字标准字体表》中使⽤频率较⾼的字 1311 个。
4、GB13000
GB13000 等同于国际标准的《通⽤多⼋位编码字符集 (UCS)》 ISO10646.1,就是等同于 Unicode 的标准,代码页等等的都使⽤UTF的⼀套标准。
从 ASCII、GB2312、GBK 到 GB18030,这些编码⽅法是向下兼容的,即同⼀个字符在这些⽅案中总是有相同的编码,后⾯的标准⽀持更多的字符。在这些编码中,英⽂和中⽂可以统⼀地处理。区分中⽂编码的⽅法是⾼字节的最⾼位不为 0。按照程序员的称呼,GB2312、GBK 到 GB18030 都属于双字节字符集 (DBCS)。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论