GB18030-2000《信息技术信息交换⽤汉字编码字符集基本集的
扩充
中⽂编码:GB2312编码、GBK编码、GB18030编码
2016-09-01 By
⼀、GB 2312编码
中华⼈民共和国国家标准简体中⽂字符集,全称《信息交换⽤汉字编码字符集·基本集》,⼜称GB0或GB 2312 80。
由中国国家标准总局发布,1981年5⽉1⽇实施。
GB 2312编码通⾏于中国⼤陆;新加坡等地也采⽤此编码。中国⼤陆⼏乎所有的中⽂系统和国际化的软件都⽀持GB 2312。
1、收录
GB 2312标准共收录6763个汉字,其中⼀级汉字3755个,⼆级汉字3008个;同时收录了包括拉丁字母
、希腊字母、⽇⽂平假名及⽚假名字母、俄语西⾥尔字母在内的682个字符。
GB 2312的出现,基本满⾜了汉字的计算机处理需要,它所收录的汉字已经覆盖中国⼤陆99.75%的使⽤频率。
但对于⼈名、古汉语等⽅⾯出现的罕⽤字和繁体字,GB 2312不能处理,因此后来GBK及GB 18030汉字字符集相继出现以解决这些问题。
2、字节结构
每个汉字及符号以两个字节来表⽰。第⼀个字节称为“⾼位字节”,第⼆个字节称为“低位字节”。
⼆、GBK编码
unicode汉字汉字内码扩展规范,全名为《汉字内码扩展规范(GBK)》1.0版。
由中华⼈民共和国全国信息技术标准化技术委员会1995年12⽉1⽇制订,国家技术监督局标准化司和电⼦⼯业部科技与质量监督司1995年12⽉15⽇联合以《技术标函[1995]229号》⽂件的形式公布。
GBK 只为“技术规范指导性⽂件”,不属于国家标准。国家质量技术监督局于2000年3⽉17⽇推出了GB
18030-2000标准,以取代GBK。GBK的K为汉语拼⾳Kuo Zhan(扩展)中“扩”字的声母。英⽂全称Chinese Internal Code Extension Specification。
1、收录
GBK共收录21886个汉字和图形符号,其中汉字(包括部⾸和构件)21003个,图形符号883个。
GBK向下完全兼容GB2312-80编码。
2、字节结构
字符有⼀字节和双字节编码,00–7F范围内是第⼀个字节,和ASCII保持⼀致,此范围内严格上说有96个⽂字和32个控制符号。
三、GB 18030编码
本规格的初版“GB 18030-2000《信息技术信息交换⽤汉字编码字符集基本集的扩充》”是由中华⼈民共和国信息产业部电⼦⼯业标准化研究所起草,由国家质量技术监督局于2000年3⽉17⽇发布。在GBK基础上增加了CJK统⼀汉字扩充A的汉字。
现⾏版本为国家质量监督检验总局和中国国家标准化管理委员会于2005年11⽉8⽇发布,2006年5⽉1⽇实施;是在GB18030-2000基础上增加了CJK统⼀汉字扩充B的汉字。
1、收录
GB 18030,全称:“国家标准GB 18030-2005《信息技术中⽂编码字符集》”,是中华⼈民共和国现时最新的变长度多字节字符集。
对GB 2312-1980完全向后兼容,与GBK基本向后兼容;⽀持GB 13000(Unicode)的所有码位;共收录汉字70,244个。
⽀持中国国内少数民族⽂字,不需要动⽤造字区。
汉字收录范围包含繁体汉字以及⽇韩汉字。
编码空间庞⼤,最多可定义161万个字符。
2、字节结构
采⽤变长多字节编码,每个字可以由1个、2个或4个字节组成。
四、GBK编码和UTF-8编码关系
⽬前国内⼀些发⾏的WEB开源框架,都提供这两种编码格式。
不过既然UTF-8是世界通⽤的,⽀持全世界的字符编码;为什么还有⼈选择使⽤GBK这种主要为针对中⽂的编码格式?
中⽂领域GBK⽐UTF-8存储⼩
GBK是字节结构定长的编码;每个字符占⽤两个字节的编码,并收录了基本能接触到的所有中⽂字,和其他部分字符的扩充。UTF-8可变多字节编码;多数中⽂字符都会占⽤不⼩于两个字节的编码。
所以如果软件不考虑兼容国外字符的话,使⽤GBK会减少代码传输和代码存储。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论