汉字字符编码的发展
关键词:汉字字符  编码  问题    发展阶段
摘要:作为一名中国人,尤其是一名计算机学者,了解汉字字符编码的发展是非常必要的。相对西文字符集的定义,汉字编码字符集的定义主要有两大困难:选字难和排序难。选字难是因为汉字字量大(包括简体字、繁体字、日本汉字、韩国汉字),而字符集空间有限。排序难是因为汉字可有多种排序标准(拼音、部首、笔画等等),而具体到每一种排序标准,往往还存在不少争议,如对一些汉字还没有一致认可的笔画数。因此,汉字字符编码的发展的道路是曲折的、坎坷的,遇到不少的困难,虽然现在还有一些是没解决的,但目前的情况还算是比较稳定。
As a Chinese person, particularly a computer scholars, learn about the development of Chinese character encoding is very necessary. The definition of relative Western language character set, the definition of a coded character set mainly in the two major difficulties: choice difficult, and sorting. Choice difficult because the word so much Chinese characters (including the simplified Chinese, traditional Chinese, Japanese, Korean, and Chinese) cha
racter set of the space is limited. Sorting difficult because Chinese characters can have multiple sort criteria (phonetic, radical, strokes, and so on), and specific to each type of sorting standards, often a lot of controversy, as well as on some Chinese characters there is no agreement approved by the strokes. Therefore, the development of Chinese character encoding is tortuous and difficult, you experience a lot of difficulties, although some unsolved, it is relatively stable.
汉字出现过的问题:汉字内部码问题
    用二进制代码来表示字符和汉字是现代信息交换中通用的手段,它除广泛应用于通信(电报、电传等数据通信,如GB 8565-88信息处理文本通信用编码字符集)外,还在计算机中得到普遍使用。在计算机中使用的字符和汉字的代码,通常为内码。目前的计算机系统,无论是硬件还是软件都是基于西文字符集(ASCII)设计生产的,而大多数汉字字符集中的汉字编码都与机内原有西文字符编码发生了冲突,有两种解决的方法:
    (1)保持原有西文字符编码,修改汉字编码;
    (2)将西文字符和汉字统一编码,即原有西文字符的编码也要修改。
    ISO 10646就采用了第二种方法,可以说彻底解决了各个文种的字符(包括汉字)的机内码问题。
    但第二种方法无法继续使用已有的计算机系统,几乎全部工作都要从头开始。目前使用更多的是上述的第一种方法。
为了让更多的文字进入现有的计算机系统,可以采用“一码对多字”的技术:即同一个机内码在不同情况下表示不同的字符(这些不同的字符往往有密切的联系)。这样的系统大都设置了切换键,用来选取系统的当前环境。
下列是一些汉字的编码简明对照表
这些汉字取自国标(GB 2312-80)中的分级与排列内容,汉字区位码用阿拉伯数字表示,每个汉字对应4个数字。
凹 1628  八 1643  白 1655  班 1664  碧 1744  博 1809  不 1827  擦 1833
才 1837  参 1846  藏 1856  草 1861  测 1866  茶 1872  拆 1880  产 1890
长 1904  抄 1913  车 1921  的 2136  等 2140  大 2083  而 2288  发 2302
凡 2318  方 2329  符 2391  改 2436  个 2486  根 2489  更 2492  功 2506
够 2527  古 2537  华 2710  计 2838  佳 2849  科 3138  良 3328  妈 3472
年 3674  陪 3767  巧 3941  日 4053  生 4190  凸 4525  文 4636  仪 5039
与字库相联系的两个重要问题:一是字体,二是输入法。
字体:现在Windows95/98/NT/MEWindows 2000简体中文版虽然都支持GBK编码方案,但所提供的四种显示、打印字体中,只有宋体、黑体支持21003个汉字,仿宋、楷体只支持GB2312-806763个汉字,给用户带来不便。
汉字的输入法:字库更新了,输入法码表的字词也应该作相应更改。但微软为我们提供的输入法却还是老面孔,存在着不少缺陷。所以我们建议输入法的研制者能根据GB/18031-2000《信息技术数字键盘汉字输入通用要求》和国家语言文字规范标准适时地更新,使之更加实用,更加科学规范。
汉字编码的历史阶段:
一、各自为政,多码并存的阶段
1GB码。20年前GB2312-80的公布、各种汉字输入法和汉字编辑软件的研制成功,使计算机处理中文信息变为现实。GB码全称是《GB2312-80 信息交换用汉字编码字符集 基本集》。这个字符集是1980公布的。在研制过程中,既参考了《第一批异体字整理表》(1955)、《简化字总表》(1964)和《印刷通用汉字字形表》(1965)等汉字规范标准,又兼顾了当时信息处理的实际需要,以汉字频度的高低、构词能力的强弱、实际用处的大小为原则进行选字,共汉字6763个,其中一级字3755,按拼音排序,二级字3008,按偏旁排序;收录符号682个。
GB2312选定能容纳数万汉字的中西文兼容的编码体系。用两个七位字节表示汉字的编码方案。设定若干编码集合,每个可容纳8836个字符,这样只要选用几个集合,就能解决全部汉字编码的问题。 GB2312-80是第一个汉字信息技术标准,也是我国信息技术领域内重要的基础标准。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。有人称GB2312-80字符集是汉字信息技术的秦始皇[1],这话一点儿也不过分。这个字符集广泛
运用国内DOS软件和简体Windows 3.2中。
GB2312只是对广泛通用的汉字进行编码,它适用于一般汉字信息处理系统的要求。继GB2312之后,又扩充制定了几个辅助集:
第一辅助集:GB 12345-1990
第二辅助集:GB/T 7589-1987
第三辅助集:GB 13131-1991
第四辅助集:GB/T 7590-1987
第五辅助集:GB 13132-1991
基本集和第二、第四辅助集是简化字体;第一、三、五辅助集是繁体字集。同时,基本集与辅一集、辅二集、辅三集、辅四集与辅五集中的汉字分别有简、繁体的一一对应关系,也即第一、三、五辅助集分别是基本集、第二、四辅助集是繁体字影射集,并且简/繁体字在两个字符集中同码(个别简/繁关系为一对多的汉字除外)。
这几个辅助集标准,共收了约四万个汉字,它们形成了汉字交换码的标准系列。比如1990年制定的繁体字的编码标准GB12345-90《信息交换用汉字编码字符集第一辅助集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866个汉字(比GB2312103个字,其它厂商的字库大多不包括这些字),纯繁体的字2200余个。
2BIG5编码
BIG5码是双字节编码方案,其中第一个字节的值在OXAO-OXFE之间,第二个字节在OX40-OX7EOXA1-OXFE之间。
BIG5收录13461个汉字和符号,包括:符号408个,编码位置A140-A3BE。常用字5401个,编码位置A440-C67E,包括台湾教育部颁布的《常用国字标准字体表》的全部汉字4808个,台湾教科书常用字587个,异体字6个。次常用字7652个,编码位置C940-F9D5,包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字6341个,《罕用国字标准字体表》中使用频率较高的字1311个。
BIG5是是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准。
此外日、韩等汉字文化圈国家,由于存在各自的利益,在汉字交换码标准各唱各的戏,形成了多码并存、互不兼容的局面,给汉字信息交换带来了相当的混乱。80年代中期,西文已在信息高速公路上加速前行,汉字却仍在信息高速公路上开着拖拉机。
二、统一编码,世界大同阶段
国际标准组织于19844月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1993年国际标准化组织发布了ISO/IEC 10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》,奠定了汉字国际统一编码的基础。
HZ码:HZ码是在Internet上广泛使用的一种汉字编码。
ISO2022CJK码:IOS2022是国际标准组织(ISO)为各种语言字符制定的编码标准。采用二个字节编码,其中汉语编码称ISO2022 CN,日语、韩语的编码分别称JPKR。一般将三者合称CJK码。目前CJK码主要在Internet网络中使用。
影响最大的是以下三种编码:
1Unicode编码(Universal Multiple Octet Coded Character Set)
1991年美国跨国公司成立Unicode Consortium,并于199110月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO10646BMPBasic Multilingual Plane)相同。Unicode是一种用于使网页和软件界面中的文本具有全球可读性的编码格式。这项标准利用向它所支持的24种语言中的每一个字符分配惟一的代码发挥作用。
2GB13000.1标准及GBK编码
ISO/IEC 10646-1为世界各民族文字统一编码,架起了一座桥梁。为了取得电脑时代的书同文,我国等同采用此标准制定了GB 13000.1-1993。该标准于unicode汉字1992年公布,采用了全新的多文种编码体系。
它收录了1986年重新发表的《简化字总表》和1988年公布的《现代汉语通用字表》的全部规范汉字,完全兼容GB2312-80标准,与国际标准ISO/IEC10646-1对应接轨,并包含了台湾BIG5编码中的所有汉字,共有汉字和偏旁21003个。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。