中⽇韩统⼀表意⽂字(CJKUnifiedIdeographs)[转]
中⽇韩统⼀表意⽂字
中⽇韩统⼀表意⽂字中⽇韩统⼀表意⽂字(英语:CJK Unified Ideographs),⽬的是要把分别来⾃中⽂、⽇⽂、韩⽂、越⽂中,本质相同、形状⼀样或稍异的表意⽂字(主要为汉字,但也有仿汉字如⽇本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。
越南⽂后来加⼊此计划,所以亦有 CJKV (中⽇韩越统⼀表意⽂字)的称呼。Unicode亦开始收录其仿汉字——喃字
版本 ISO 10646 版本Unicode 版本新增置放平⾯字数累计字数19931.0 中⽇韩统⼀表意⽂字基本多⽂种平⾯(BMP)20,90220,914位于“表意⽂字兼容区”中但实则独⼀的汉字基本多⽂种平⾯1220003.0中⽇韩统⼀表意⽂字扩展A区基本多⽂种平⾯6,58227,49620013.1中⽇韩统⼀表意⽂字扩展B区表意⽂字补充平⾯(SIP) 42,71170,2072003第⼀修订版4.1HKSCS-2004 及 GB 18030-2000 中仍未加⼊ ISO 10646 的汉字基本多⽂种平⾯2270,229未有6.0(预计)中⽇韩统⼀表意⽂字扩展C区表意⽂字补充平⾯(预计)4,25174,480
历史
于1990年代初ISO 10646制订时,来⾃台湾的代表提出将源⾃中国的中⽇韩汉字予以统⼀(Unify, ISO术语称为认同),可以⼤量节省编码空间,获其他代表接纳。
字源
最初期统⼀汉字
最初期的统⼀汉字(20,902字)字源来⾃以下字集:
中国⼤陆的G源
G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58个⾹港字和2个吏读字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:现代汉语通⽤字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
台湾的T源
T1:CNS 11643-1986第⼀字⾯:5,401+9字(含9个计量⽤汉字)
T2:CNS 11643-1986第⼆字⾯:7,650字
TE:CNS 11643-1986第⼗四字⾯:6,319+239+10(含239个CCCII特字和10个XCCS特字)
⽇本的J源
J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字
韩国的K源
K0:KS C 5601-87:4,888字(含268个重见字)
K1:KS C 5657-91:2,856字
以上的来源字集会实施字源分离原则。
另外还有:ANSI Z39.64-1989(EACC)、Big5、CCCII第⼀⾯、GB 12052-89、JEF、中国⼤陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。
很多⼈以为20,902统⼀汉字中来⾃台湾的只是Big5的⼀万三千多字,其实不然。
扩展A区
扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。相⽐起最初期统⼀汉字,扩展A区多了来⾃多个来⾃中国⼤陆、台湾、新加坡等汉字。
这⼀节是⼀个⼩作品。欢迎您积极编辑或修订扩充其内容。
扩展B区
扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号⽂件,这四万多个汉字分别从以下字典或字集中取得:
CNS 11643的第4平⾯到第15平⾯所收录的30,177个汉字;
在《汉语⼤字典》中出现的28,914个未收录汉字;
在《康熙字典》中出现的18,486个未收录汉字(包括⼀个在补遗篇出现汉字);
在北朝鲜的国家标准所收录的5,642个汉字;
在越南的国家标准所收录的4,232个字喃;
HKSCS中出现的1,081个未收录汉字;
《汉语⼤词典》中出现的553个未收录汉字;
《四库全书》中出现的522个未收录汉字;
⽇本⼯业标准的JIS X 0213第3平⾯及第4平⾯的302个未收录汉字;
1980年代版本的《辞海》中出现的247个未收录汉字;
⼤韩民国PKS 5700-3:1998中出现的166个未收录汉字;
《中国⼤百科全书》中出现的86个未收录汉字;
《辞源》中出现的66个未收录汉字;
北⼤⽅正排版系统中出现的65个未收录汉字;
这堆汉字中重复的汉字有不少,所以经过整理之后,总数实际上只有42,711个汉字。
另外,在 U+2F800—U+2FA1D 的位置,放了542个来⾃台湾的兼容汉字。
Unicode 4.1汉字
为使 Unicode 向下兼容 GB 18030 和⾹港增补字符集(HKSCS)的所有汉字,⽽扩展C区⼜迟迟未能出笼,在 Unicode 4.1 版中引进了14个⾹港增补字符集的⽤字和8个 GB 18030 ⽤字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106个来⾃北朝鲜的兼容汉字。
扩展C区按计划,中⽇韩统⼀表意⽂字扩展C区将收录4,251个汉字,包括来⾃中国⼤陆、澳门、台湾、⽇本、越南等尚未被编码的汉字。这些汉字预计会收录在下⼀版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。
字源分离原则
字源分离原则字源分离原则(Source Separation Rule)是整理中⽇韩统⼀表意⽂字的基础。
由于CJK各地字型多有微妙的差异,如“户”字的第⼀笔,台湾作撇、中国⼤陆作点、⽇本作横,这种程度的差异,理想上是整并为⼀个字为佳。然⽽,从之前各种受挫之⽂字整并计划的经验得知,整合字集与现⾏通⽤字集(Big5或国标码)等⽆法⼀⼀对应,是推⾏整合字集的最⼤阻碍。
例如,⽇本的JIS标准同时收录了“剣”字与“劍”字,原本JIS⽂件⾥这两个字可以并存,但采⽤整合字集后反⽽变成同⼀个字,会造成使⽤上的困扰。于是,字源分离原则因⽽诞⽣。
字源分离原则是指,在上述所列出之各种字源⾥,若有任何字集同时收了两种以上的⽂字字形,则在Unicode中⽇韩统⼀表意⽂字中,也同时收录这些字。这样⼀来,现⾏的各种原有字集与Unicode汉字可以⼀⼀对应。
由于Unicode中⽇韩统⼀表意⽂字的主要诉求,就是能⼤幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,⽽不对字形”编码之原则,亦遭受不少批评。
已统⼀的汉字原则上ISO 10646只对字(Character),⽽⾮字形(Glyph)编码。同⼀字各地可使⽤⾃⼰的标准写法。下例中使⽤HTML标⽰同⼀编码的字在不同地区中的写法(但只是阁下电脑提供的字型,未必代表该地区的标准写法)。
例⼦:
Unicode中⽂⽇⽂韩⽂
中国⼤陆台湾⾹港
U+6D2A港港港港港
U+6F22漢漢漢漢漢
U+76F4直直直直直
U+7A97窗窗窗窗窗
U+89D2⾓⾓⾓⾓⾓
U+8D77起起起起起
U+9AA8⾻⾻⾻⾻⾻
注:不是所有浏览器均可分辨“中⽂-⾹港”(zh-hk)此⼀HTML的语⾔代码(Language Code)并使⽤不同的字形。如阁下看到的字形和中国⼤陆的字形⼀样,表⽰阁下的浏览器不能分辨此标签。截⾄2005年6⽉,只有Firefox和 Mozilla浏览器⽀援此标签。详见Test results: Automatic font assignment f
or CJK text。
没有统⼀的汉字有些字只是同⼀字在不同地区的写法,理应统⼀,但因为字源分离原则⽽只好分开编码。值得注意的是字源分离原则由“把不正统的编⼊位于基本多⽂种平⾯的‘兼容表意⽂字区’(Compatibility Ideographs)”起废弃,原因是CNS中有太多字形⾮常接近,按Unicode 标准应该统⼀的字。这些字只有正统的会编⼊正式字集(包括扩展A、B、C区)中,不正统的编⼊位于“第⼆辅助平⾯”的“兼容表意⽂字补充区” (Compatibility Ideographs Supplement)中。
以下是所有摘⾃ISO/IEC JTC1/SC2/WG2字源分离原则⽂件之中有的字。
Unicode字Unicode字Unicode字
U+4E1F丟U+4E22丢
U+4E48么U+5E7A⼳
U+4E89争U+722D爭
U+4EDE仞U+4EED仭
U+4F75併U+5002倂
U+4FA3侣U+4FB6侶
U+4FC1俁U+4FE3俣
U+4FDE俞U+516A兪
U+4FF1俱U+5036倶
U+5024値U+503C值
U+5077偷U+5078偸
U+507D偽U+50DE僞
U+514C兌U+5151兑
U+514E兎U+5154兔
U+5156兖U+5157兗
U+518A冊U+518C册
U+51C0净U+51C8凈
U+51E2凢U+51E3凣
U+5203刃U+5204刄
U+520A刊U+520B刋
U+5220删U+522A刪
U+5225別U+522B别
U+5238券U+52B5劵
U+5239刹U+524E剎
U+524F剏U+5259剙
U+525D剝U+5265剥
U+5292劒U+5294劔
U+52FB勻U+5300匀
U+5355单U+5358単
U+5373即U+537D卽
U+5377卷U+5DFB巻
U+53C1叁U+53C2参
U+53C3參U+53C4叄
U+5415吕U+5442呂
U+541E吞U+5451呑
U+5433吳U+5434吴U+5449呉U+5436吶U+5450呐
U+543F吿U+544A告
U+5527唧U+559E喞
U+55A9喩U+55BB喻
U+5618嘘U+5653噓
U+568F嚏U+5694嚔
U+56EF囯U+56FD国
U+5708圈U+570F圏
U+570E圎U+5713圓
U+5716圖U+5717圗
U+5759坙U+5DE0巠
U+57D2埒U+57D3埓
U+5848塈U+588D墍
U+5861塡U+586B填
U+5897増U+589E增
U+58EE壮U+58EF壯
U+58FD壽U+5900夀
U+5910夐U+657B敻
U+5932夲U+672C本
U+5965奥U+5967奧
U+5968奨U+596C奬U+734E獎U+5986妆U+599D妝
U+598D妍U+59F8姸
U+59CD姍U+59D7姗
U+59EB姫U+59EC姬
U+5A1B娛U+5A2F娯U+5A31娱U+5A55婕U+5AAB媫
U+5A7E婾U+5AAE媮
U+5AAA媪U+5ABC媼
U+5AAF媯U+5B00嬀
U+5B0E嬎U+5B14嬔
U+5B24嬤U+5B37嬷
U+5B73孳U+5B76孶
U+5BAB宫U+5BAE宮
U+5BDB寛U+5BEC寬
U+5BDC寜U+5BE7寧
U+5BDD寝U+5BE2寢
U+5C02専U+5C08專
U+5C06将U+5C07將
U+5C13尓U+5C14尔
U+5C19尙U+5C1A尚
U+5C2A尪U+5C2B尫
U+5C36尶U+5C37尷
U+5C4F屏U+5C5B屛
U+5CE5峥U+5D22崢
U+5DD3巓U+5DD4巔
U+5E21帡U+5E32帲
U+5E2F帯U+5E36帶
U+5E76并U+5E77幷
U+5EC4廄U+5ECF廏
U+5F11弑U+5F12弒
U+5F37強U+5F3A强
U+5F39弹U+5F3E弾
U+5F50⼹U+5F51彑
U+5F54彔U+5F55录
U+5F59彙U+5F5A彚
U+5F5B彛U+5F5C彜
U+5F5D彝U+5F5E彞
U+5F65彥U+5F66彦
U+5FB3徳U+5FB7德
U+5FB4徴U+5FB5徵
U+6075恵U+60E0惠
U+6085悅U+60A6悦
U+609E悞U+60AE悮
U+60B3悳U+60EA惪
U+6120愠U+614D慍
U+613C愼U+614E慎
U+6229戩U+622C戬
U+622F戯U+6231戱
U+6236⼾U+6237户U+6238戸U+623B戻U+623E戾
U+629B抛U+62CB拋
U+629C抜U+62D4拔
U+6329挩U+635D捝
U+633F挿U+63D2插U+63F7揷U+634F捏U+63D1揑
U+635C捜U+641C搜
U+63B2掲U+63ED揭
U+63FA揺U+6416搖U+6447摇U+63FE揾U+6435搵
U+6483撃U+64CA擊
U+654E敎U+6559教
U+6553敓U+655A敚
U+65E2既U+65E3旣
U+6602昂U+663B昻
U+665A晚U+6669晩
U+66A8暨U+66C1曁
U+66FD曽U+66FE曾
U+67B4枴U+67FA柺
U+67E5查U+67FB査
U+67F5柵U+6805栅
U+68B2梲U+68C1棁
U+6961楡U+6986榆
U+6982概U+69EA槪
U+6985榅U+69B2榲
U+699D榝U+6A27樧
U+69C7槇U+69D9槙
U+69D8様U+6A23樣
U+6A2A横U+6A6B橫
U+6B65步U+6B69歩
U+6B72歲U+6B73歳
U+6B7F歿U+6B81殁U+6BBB殻U+6BBC殼
U+6BC0毀U+6BC1毁
U+6BCE毎U+6BCF每
U+6C32氲U+6C33氳
U+6C5A汚U+6C61污
U+6C92沒U+6CA1没
U+6D44浄U+6DE8淨
U+6D89涉U+6E09渉
U+6D97涗U+6D9A涚
U+6D99涙U+6DDA淚
U+6DE5淥U+6E0C渌
U+6DF8淸U+6E05清
U+6E07渇U+6E34渴
U+6E29温U+6EAB溫
U+6E88溈U+6F59潙unicode汉字
U+6E89溉U+6F11漑
U+6EDA滚U+6EFE滾
U+6F5B潛U+6FF3濳
U+7028瀨U+702C瀬
U+70BA為U+7232爲
U+712D焭U+7162煢
U+7155煕U+7199熙
U+7174煴U+7185熅
U+72B6状U+72C0狀
U+7464瑤U+7476瑶
U+74F6瓶U+7501甁
U+7522產U+7523産
U+75E9痩U+7626瘦
U+76A1皡U+76A5皥
U+771E眞U+771F真
U+773E眾U+8846衆
U+7814研U+784F硏
U+797F祿U+7984禄
U+79BF禿U+79C3秃
U+7A05稅U+7A0E税
U+7A42穂U+7A57穗
U+7B5D筝U+7B8F箏U+7BB3箳U+7C08簈U+7BE1篡U+7C12簒U+7CA4粤U+7CB5粵U+7D55絕U+7D76絶U+7DA0綠U+7DD1緑U+7DD2緒U+7DD6緖U+7DE3緣U+7E01縁U+7DFC緼U+7E15縕U+7E48繈U+7E66繦U+7FAE羮U+7FB9羹U+7FF6翶U+7FFA翺U+80FC胼U+8141腁U+812B脫U+8131脱U+817D腽U+8183膃U+8203舃U+8204舄U+820D舍U+820E舎U+8216舖U+8217舗U+835
8荘U+838A莊U+83D1菑U+8458葘U+8480蒀U+8495蒕U+848B蒋U+8523蔣U+848D蒍U+853F蔿U+8570蕰U+8580薀U+85AB薫U+85B0薰

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。