大规模古籍汉字用字统计报告
张轴材
1.项目背景和概况
本项目是在北京书同文数字化技术有限公司长期从事的古籍数字化工作的基础上,由国家语委十五科技攻关计划资助的重点项目。本报告中还包含了另一个相关项目的成果,即“中国古籍用字在ISO/IEC 10646 CJK汉字中分布研究”。由于二者关系紧密,故一并报告。
这项研究基于八亿古籍汉字语料,借用书同文全文检索引擎(UniFTR 2.0)对语料中所出现的约三万编码汉字(接近于所谓“字头”或“字种”)进行了逐字的出现率(字次)统计;并对统计结果进行了初步的分析。
根据目前掌握的信息,迄今为止中文信息界所作的数亿字规模的汉字字频统计,都是基于现代汉语的;而基于国际标准编码字符集和数亿古籍语料的统计分析,此前尚未见报告。由于电子出版业和数字图书馆事业的迅猛发展,学术界和产业界对于古籍汉字的字频统计数据的要求日益迫切,我们希望并且相信,本报告可以起到某种基础性贡献的作用,有利于各项相关技术和应用的发展。
2.统计对象- 语料及字符集
A.概述
本项目的基础语料来自文渊阁《四库全书》电子版和《四部丛刊》电子版。前者的汉字出现率,近七亿字次;后者近一亿字次;加起来接近八亿字次。尽管二者在使用率上尚有很大差异,但孰大孰小很难权衡,所以在合并语料时,未做任何加权处理,而是简单叠加。
前者于1996-2000年开发,基于增强的CJK编码字符集,CJK+,用方正楷体表现;后者于2000-2001年开发,其字符集在CJK+的基础上稍有扩充,为编码汉字,用华天宋体字库表现。
CJK+的定义详见下节。
B.编码字符集
语料的编码字符集都是基于ISO/IEC 10646-1:2000,UCS-2或BMP模式。
遵循国际标准ISO/IEC 10646:2003,它等效于工业标准Unicode 4.0和国家标准GB 13000-2003 (正在翻译中)。
ⅰ.源语料基于CJK+,CJK+的定义是CJK+ ::= CJK + CJK_A + EUDC
108第三届汉文史资料库研讨会文传论丛
CJK有20902个标准编码汉字;CJK_A有6500个编码汉字;EUDC则是在国际标准框架内专用区编码的汉字“Private Use Area - End UserDefined Characters”。
EUDC有6400个码位,是精心选择的约5543个汉字和符号,他们来自:l八卦-64卦符号
l古乐谱
l《中华古汉语字典》外字
l《中华古汉语字典》外字
l《四库全书》作者库外字
l《四库全书》书目库外字
l《四库全书》180万条篇目(标题)外字
l《四库全书》经-史-子-集出现率较高的外字
l《中华文化通志》外字以及
l《汉语大词典》中某些外字
所以这些EUDC字有相当高的代表性。
由于在源语料制作时,CJK Extension B还没有颁布,况且还有相当一部分EUDC 字在CJK Extension B 中至今也没有对应关系。所以自定义这部分字是非常必要的。
实践证明,CJK+在“大标准、小自由”的原则下所选用的这32000个汉字具有很强的实用性。在《四库全书》电子版工程中,相对于GBK,CJK+的采用,在“经部”,外字的出现率从万分之9.7降到了万分之
1.4;在“史部”,外字的出现率从万分之35.1降到了万分之1.2。目前,除了《四库全书》、《四部丛刊》电子版之外,《汉语大词典》
和《中华文化通志》因特版,以及目标为20亿字的《中华基本古籍光盘库工程》、即将出版的《历代石刻史料汇编》电子版、中华书局语料库OCR加工线也都采用了CJK+。
ⅱ.统计分析时,对EUDC(Private Use Zone)的编码汉字进行了再映射,
凡是在ISO/IEC 10646-1:2000和ISO/IEC 10646-2:2001中已经编码的
字符,都已经给予了标准的、而不是EUDC的编码。
l有3755个EUDC字映射到CJK_B中。编码为U+2XXXX
l有82个字可映射到BMP。除八卦、六十四卦72个字外(编码形式仍为U+027XX),另外有5个字在CJK中、5个字在CJK A中,属于当初的错
误重复编码。(其编码形式仍为U+0XXXX)
l有320 字未来可以映射到CJK_C 中。(其编码形式仍为U+0XXYY, XX 位于E0~F8)
l在目前的标准编码字符集和未来的CJK Extension C中均没有对应的EUDC字有1286个。(其编码形式仍为U+0XXYY, XX 位于E0~F8)。
ⅲ.CJK+版本差异:
在《四库全书》电子版工程之后,应上海世纪出版集团要求,为《汉语大词典》因特版追加了581个自定义字,产生了新版本的CJK+字符集,用华天宋体字库显现。
这581个新追加的自定义字的PUA代码从0EF6F到0F1B3。由于他们的出现频度相当低,所以对整个统计数据的影响微乎其微。
C.文渊阁《四库全书》电子版语料(文渊阁《四库全书》电子版出版说明)
电子化工程的重点是建立数据库和系统的技术开发。
数据库的建立:在国际标准的架构下,建立一个庞大的汉字信息数据库,是工程的第一步。为确保数据的齐备和准确,我们首先以数码扫描的方式录入全部二百三十多万页的原书图像,建立了原书图像数据库。然后利用先进的图像处理软件逐叶检查,由计算器对原始图像自动分页、端正、去污,保证每幅图像的清晰度。
全文版数据的制作工程相当繁重,其校对工作更是极其艰巨。整个过程可分为三个阶段:(1).先对处理好的原文图像进行计算机切分、人工辅助纠错,提取每一个字的字迹图像;
(2).再用清华大学计算器系人工智能研究室提供的多特定人规范手写识别引擎(OCR),结合我们制作的超过七千字的Unicode版本的标识符典,把每个字迹图像识别成计算器的编码汉字,并给出每个字迹图像所可能对应的十个候选字及相关参数。解决百分之九十以上的录入问题;(3).然后用我们开发的“校得快”、“校得准”、“校得精”的三种“联机校对”软件,从不同的角度来进行五次无纸的数据校对工作。“校得快”在屏幕上显示字迹与其识别出来的汉字,一一对应、顺序校对,反复进行一、三校。“校得准”软件用于二、四校,以“交叉校对”方法打乱原文顺序,把所选叶中同样的字聚集在一起,连同其所对应的字迹显示在屏幕上,
110第三届汉文史资料库研讨会文传论丛
从而使错字一目了然。“校得精”用于五校,它的特点是对全部数据再进行页对页、行对行的比对,将文本数据逐字逐句的和原文图像进行对照;并包括外字回填、一致性处理,实施全面检校。最后是专业校对,特别聘请专业工作者对数据作抽样校对。经此过程,建立起约七亿汉字的高质量的中文字符-字迹数据库。
参与技术开发的机构,除了迪志文化出版有限公司和书同文计算机技术开发有限公司以外,还有清华
大学计算器系(负责OCR引擎开发),和北大方正电子有限公司(负责建立专用字库)。微软公司(北京)研究开发中心在平台技术等方面给予了有力的技术援助。
D.《四部丛刊》电子版语料
《四部丛刊》是上个世纪初由著名学者、出版家张元济先生汇集多种中国古籍经典纂辑的。学者们公认此书的最大特是讲究版本。纂辑者专选宋、元、明旧刊(间及清本者,则必取其精刻)及精校名抄本,故版本价值之高远在《四库全书》之上。多年来,该书一直深受文史工作者推崇,所收书常被用作古籍整理的底本。该书共计收书477种、3134册、232478页、近九千余万字。
《四部丛刊》电子版是由北京书同文数字化技术有限公司独立投资于2001年开发完成的。
3.统计用策略、工具与技术
A.数据采集阶段,坚持“保真原则”- 在给定字符集的范围内尽量不做简繁代换、正
形、异体代换,尽可能地保持原有字形。
对于小学类,“保真原则”贯彻得更为严格:字头从严,尽量保真、释文从宽,可适度代换。[参见附件:《四库全书》电子版工程的“保真原则”的说明]
B.在统计积累的基础上有控制地造字、补字(3%%%%以上出现率考虑造字)。
C.借用书同文全文检索引擎(UniFTR 2.0)对语料中所出现的约三万编码汉字(接
近于所谓“字头”或“字种”)进行了逐字的出现率(字次)统计。
D.采用书同文“古今字频查频工具”进行分析,其中运用了简繁异体字关联技术。
(详见下节)
4.统计结果汇总与初步分析
A.古籍用字的总字数
ⅰ.文渊阁《四库全书》汉字用字字数:29,088字
(3,500部著作36,000册)
ⅱ.《四部丛刊》汉字用字字数:27,606字
(504部著作3,134册)
ⅲ.《四库全书》与《四部丛刊》汉字用字合计:30,127字
注:上述用字只包括小学类的一部分用字,不包括小学类(主要是大规模字书)的全部用字。
unicode汉字B.古籍用字的统计曲线
高频100字、500字、1000字、10000字、20000字,直至30000字对语料的覆盖率如下图所示。
112第三届汉文史资料库研讨会文传论丛
从另一个角度,我们也可以看到覆盖10%,20%,30%,…,直到覆盖90%所需汉字的数量:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论