越南汉喃档案文献的数字化保护问题与策略分析
作者:***
来源:《档案管理》2022年第05期
摘 要:大量以漢字和喃字为书写文字的汉喃档案文献的数字化保护,是汉喃文献长期保存与研究的必要方法。针对越南汉喃档案文献数字化工作存在的问题,提出了培育复合型专业人员和扩大社会力量参与、建立汉喃文献专业字库词库及对照译文库、提高文字识别技术、保护知识产权等相应对策。汉喃档案文献数字化对中国包括汉文文献及少数民族(如京族)档案文献的数字化具有重要参考价值。
关键词:越南;汉喃档案文献;数字化;文字识别技术
Abstract: The digital protection of a large number of Chinese literature Archives with Chinese characters and Han Nom characters is a necessary method for the preservation and research of Han Nom literature. In view of the problems existing in the digitization of Han Nom literature and Archives in Vietnam, corresponding countermeasures such as cultivating compound professionals and expanding the participation of social forces, establishing professional word database and comparative translation library, improving text recognition technology and protecting intellectual property rights are proposed. The digitization of Han Nom Archives is of important reference value to the digitization of Chinese literature and ethnic minorities(such as Jing Nationality).unicode系列全部汉字
Keywords: Vietnam; Han nom literature archives; Digitalization; Character recognition technology
越南作为东亚汉字文化圈的重要成员,从古至今留下了大量以汉字和喃字为书写文字的汉喃档案文献。由于越南在近代进行了文字改革,以罗马字母为拼写方式的越南国文代替了汉喃文字,使得汉喃档案文献难以解读,因此汉喃档案文献的数字化工程十分重要。中国学者在越南汉喃档案文献的数字化问题研究中具有一定的地缘及文化背景优势。越南汉喃档案文献数字化工程作为中国国内包括汉文文献及少数民族(如京族)档案文献数字化工程的海外参照来进行分析研究具有积极意义。
1 越南汉喃档案文献数字化现状概述
1.1 越南汉喃档案文献的来源。越南汉喃档案文献是在汉文化广泛传播于越南国家的历史背景下,以汉字和喃字为书写符号的、具有越南地域特征及越南文化特的档案文献集合。按照文献来源分类,包含如下四大类别[1]:
①从中国传入越南的汉文档案文献,例如《资治通鉴》《金刚经》。②产生并保存于越
南本土的汉喃档案文献,例如《大越史略》《苇野合集》。越南汉喃文献中的绝大多数产生并保存于越南本土。③产生于越南但流传于越南的汉喃档案文献,例如法国远东学院收藏的越南汉喃文献《越南封诰册录》《本朝庶政杂编》。④在越南重抄重印重编的越南汉喃档案文献,例如中国国家图书馆收藏的两种在中国刊刻的越南汉喃文献《皇越地舆志》《南圻六省地舆志》。越南汉喃档案具有庞大的存量及丰富的种类,其文字载体为汉字及喃字。记录媒介主要包括纸张、碑刻、雕版等形式。
1.2 越南汉喃档案文献的数字化现状
1.2.1 越南国家图书馆的数字化汉喃档案文献。越南国家图书馆拥有越南国内规模最大的汉喃文献古籍的书库,共收藏约5200本汉喃文献古籍。目前已有将近3000本数字化的汉喃档案文献,其中汉喃文献典藏古籍数字化工程收录了1258本数字化汉喃档案文献,约19.2万页。[2]
1.2.2 越南国家档案局的数字化汉喃档案文献。阮朝朱批:包括皇帝的册封、旨谕、诏书;六部、都察院、机密院等的晋封文件以及从1802年到1945年的11代皇帝批准的奏章,共有738份,用汉字编写在叠纸上,现在已对734份进行数字化,相当于3.6万页。[2]
1.2.3 越南社会科学院的数字化汉喃档案文献。目录资料库包括659411份表格,文件格式数字化的数量为1.06万本(170万页)。特殊格式的数字化资料:材料为竹简、陶土、竹叶、叠纸的有1250版,汉喃档案材料有1.6万页、汉喃文献古籍有374本、法文书籍1.73万页、村规1.14万页、碑碣13210面、图片2.25万张。[2]
1.2.4 越南各地方图书馆数字化汉喃档案文献。以承天-顺化省图书馆的数字化汉喃档案文献材料为例:从2009年至2012年,该馆已配合胡志明市图书馆“在承天-顺化地区搜集并数字化汉喃资料”,至今已对86864页资料(包括书籍、诏书、册封、家谱等)进行数字化。[2]
1.2.5 越南的世界各国收藏的数字化汉喃档案文献。2006年“越南汉喃文献保存协会”联合越南国家图书馆,创立“汉喃古籍文献典藏数位化计划”项目,将越南国家图书馆所藏部分汉喃档案文献进行扫描存储,至今已完成2000多份汉喃档案文献的数字化工作,并免费提供在线查询和阅读服务。
2008年由越南汉喃研究院和越南汉喃文献保存协会合作出版的汉喃字符编码库记录了19981个汉喃字符。越南国家图书馆、日本东京大学东洋文化研究所、日本国会图书馆、越南汉喃文化研究院等机构不同程度地对所藏越南汉喃档案文献进行了数字化整理(表1)。
2 越南汉喃档案文献数字化工作存在的问题
2.1 复合型专业人员缺乏及社会参与度低。越南汉喃档案文献散布收藏于越南、中国、日本、法国、美国等不同国家的各个单位,而全世界既精通汉文又精通喃文的学者专家十分稀少,据估计能够精通喃文并阅读汉喃文献的专家不足百人,[1]高校中汉喃专业培养的学生数量也比较少;而现阶段越南从事数字文献的人员当中,精通文史哲的学者鲜有涉足数学计算机信息技术研究领域的,熟悉编程和网络程序设计的IT工作者鲜有懂校对翻译古籍文献的。培训课程及培训质量的不足导致人员缺乏,[2]加上越南汉喃档案文献的数字化采集、整理、存儲、传输过程对专业知识和技能、操作规范的特定要求,加大复合型专业人员的数量和提升培养质量成为越南汉喃文献数字化工作的当务之急。
随着国语字被广泛普及,汉喃文字的出现频率越来越低,经笔者走访过的十几座越南佛教寺庙来看,近三分之一佛寺内的汉喃字对联及横批已被越南国语字对联及横批所取代,汉喃文字在当代越南不断被国语字侵蚀。汉喃文字在越南的宣传和振兴任重道远。
2.2 汉喃专业字库词库及对照译文库建设存在缺失。现阶段录入的汉喃字符可参见表2。
以VNPF为例,当前的汉喃字库和词库存在着收录不全面、更新频率低、与Unicode编码不能一一对应等问题,汉喃档案文献对照译文库存在翻译质量差、对应语种较少、收录不全面、更新频率低等问题,这些问题大大地阻碍了档案文献数字化工作的效率提升,并降低了使用者的体验度。
例如喃字“ ”本意是汉字“厚”的意思,对应了越南语“dày”,但借用这个字来记录越南语的“giày”(汉语是鞋的意思)时,字形与字义之间无关,而在VNPF汉喃字检索库中却难以查到这个用法。另外针对汉喃字同音同义异形问题,越南语“dày”对应了“苔”“ ”“ ”等六个汉喃字,这六个汉喃字注释完全相同,但其各自Unicode编码却相差较大,且互相间毫无关联。
当前的VNPF网站的汉喃字数据库能实现单向的检索汉喃字,及由输入汉喃字(文字格式)来识别Unicode编码、越南国语字、英语、汉语拼音、粤语拼音、仓颉输入法、部首笔画法等一系列格式,但无法实现由一系列复杂的编码或文字输入格式组合来检索出一句或一段汉喃文字。另外,把喃字文本转化为国语字文本,面临着古代越南语语音转化为现代越南语语音的问题,而古代语音和现代语音有很大的区别,如古代的双辅音在现代越南语中已完全消失。[5]
2.3 汉喃文字识别技术水平准确率偏低。由于越南汉喃档案文献的书写格式及文字形式多样,除了占多数的汉文档案文献(可参照中国汉字文字识别的经验)外,还有相当数量的喃文文献及汉喃对照档案文献,并且存在文字分布密集和数据标注稀缺的现象,造成文字检测及文本行切割存在一定困难,文字识别工作需要考虑诸多因素。另外,计算机文字识别易受汉喃字书写及印刷格式影响,字体及文字倾斜可能造成计算机识别偏差。
当前针对汉喃档案文献的文字识别技术仍然存在部分信息无法识别、文本切割排序混乱、特殊格式文献识别失灵、识别准确率有待提高等问题。例如,针对喃字的文字识别技术仍存在较大的提升空间:目前的计算机汉喃档案文献识别准确率可以达到97%左右。[6]相对而言,针对中国汉文文献及日本日文文献的计算机文字识别技术准确率已能达到99.5%以上,[7]准确率提升空间还比较大。
2.4 汉喃档案文献数字化资源知识产权侵权严重。越南关于知识产权的规定仍存在着一些不足,如权利界定不明晰、规定与国际惯例相冲突等。[8]非法印刷图书是现在越南出版领域所有侵犯著作权行为中最为普遍而严重的违法行为。
越南信息与通讯部出版局资料显示,越南工业印刷厂数量已增至1500家(2012年数据)
,其中只有三分之一的印刷厂受《出版法》所约束与调节。印刷活动正往更复的方向演化,非法印刷的弊端仍在 扩大,国家的管理工作也因此而遇到很多困难。[9]
汉喃档案文献数字化出版过程存在知识产权意识淡薄、侵权行为隐蔽、盗版印刷频繁等问题,知识产权纠纷多发且危害性大。该方面的违法对象类型众多、涉及范围广泛,从出版社(向未注册、登记著作权或以翻译为名义的侵权稿件颁发出版证书)到印刷厂(印量超过所申请的数量)均存在。
数字化资源的知识产权保护除了具有传统条件下的知识产权特征,还具有由互联网的海量性、便利性、时效性、匿名性等性质决定的新特征,需要采取新的方法和思维加以保护。
3 越南汉喃档案文献数字化保护策略
3.1 提升专业人员培养数量和质量,扩大社会参与力量。首先,需要越南各高校根据具体情况增设汉喃专业、图书馆学专业、历史学专业、计算机专业、新闻传播专业并增加招生人数,以及针对高校学生和社会大众推出汉喃文献及文献数字化相关课程与讲座,利用互联网实现汉喃文献数字化专业人员的发掘、培养与深入学习工作。其次,应当针对专业人员,
定期举行一系列的汉喃档案文献数字化知识学习培训及考试考核活动。再次,设立汉喃文献专家组及档案文献数字化专家组,定期举办专题研讨会和技术交流会。最后,借助网络众包平台,非定向招募普通用户的参与,提高档案文献数字化工作的整体效率。此外,针对汉喃文献中专业性程度高的核心文献,采用“定向众包”的形式招募一定数量的汉喃文献领域研究专家,形成“网络大众+领域专家”的双向众包合作模式[10],实现多方力量的高效联合。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论