XHK汉语词义知识库的设计与规范
王惠
新加坡国立大学中文系
chswh@nus.edu.sg
摘 要
XHK是一部人机两用、基于语法分布特征的现代汉语词义知识库,它收录了《现代汉语词典》(修订版)中的全部5.6万词条,共8.1万余义项。不仅提供准确的释义,而且详细标注词语在每个义项上的拼音、词类、语义类、语法功能、语义组合、特殊搭配、语体风格、来源出处,使用频率,以及来自真实语料的丰富例句,从而为大规模、系统的汉语词义分析和计算词典学理论探讨提供一个坚实可靠的研究平台。同时,作为一个以义项为单位的大型词义知识库,XHK也可直接应用于机器翻译、信息检索、文本处理等多种中文信息处理系统,为词义消歧(WSD)和语义自动分析提供强有力的支持。本文概要介绍XHK的设计原则、结构规模、属性项目与填写规范。
关键词:词义知识库、多义词、义项、词类、语义类
1.引言
在相当长的一段时间内,词义和语法曾被认为是两个完全不同的研究领域。在不少语法学家看来,词义数目庞大、松散,而且随着语言的不同而不同(language-specific);大多数词汇语义学家也是往往仅满足于词汇层面或词义系统内部的描写,不去涉足句法分析的范围。
直到上个世纪70年代,这种情况才开始出现一些改变的迹象。生成语法学家Kazt 和Fodor最早尝试把词义特征分解引进句法分析之中(Kazt & Fodor,1963; Kazt, 1972)。80年代以后,随着语言研究的深入,利用词义分析探索形态和句法过程的语义基础,说明词汇和句子之间的语义关系,成为欧美词汇语义学与语法学共同的研究热点。在这种背景下,如何充分利用词在语法结构中的不同表现来观察词义特征的细微差别,探索词在实际运用中的意义变化、分布特点和组合限制,日益引起国内外越来越多词汇语义学家的关注。英国著名语义学家Lyons明确指出“任何词义,无论组合受严格限制与否,都应包括该词的替换关系和组合关系(1995:124)”。八九十年代出现的境况语义学、认知语义学、概念语义学和框架语义学的高潮也都是主张在组合分布中研究词义。
语言工程的应用需求也在呼唤词义研究与语法特征相结合。一方面,随着词典编纂的现代化,词义分析所追求的目标越来越高,词义成分的确立不能再仅仅依赖于编纂人员的直觉判断,而是要充分利用词在句子结构中的不同表现揭示词义的使用特点,以保证义项划分与释义更加准确、合理。
另一方面,随着计算机自然语言信息处理(NLP)技术的迅速发展,词义分析的重要性与迫切性也为越
来越突出,“词义瓶颈”成为当前很多NLP系统面临的最大问题。为了获取足够的词义知识,从80年代中期开始,世界上许多国家都大力投资开发机用语义词典,如:美国的Wordnet、Mindnet、Framenet、日本的EDR概念词典、新加坡的SenseWeb等。中国也陆续开展了汉语语义词典的研究与开发,如:“905信息处理用汉语语义词典”、“现代汉语述语动词机器词典”、“知网(Hownet)”、“现代汉语语义词典”,“中文概念辞书(CCD)”等。此外,不少计算语言学家还尝试着从机器词典中自动抽取词义知识(Chodorow 1985,Ide 1993,Huang Chu-Ren 1998等)。但迄今为止,规模较大的词义工程基本上都是采用语义分类的办法,有些再加上为数不多的属性描述。而国内外研究工作者建立义类体系的方法,也基本上都是对词义进行静态分类,并没有在一定的组合框架中去观察,所以,词义知识库目前在自然语言处理系统中起的作用是较为有限的。
综上所述,语言研究的深入和实际应用的需求,决定了词义研究必然要走向更加深入细致的组合分析,把词义特征与词的语法分布结合起来。XHK正是在这种研究理念指导下而设计开发出来的,由新加坡国立大学和厦门大学合作进行。目的是在充分吸收语法研究成果的基础上,以义项为单位,对现代汉语词义特征和组合分布作大规模全面描述,进一步加强动态语义规则知识发掘和词义特征提取,建立一个理论性与实用性相结合的汉语词义知识描述新框架。
2.XHK的内容概要
2.1 规模与结构
XHK严格地以义项为单位收录词条81,824个。其来源是《现代汉语词典》(1996)中的所有条目,以及2002修订版中增补的1205个新词。之所以做出这种选择,是因为《现汉》收录的词汇基本上属于现代汉语通用领域,对真实文本覆盖率大,使用频率高,很大程度上反映着现代汉语词汇的构成与概貌(苏新春,2001)。通过对这些词语在每个义项上的的语法、语义属性的详细刻画,我们既可以从宏观上把握现代汉语词义系统及其相互关系,也可以在一个相对封闭的范围内进行穷尽性调查分析,使研究结果更为科学、可靠。
XHK采用Microsoft Access数据库实现,由19个表(table)组成。其中包含全部词语的总表1个,每个基本词类各单独建一个表,计18个。总表与各类词表可以通过“ID”或“词语、同形、义项”这3个主关键字段进行链接,从而使19个表文件构成有上下位继承关系的“树”。每个表都详细刻画了词语及其语义属性的二维关系。总表中包括全部词语所共有的属性,如:词语、拼音、同形、义项、释义、词类、兼类、语义类、来源、外来词、异形词、语体风格、领域、频度、词典例注、语料例句等。每类词的特有属性将分别填在各类词库中,如:语法功能、语义组合限制、搭配特点等。
2.2 属性描述
由于XHK主要是服务于汉语词义分析的,因此,属性项目的设计首先要满足词义特征描述和提取的需要,一方面要尽可能清楚地显示词在不同义项上的语法分布特点,另一方面也努力追求可操作性,使计算机借助它能够自动识别真实文本中的多义词义项,消解词汇和结构歧义。
2.2.1总库属性项目
(1)词语
该字段是计算机自动从《现代汉语词典》(修订版)的词条(entry)中抽取出来,按照一个义项一个记录的方式排列的。其中绝大部分是语言学意义上的“词”,但也有一些不属于“词”的语言单位,如:前 缀(h) : 阿、老、第
后 缀(k) : 子、儿、头
不成词语素(g): 民、遥、僾
非语素字(x) : 鸳、枇、蚣
成 语(i) : 近水楼台、项庄舞剑,意在沛公
简 称(j) : 安检、幼教、奥运会
习惯用语(l) : 差不离、吃现成饭、无论如何
此外,还有少数固定结构,如“不……不……”、“半……半……”等。
这样不仅忠实地保持了《现汉》的收词原貌,而且也有利于提高计算机对真实文本的分析效率。同时,研究者可以在此基础上方便地进行各种裁减,比如,把考察范围限于不成词语素,或者动词,或者习惯用语等等。
(2)拼音
填每个词语的汉语拼音,声调用 “1,2,3,4,5”表示,其中“5”表示轻声。儿化音则直接在前一个音节后面加上r 表示,如:“一股脑儿”在本字段填“yi1gu3naor3”。
词语 拼音 释义
例注
阿 a1 用在排行、小名或姓的前面,有亲昵的意味
~大丨~宝丨~唐。 阿 a1 用在某些亲属名称的前面 ~婆丨~爹丨~哥。
阿 e1 迎合;偏袒 ~附丨~谀丨刚直不~丨~其所好。阿
e1
指山东东阿
~胶。
表1 “阿”的两种不同读音
(3)词类
填词语在每个义项上所属词类的代码。如:名词填“n”,动词填“v”,形容词填“a”等。
XHK 采用北京大学提出的现代汉语词语分类体系(俞士汶等,1998;郭锐,2003),分为18个基本词类和7类非词成分(见表2)。
1.名 词 n
2.时间词 t
3.处所词 s
4.方位词 f
5.数 词 m
6.量 词 q
体 词
7.代 词 r (体词性) 代 词 r (谓词性) 8.动 词 v 9.形容词 a 谓 词
10.状态词 z 11.区别词 b 实 词
12.副 词 d 13.介 词 p 14.连 词 c 15.助 词 u 虚 词
16.语气词 y 17.拟声词 o 基 本 词 类
18.叹 词 e 19.前接成分 h 20.后接成分 k 21.语 素 g 小 于 词 22.非语素字 x 23.成 语 i 24.习惯用语 l 附 加 类 别
大 于 词
25.简称略语 j
表2 现代汉语词语分类体系
需要说明的是,不成词语素代码有点特别:为了表示名词性、形容词性等不同类别的语素,在其代码g 之前,再添加一个词类的大写字母,如:“民 Ng 、遥 Ag 、视 Vg”等。
(4)同形
XHK的同形词,既包括词形相同、读音相同但意义没有关系的狭义同形词,如“花钱”的“花”与“玫瑰花”的“花”;也包括词形相同、读音不同的广义同形词,如“扒窃”的“扒(pá)”和“扒土”的“扒(bā)”。
为了有效地区分上述两种情况,XHK在“同形”字段设立了不同的属性值。对于同字、同音,但
是在《现代汉语词典》中列为不同词条的,如“藏书”,该字段中填上数字1,2;同字、不同音的词语,则填字母A,B,如“艾”(aì)和“艾”(yì)。换言之,“同形”字段用字母A、B表示读音不同的词,用数字1、2等表示读音相同的不同词项。当需要字母与数字并存时,将字母置于数字之前。
在XHK中,利用“词语、词类、同形、义项”4个关键字段,计算机能很容易地区分出同形不同类的词、同形同类不同音的词、同形同类同音的不同词、同形同类同音的同一个词的不同义项。等到XHK 全部完成以后,就可以在不同规模、不同范围的词语集合中调查汉语词汇同形、兼类情况。这对于汉语词类、同形词、多义词研究,以及词义特征描述都将是大有帮助的。
(5)兼类
该字段不仅包括狭义的兼类现象,即多义词不同义项之间存在的兼类,如动词“包装”和名词“包装”;也包括同形词之间的相互兼类,如表2中读音未bēi的3个“背”;此外,还包括读音不同的同形词,如“背(bēi)”和“背(bèi)”。这是因为从计算机角度来看,同形词与多义词在本质上是一样的,都是用相同的字符表示不同的意义。即使对于人而言,同形词和多义词的界限也不是截然分开的(苏新春,2001)。有鉴于此,XHK就暂采用最广义的定义,只要字形相同的词语属于不同的词类,一律作为
兼类处理,以便为将来的深入探讨保留尽可能多的数据。
词语拼音同形义项词类兼类释义例注
背bei1 A 1 v qna(人)用脊背驮。把草捆好~回村去。
背bei1 A 2 v qna负担。~债丨这个责任我还~得起。
背bei1 A 3 q vna指一个人一次背的量。一~麦子丨一~柴火
后~丨~影。
背bei4 B1 1 n qva躯干的一部分,部位跟
胸和腹相对。
access例句背bei4 B2 4 v qna背诵~台词丨书~熟了。
背bei4 B2 6 v qna朝着相反的方向他把脸~过去,装着没看见。
背bei4 B2 7 a qnv偏僻~静|~街小巷|深山小路很~。
表3 XHK中的兼类
(6)义项
目前,XHK是完全根据《现代汉语词典》的义项划分情况,由计算机程序自动为每个义项填上编码,如:“背(bēi)”有3个义项,该字段就分别填入“1、2、3”。随着词义研究的深入,我们以后将对《现汉》中的义项做出一些调整,比如合并、增加、删除等。这是本课题一个非常重要的研究目标。
(7)释义
XHK把释义和例注作为两个不同字段来处理,以便于对义项划分和词语用法分别进行探讨。
《现代汉语词典》释义的权威性在现有的汉语语文词典中当首屈一指。XHK以其为基础,将对
释义元语言、释义模式等专题作一些深入研究,并探讨如何实现从释义文本中进行大规模的词汇知识挖
掘。
(8)语义类
对汉语语义分类体系的研究目前已有了不少成果,如:梅家驹(1983)、林杏光(1987)、陈秀(1996)、陈晓荷(1998)、董大年(1998)、董振东(1998,1999)等。但这些分类体系基本上都是建立在自然科学或常识基础上的,如何将其与语法知识有机地结合起来是一件很不容易的事情。我们认为,词义分类应首先解决那些仅靠语法规则难以处理的问题,因而,XHK目前只对名词(包括时间词、处所词、方位词)、动词、形容词(包括区别词、状态词)、副词等标注语义类;而那些带有明显语法标志的语义关系,如各类虚词,则不进行语义分类(王惠,2004)。
该字段填写词语的语义类别名称。可以不止填一个语义类,不同的名称之间用“|”隔开。如:
词语词类语义类
白话诗n 创作物
青菜n 植物 | 食物
喜欢v 心理活动
打雷v 气象
红 a 颜
诚实 a 品格
非常 d 程度
表4 XHK中的语义类
(9)来源
随着社会交流、科技文化的迅速发展,汉语词汇也在不断地推陈出新,吸收了不少的外来词、方言词,也产生了一大批新词。本字段详细记录这些信息,外来词填“外”,如“分贝、沙发”;方言词填“方”,如“囡囡、猫儿腻”;新词填“新”,如“前卫、签单”等。这有助于从多方位地观察汉语词汇动态演变,同时也有助于提高计算机处理未登录词能力。
(10)外来词
填写汉语外来词、新词或其中部分语素所对应的外语词汇,如:“冰激凌”在本字段填“英ice cream”, “苏丹”填“阿拉伯sultan1”,“比萨饼”填“比萨,英pizza”,“网吧”填“吧,英bar”等。
(11)异形词
现代汉语的词汇系统并不是一个单纯的同质系统,其中有不同历史时期的积淀,也有不同来源的词汇融入,还有正体与俗体之分。这种种因素使得同一个语素或词语,却存在不止一种写法,或是汉字不同,或是语序不同。XHK设立一个专门字段“异形词”来记录这些信息,属性值为可否型(见表5)。
词语异形词释义
舡yes 同‘船’。
阬yes 同‘坑’。
人材yes 同‘人才’。
源源本本yes 同‘原原本本’。
成竹在胸yes 见1414页〖胸有成竹〗
表5 XHK中的异形词
这样做不仅便于研究者全面地调查分析异体词、异序词,为词汇规范化服务;同时也能增强计算机对真
实文本的处理能力。比如,信息检索时,用户输入关键字“船”,系统若同时检索“船”和“舡”,显然可以提高查全率。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论