斯拉夫哈萨克文与现行哈萨克文编码字符转换规则的探究
刘金龙;张岩;董军
【摘 要】哈萨克语在发展变化的过程中,在世界范围内形成了基于同一语言的两种文字形式的特殊情况,分别是国外的以斯拉夫文字母为基础的哈萨克斯拉夫文字,称之为斯拉夫哈萨克文,以及我国的以阿拉伯文字母为基础的哈萨克阿拉伯文字,称之为现行哈萨克文。由于两种哈萨克文发音相同,而且均是一音一字的文字形式,所以斯拉夫哈萨克文与现行哈萨克文是可以通过规则互相转换的,但至今并没有相关的国家或地方标准对转换规则进行明确描述。因此,本文通过对斯拉夫哈萨克文和现行哈萨克文的研究,提出两种文字的字符编码转换规则。%Kazakh language,in the process of its development,has evolved two different writing forms globally- Slavic-based Kazakh and Arabic-based Kazakh.Slavic- based Kazakh is derived from the Slavic letters.But Arabic- based Kazakh is derived from the Arabic letters,which is also called the modern Kazakh. The two writing Kazakh have the same pronunciation, and there is also sound-to-spelling correspondencein Kazakh,so the conversion between the two writing forms are feasible under certain rules.But until now, there is no clear description of the
conversion rules in any national or regional standards.Thus,based on the study of the Slavic Kazakh and Arabic Kazakh,this paper advanced a conversion rule between character encodings of the two writing forms.
【期刊名称】《电子测试》
【年(卷),期】2014(000)019
【总页数】unicode字符转中文3页(P144-146)
【关键词】斯拉夫哈萨克文;现行哈萨克文;转换规则
【作 者】刘金龙;张岩;董军
【作者单位】中国科学院新疆理化技术研究所,新疆乌鲁木齐,830011;中国科学院新疆理化技术研究所,新疆乌鲁木齐,830011;中国科学院新疆理化技术研究所,新疆乌鲁木齐,830011
【正文语种】中 文
哈萨克文是一种拼音文字,主要有两种书写形式,一种是以斯拉夫字母为基础的斯拉夫哈萨克文,主要在哈萨克斯坦、乌兹别克斯坦、俄罗斯、蒙古国、土库曼斯坦、吉尔吉斯斯坦和土耳其等国家使用,使用人口近1200万;另一种是以阿拉伯字母为基础的现行哈萨克文,是我国哈萨克族民众使用的书面文字,共有约154万人使用。由于两种文字的书写方式截然不同,在国内的哈萨克民众对外交流往来时,无法认知国外使用的斯拉夫哈萨克文,造成诸多不便,而现在,世界范围内的交流与合作日益频繁和重要,迫切需要制定准确严谨的字符编码转换规则。
(1) 由42个西里尔字母构成,书写方向是从左向右;
(2) 有大写字母和小写字母之分,句首字母、双引号内的首字母、专有名词的首字母以及缩略语的字母须大写
(3) 存在不发音也无实意的软音符“Ь”,和硬音符“Ъ”。
(1) 有33个阿拉伯字母组成,书写方向是从右向左;
(2) 没有大小写之分,但根据字母在单词中位置的不同,有四种形态变化,分为独立体、
首写体、中写体和尾写体,并有三种其特有的标点符号;
(3) 凡是存在现行哈萨克文字母,或的词,不应在词首输入字符;
(4) 当单词中存在现行哈萨克文元音字母,,或者,且不存在现行哈萨克文字母,或者时,应当在词首输入一个字符;
(5) 当单词中存在现行哈萨克文元音字母,,或者,且存在现行哈萨克文字母,或者时,不应在词首输入字符;
(6) 缩略语的每个字母之间有一个且仅有一个空格。
3.1 总则
3.1.1 扩展区编码字符的转换
斯拉夫哈萨克文编码字符转换为对应现行哈萨克文字母名义形式的编码字符就完成了转换工作。但是某些信息系统不能依据现行哈萨克文字母名义形式的编码字符选择正确的变形显现形式编码字符用于显示。针对这种信息系统,需将现行哈萨克文字母名义形式的编码字符依
据现行哈萨克文的书写习惯进一步转换为正确的变形显现形式编码字符。
3.1.2 斯拉夫哈萨克文字母大小写形式的处理
在斯拉夫哈萨克文编码字符转换为现行哈萨克文编码字符的过程中,对同一个西里尔字母的大写形式和小写形式采用同样的方式处理。
3.1.3 镜像字符的处理
由于书写方向不同,在斯拉夫哈萨克文转换为现行哈萨克文的过程中,需将一个镜像字符的编码字符转换为与之镜像的另一个编码字符。表1列出了部分镜像字符的镜像关系,完整的镜像字符列表可以参考unicode。
3.2 一个西里尔字母与一个阿拉伯字母的转换
(1) 表2所示的29个斯拉夫哈萨克文字母,其编码字符直接转换为对应的现行哈萨克文字母的编码字符。
例如:жаз(夏天)转换为,вагон(车厢)转换为,
дос(朋友)转换为,(鱼)转换为,
Мамыр(五月)转换为,пайда(利益)转换为,
(2) 如果1个单词中存在多于1个如表3所示的斯拉夫哈萨克文元音字母,则单词中这些元音字母除第一个外,其它全部直接转换为对应现行哈萨克文元音字母的编码字符。
例如:(方法)转换为,(连续)转换为。
(3) 如果单词中存在表3所示的斯拉夫哈萨克文元音字母,同时单词中也存在如表4所示的斯拉夫哈萨克文字母,则单词中这些斯拉夫哈萨克文元音字母全部直接转换为对应现行哈萨克文元音字母的编码字符。
例如:(培训)转换为,(展览会)转换为。
(4) 表5所示的斯拉夫哈萨克文字母й和и,其编码字符都转换为现行哈萨克文字母的编码字符,斯拉夫哈萨克文字母э和е都转换为现行哈萨克文字母的编码字符。
例如:айна(镜子)转换为,жина(收拾)转换为,
электр(电)转换为。
3.3 一个西里尔字母与多个阿拉伯字母的转换
(1) 如果1个单词中存在至少1个如表3所示的斯拉夫哈萨克文元音字母,且单词中不存在如表4所示的斯拉夫哈萨克文字母,则单词中这些元音字母的第一个转换为对应现行哈萨克文元音字母的编码字符,同时在词首添加字符。
例如:(茶)转换为,(四)转换为。
(2) 表6所示的4个斯拉夫哈萨克文字符直接转换为对应的现行哈萨克文字母序列的编码字符。
例如:сая(阴凉处)转换为,авиация(航空)转换为,
аю(熊)转换为,(咸水湖)转换为,
мантёр(电工)转换为。
(3) 斯拉夫哈萨克文字符ц,当出现在非词首时,直接转换为对应的现行哈萨克文字母序列的编码字符。当出现在词首时,需根据专用词汇表确定转换为现行哈萨克文字母或字母序列的编码字符。
例如:цифр(数字)转换为,авиация(航空)转换为。
3.4 Ъ和Ь的处理
斯拉夫哈萨克文字母Ъ和Ь的编码字符在转换为现行哈萨克文时忽略。
例如:циркуль(圆规)转换为, разъезд(铁道维修站)转换为。
3.5 缩略语的编码字符转换
相邻的多个大写斯拉夫哈萨克文字母编码字符转换为现行哈萨克文编码字符时,直接转换为对应的现行哈萨克文编码字符,然后在现行哈萨克文字母编码字符之间加1个空格编码字符。
例如:(新疆维吾尔自治区)转换为。
3.6 标点符号的编码字符转换
现行哈萨克文中因为从右向左的书写方向,有三个特有的标点符号,分别是逗号() ,问号()和分号(),转换为对应的斯拉夫哈萨克文标点符号的编码字符逗号(,),问号(?)和分号(;)。
例如:мен,сен(我,你)转换为,
3.7 非现行哈萨克文编码字符的转换
3.7.1 斯拉夫哈萨克文中阿拉伯字符的处理
斯拉夫哈萨克文中的阿拉伯字符应保留不变,同时在阿拉伯字符的前后分别增加零宽空格和零宽不中断空格。
3.7.2 零宽空格和零宽不中断空格的处理

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。