多注意力机制的藏汉机器翻译方法研究
刘赛虎,珠杰*
(西藏大学信息科学技术学院,西藏拉萨850000)
摘要:互联互通时代了解和掌握不同语言的区域文化和信息十分重要,机器翻译是目前广泛应用的交流媒介。本文以藏汉机器翻译为研究对象,利用Transformer框架和模型,研究了基于Transformer多注意力机制的藏汉机器翻译方法。经过实验,评估了多语料融合实验、语料双切分实验对比效果,得到了BLEU值32.6的实验结果。
关键词:藏汉;Transformer;机器翻译;注意力机制;多语料
中图分类号:TP399文献标识码:A
文章编号:1009-3044(2021)10-0004-04
开放科学(资源服务)标识码(OSID):Research on Tibetan-Chinese Machine Translation Method B
ased on Multi-Attention Mechanism
LIU Sai-hu,ZHU Jie*
(Tibet University School of Information Science and Technology,Lhasa850000,China)
Abstract:It is very important to understand and master regional culture and information in different languages in the age of inter⁃connection.Machine translation is a widely used communication medium.This paper takes Tibetan-Chinese machine translation as the research object,and uses the Transformer framework and model to study the Tibetan-Chinese machine translation method based on Transformermechanism.Through experiments,the comparison effect of multi-corpus fusion experiment and corpus dou⁃ble-segmentation experiment was evaluated,and the experimental results of BLEU32.6were obtained.
Key words:Tibetan-Chinese;Transformer;machine translation;attention mechanism;multilingual corpus
机器翻译(Machine Translation,MT)是借助机器的高计算能力,自动地将一种自然语言(源语言)翻译为另外一种自然语言(目标语言)[1]。藏文机器翻译技术经过了数十年的发展,已从传统基于规则、
统计等机器翻译技术转变成基于神经网络架构的新技术,藏文机器翻译技术发展可分为基于规则的藏文机器翻译、基于统计的藏文机器翻译、基于神经网络的藏文机器翻译3个阶段。
早在21世纪初期就开始了藏文机器翻译技术,以基于规则的方法中,才藏太[2]结合词项信息和藏文语法规则,提出了以动词为中心的二分语法分析技术,基于此技术开发的藏文机器翻译系统具有词典、公文、科技三个方面翻译功能,其词典量达18.6万条,经评测分析,译文的可读性高达80%。
近年来基于统计方法的藏文机器翻译技术也得到了一定的发展,臧景才等[3]基于短语统计模型利用翻译训练工具Moses 实现了藏汉的在线翻译系统。诺等[4]提出了对基于中介语言词语翻译模型进行改进,融合基于中介语言的统计翻译模型和直接翻译模型到现有的训练过程中,改善统计机器翻译模型训练过程的盲目性、低效性、冗余性和表面性等缺陷的方法。
目前主流的藏文机器翻译技术集中在基于神经网络的方法研究中,仁青东主等[5]采用50万藏汉平行语料结合基于双向RNN的LSTM(长短时记忆网络)神经网络模型开发出的藏汉机器翻译技术取得了BLEU值31的效果;李亚超等[6]提出采用迁移学习解决藏汉语料稀缺问题的方法,并通过对比短语统计机器翻译实验得出该方法可提高3个BLEU值。目前扎西团队、东北大学“小牛翻译在线开放平台”以及腾讯公司等开发的藏汉机器翻译系统均采用了基于神经网络的方法。2017年,Google发表论文《Attention Is All You Need》[7]正式提出了完全基于注意力机制的Transformer,并在两项拉丁语系
机器翻译任务中取得了最高BLEU值41.8的成绩,2019年,桑杰端珠[8]采用Transformer模型研究了稀缺资源条件下的藏汉机器翻译回译方法,通过93万藏汉平行语料取得了BLEU值最高为27.6的效果。相较之下藏文机器翻译效果提升还有很大的进步空间,因此本文从Transformer理论架构出发,利用多注意力机制,研究多种语料融合、两种不同藏汉文切分方法下的藏汉机器翻译效果。
1Transformer机器翻译模型
目前主流基于NMT任务的模型均采用Seq2Seq(编码器-解
收稿日期:2021-01-05
基金项目:2020年中央支持地方高校改革发展资金项目“藏语文传承与发展之藏汉双向机器翻译平台建设”项目(藏财预指【2020】1号)资助
作者简介:刘赛虎(1992—),男,湖南长沙人,西藏大学信科院硕士在读,主要研究方向为自然语言处理;通信作者:珠杰(1973—),男(藏族),博士,教授,西藏大学信息科学技术学院博士生导师,主要研究方向为藏文信息处理、数据挖掘。
Computer Knowledge and Technology电脑知识与技术第17卷第10期(2021年4月)
码器)[9]框架,在Seq2Seq下编码器将表征输入序列X=(X1,X2,…,Xn)映射到连续表征Z=(Z1,Z2,…,Zm),解码器从连续表征Z生成输出序列Y=(Y1,Y2,…,Ym)。Transformer框架的设计是通过注意力机制将序列上下文关联,并行处理序列中的单词。Transformer对比LSTM以及Fairseq不同之处是它完全基于注意力机制,没有使用RNN或CNN进行序列对齐操作。完全基于注意力机制使得Transformer不仅可以做到训练上并行化,并在实际翻译效果上相较LSTM更胜一筹。
1.1Transformer注意力模型
Transformer模型中采用了经典的Encoder-Decoder架构,结构相比于其它Attention更加复杂,初始Transformer采用了由6个Encoder、Decoder层堆叠在一起,单个Encoder和Decoder的内部结构如图1
所示。
图1Transformer Encoder-Decoder结构图在图1内部结构图最左边的是编码器(Encoder),右边则是解码器(Decoder),模型中编码器每个模块中包含有多头注意力子层和基于位置的前馈神经网络;解码器和编码器大体一致,不过在输入序列提取特征时采用的是Masked多头注意力层,整个模型使用残差连接[10]与对各层输出使用规范化[11]来更好的优化网络。对于Encoder模块的细节计算如图2
所示。
图2ENCODER模块细节图
在单个编码器(Encoder)模块中,例输入两个词X a=(X a1,
X
a2
)=(མཛེཛེས་པའིའི།,ཀྲུང་གཁྱོ།)组成的序列,第一步对输入序列做One-Hot 编码,然后乘上一个可训练的权重矩阵得到词向量X a1和X a2,第二步词向量X a1和X a2融入位置信息得到位置向量X1a1和X1a2,第三步将位置向量传入编码器先计算自注意力(Self-Attention)提取序列特征,生成连续Z a1,Z a2特征向量,然后对Z a1,Z a2经过残差&规范化处理,得到Z1a1,Z1a2向量,第四步经过基于位置的前馈神经网络(Feed-Forward Network)处理,编码器输出序列特征向量Z2a1,Z2a2,经过6个同样Encoder模块处理后输出最终的向量Z i a(Z i a1,Z i a2),参与到解码器的多头注意力计算中。解码器(Decoder)模块基本过程和编码器(Encoder)一致,例输入序列
X
b=(X b1,X b2)=(美丽,中国)经过词向量与位置编码后得到X1b1和X1
b2
,在进行Masked多头注意力计算后得到Z b1,Z b2连续表征向量。经过多头注意力与残差&规范化处理后得到Z i b与编码器生成的特征向量Z i a进行多头注意力计算;在这一步中利用编码器输出向量Z i a得到的Querys、Keys和解码器得到的Z i b向量的Values进行多头注意力计算与翻译对齐,也就是将源序列X a与目标序列X b的高层特征进行了关联,在编码器和解码器中都使用多头自注意力来学习序列的表示,然后通过同样的残差&规范化处理和基于位置的前馈网络处理以及线性优化和Softmax 一系列处理最终实现Y=(Y1,Y2)的概率化输出。
2实验
2.1预处理
藏文属于拼音文字,基本语序为SOV(主词─受词─动词)结构,具有丰富的格变化。因此,如果不对藏文与汉文进行预处理,模型训练会出现严重的未登录词现象,直接导致翻译效果变差。本实验前的语料预处理使用两种方法:一是多种语料融合的预处理;二是语料做不同粒度切分的处理。总的预处理流程包括数据获取、数据清洗、分词、BPE编码四个主要阶段。
Computer Knowledge and Technology电脑知识与技术第17卷第10期(2021年4月) 1)多语料融合预处理
本次实验的语料获取方式分为三种,一是通过网络爬虫技
术在网络爬取了总计32多万条藏汉语料,经过处理比对用于
实验的语料有230957条,经人工校对确认其翻译正确率在
decoder70.05%,称为普通语料。二是实验室现有的藏汉词典语料、藏
汉平行语料,称为标准语料。三是将部分普通语料人工校对之
后和标准语料经过融合,得到的语料称为优化语料,以下是本
次实验所用的多语料详情表,如表1所示。
表1语料处理表
语料名称
词典语料(正确率100%)
普通语料(正确率70.5%)
标准语料(正确率100%)
词典语料+标准语料(正确率100%)
普通语料+标准语料(正确率86.1%)
优化语料(标准语料+人工翻译校对语料)(正确率100%)
语料规模70388句对
230957句对270699句对341087句对501656句对400698句对
此外还需提及的是本次实验中标准语料是包括藏汉人文、法律、新闻三个领域语料的混合,其中法律和新闻领域平行语料为51086条,人文方面包括常用语对话、人文书籍翻译等。
2)多粒度语料预处理
不同粒度级别是指序列切分方式的不同,通过对语料的词、字切分得到了词、字两种不同粒度的切分语料。在词粒度级切分处理上,藏文使用由中科院研究所开发的卓玛藏文分词工具,汉文采用Jieba中文分词工具,实现平行语料的分词。在字粒度切分中,对藏文按音节单位来切分,即对藏文进行“字”粒
度级的切分,对汉文使用的是按字进行分割。这两者之间的区别在于,词粒度切分会保留更多的序列局部特征,跟词粒度相比字粒度切分则会丢失更多序列局部特征。通过对现有实验藏语语料规模的考量,尝试对藏汉双语进行不同粒度的切分来缓解藏汉翻译中数据稀疏的问题。
2.1.3BPE编码
在BPE阶段使用的是Sennrich等[12]提出的字节对编码(Byte Pair Encoding,BPE)技术,BPE算法优点在解决NMT序列任务出现OOV问题时,可以不用退回字典前继续NMT任务。BPE具体表现在序列上是自下而上的压缩算法,将单词作为单词片段处理来解决未登录词问题。在藏文语料中音译词汇较多故存在较多未登录词语,具有较大的压缩空间。采用Sub⁃word-NMT的联合编码方式对分字分词后的藏汉平行语料做了BPE语料预处理,分别基于两种不同粒度级别对语料进行切分以及分别经过BPE处理过的结果如表2所示。
表2语料BPE编码表
操作
分词
分字分词+BPE 分字+BPE
汉语:我喜欢买便宜货。
我喜欢买便宜货。
我喜欢买便宜货。
我喜欢买便@@宜@@货。
我喜欢买便宜货。
藏语:ང་གཁྱོང་སླ་པའིའི་ཚོཚོང་ཟོཁྱོག་ཉོཁྱོ་རྒྱུར་དགའི།
ང་གཁྱོང་སླ་པའིའི་ཚོཚོང་ཟོཁྱོག་ཉོཁྱོ་རྒྱུར་དགའི།
ངགཁྱོངསླཔའིའིཚོཚོངཟོཁྱོགཉོཁྱོརྒྱུརདགའི།
ང་@@གཁྱོང་@@སླ་@@པ@@འིའི་ཚོཚོང་ཟོཁྱོག་ཉོཁྱོ་རྒྱུར་དགའི།
ངགཁྱོངསླཔའིའིཚོཚོངཟོཁྱོགཉོཁྱོརྒྱུརདགའི།
从上图处理结果可以看出,通过对汉文和藏文分别做不同粒度的切分后,展现效果是不相同的,词粒
度级的切分“居住证”为一个词,而字粒度的切分为三个字。再通过BPE处理,序列的维度增加了,由此推测在实际应用中缓解了一定的数据稀疏问题。
2.2模型训练及参数设置
本文藏汉翻译实验采用的硬件条件与参数设置如表3所示。
表3实验参数设置表
实验配置
Transform⁃
er模型参
数设置
评价指标
操作系统:Linux,GPU:Tesla V10016G,
开发框架:PaddlePaddle
序列长度设置为:256,多头注意力:8个,网络层数:6,迭代步数:120000
优化器:Adam,其中β1=0.9,β2=0.98及ϵ=10-9,激活函数:Relu
学习率衰减式:Irate=d-0.5mod el⋅min(step_num-0.5,step_num⋅warmup_steps-1.5)
初始学习率:2.0
解码搜索策略:集束搜索,其中Beam width设置为5,Dropout设置为0.1
BLEU
2.3实验结果与分析
深度学习模型下,双语的翻译性能结果高度依赖双语语料质量好坏、数据规模大小以及语料的领域覆盖程度。为了解决语料匮乏问题,本文实验采用了第一种是多语料融合,第二种是多粒度切分的方式来分别进行对比实验,实现多语料融合、多粒度切分的实验效果。本文使用的是同一标准测试集来评估基于Transformer注意力机制藏汉翻译的效果,实验测试结果如表4所示。
表4模型译文质量测试结果
语料
BLEU(%)
粒度
藏汉分字
藏字汉词
藏词汉字
藏汉分词
词典语料
0.0
0.0
0.0
0.0
普通语料
0.0
0.0
15.3
15.2
标准语料
0.0
0.0
26.2
29.5
词典+标准
语料
0.0
0.0
26.1
28.9
普通+标准
语料
0.0
0.0
27.7
31.8
优化语料
0.0
0.0
27.8
32.6 1)从多语料融合实验结果来看,多语料融合产生效果存在两种情况,一是将词典和标准语料进行融合产生退化效果,也就是词典会对整个标准语料的训练产生负面影响,分析其中的缘由有两个:第一是词典本身是单个藏文词-汉文词之间的映射,在模型内部训练中会让已在序列中学习到的上下文信息丢失,进而直接导致在测试集上结果变差;第二是词典的单一词映射会强化某个词映射在训练中的权重,导致序列上下文在训练中词与词之间的映射权重降低,进而影响实际的测试效果。故推测使用过短或过长的语料进行融合训练反而会退化实际的效果,更进一步推测在实际训练中,应该去除差异过大的语料对,保持语料的整体均衡性可以提升效果。第二是普通语料和标准语料进行融合会产生有利影响,通过标准语料与普通语料融合促进实际测试表现来分析原因有两点:第一普通语料中也存在测试集相关领域的正确翻译对,可以提升融合后的效果;第二是普通语料和标准语料融合扩展了训
练集,强化了实际训练中的模型对序列上下文信息学习权重,进一步提升了实际翻译效果。但是普通语料中也存在错误的语料对,会产生不利的影响;关键是对这样的错误率如果控制在合理的水平就可以采用融合方式来提升实际的翻译效果。
2)从语料切分方式实验来看,不同的切分方式确实对实际
Computer Knowledge and Technology 电脑知识与技术
第17卷第10期(2021年4月)
影响很大。在细粒度字级训练结果中,一是注意力机制强依赖序列上下文的信息,而分字处理过程中屏蔽掉了序列中上下文信息,所以不管是对汉文还是对藏文,分字处理中‘字’之间的上下文信息很微弱。在训练过程中,模型无法学习到各个字之间的注意力信息,直接导致翻译效果极差,表4藏字汉字切分方式在实际测试集上的表现也体现了这一点。如果对藏文采用分词并对汉文采用分字处理,BLEU 最高可以达到27.8%的效果,这是是因为在训练过程中,模型学习到了藏文词与词之间的注意力,并且Transformer 对汉文字与字之间也能学习到一定的注意力。最后从平行语料都采用分词方式切分的实验可以看出,分词对藏-汉文翻译效果的提升具有较大的影响,通过良好的分词效果能让模型更全面的学习到序列词与词之间的注意力信息。使翻译效果更加全面,通过多次实验,得到实际的翻译效果如表5所示。
表5标准语料下模型翻译效果
语料粒度
语料\粒度
藏文、汉文分词
参考译文一:
ངས་ཁྱོཁྱོད་ལ་ན་ཟུག་འིཇགས་པའིའི་སྨན་ཅིའིག་སྟེརེར།|我会给你一个止痛药。普通语料标准语料词典+标准语料普通+标准语料优化语料
参考译文二:
ཁྱོརེད་ཀྱིའིས་ཉོའིན་རརེར་ཅིའི་ཞིའིག་བསམ་བཞིའིན་ཡོཁྱོད།|你天天都想些什么啊?普通语料标准语料词典+标准语料普通+标准语料优化语料
我可以给你开一些止疼药。我给您开个止痛药。我给您开止痛药。我会给你开一些止疼药。我会给你开止疼药的。
你每天都在想什么呢?你每天都在想些什么?你每天都在想什么?你每天都在想什么呢?你每天都什么想法?
藏文分词、汉文分字
我给你开一些止疼药。我能给您一种疼痛药。我给您一些痛苦的药。我给你开一些止疼药。我会给你开止疼药。
你每天都在想什么呢?你每天都在想什么呢?你每天都在想什么呢?你每天都在想什么呢?你每天都在想什么呢?
从翻译效果看,注意力机制的藏汉机器翻译模型具有学习
上下文关联信息学习能力,译文具有良好的准确性和流畅性。
3结语
从藏语文法结构来说,藏文不仅是简单拼音型文字,而且具有复杂的句法结构和多样的格变化形式;加之藏文信息化起步晚,藏文相关机器翻译发展始终没有较大的突破。本文顺应时代发展趋势,采用了最新的科技成果Transformer 模型,研究了藏汉机器翻译问题,实现了藏文-汉文基于Transformer 的机器翻译模型。在研究过程中可通过该模型生成藏汉伪平行语
料,可用于扩充现有匮乏的藏文-汉文平行语料库。第二为后
续的研究者提供了藏文-汉文的Transformer 机器翻译方法,也为扩充双语平行语料库提供了参考途径。接下来我们的工作中一是力求收集与保存更大规模、更高质量、领域覆盖面更广、更适应性的藏汉双语平行语料;二是探索最新的NLP 技术来提升低资源语言机器翻译的效果。一个方向是通过GAN 生成对抗网络来提升藏汉机器翻译效果,二是利用BERT 预训练模型来提高翻译效果。
参考文献:
[1]高芬,苏依拉,牛向华,等.基于Transformer 的蒙汉神经机器翻译研究[J].计算机应用与软件,2020,37(2):141-146,225.
[2]才藏太.基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[C]//全国多语言知识库建设联合学术研讨会,2010:161-166.
[3]臧景才,陈建新,李永虎.基于短语统计模型的藏汉在线翻译系统实现[J].电子技术与软件工程,2019(10):184-185.
[4]诺,扎西,完么扎西,等.基于统计的汉藏机器翻译系统关键技术研究与实现[J].高原科学研究,2018,2(2):97-104.[5]仁青东主,头旦才让,扎西.汉藏机器翻译研究综述[J].中国藏学,2019(4):2
22-226.
[6]李亚超,熊德意,张民,等.藏汉神经网络机器翻译研究[J].中文信息学报,2017,31(6):103-109.
[7]VASWANI A,SHAZEER N,PARMAR N,etal.Attention is all you need[EB/OL].[2019-12-16]./pdf/1706.03762.pdf.
[8]桑杰端珠.稀疏资源条件下的藏汉机器翻译研究[D].西宁:青海师范大学,2019.
[9]SUTSKEVER I,VINYALS O,LE V Q.Sequence to Sequence learning with neural networks[EB/OL].[2019-12-16]./pdf/1409.3215.pdf.
[10]He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition[C]//2016IEEE Conference on Computer Vi⁃sion and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778.
[11]BA J,KIROS J,HINTON G.Layer normalization[EB/OL].[2016-7-21]./pdf/1607.06450.pdf.
[12]SENNERICH R,BIRCH A,CURREY A,et al.The University of Edinburgh ’s neural MT systems for WMT17[EB/OL].[2019-12-16]./pdf/1708.00726.pdf.
【通联编辑:唐一东】
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论