基于机器学习的文学作品英译自动评价①
孙李丽1,  郭 琳2,  张文诺1,  文 旭3
1(商洛学院 人文学院, 商洛 726000)
2
(商洛学院 电子信息与电气工程学院, 商洛 726000)3
(西南大学 外国语学院, 重庆 400715)
通讯作者: 郭 琳摘 要: 为了提高文学英译作品自动评价的水平, 引入基于机器学习的智能算法模型成为当前最有效的方法. 首先研究文学作品的翻译规则和特殊性, 建立基于变量特征的翻译评价指标体系; 然后利用Python 语言平台, 英译文本经Stanford Parser 、NLTK 等工具包过滤预处理之后, 采取VSM 向量空间模型获得特征编码和特征度, 再输入到Random-RF 、Original-RF 和AHP-RF 算法模型中训练学习, 完成翻译质量评价与分析. 实验结果表明, 融合层次分析法、灰关联法和随机森林算法的AHP-RF 模型的分类效果优于其它2种, 同时人工译本相较于其它4种机器译本, 质量评分高、分类错误率小, 评价结果与实际翻译情况吻合.关键词: 机器学习; 随机森林; AHP-RF; 自动评价
引用格式:  孙李丽,郭琳,张文诺,文旭.基于机器学习的文学作品英译自动评价.计算机系统应用,2021,30(3):196–201. /1003-3254/7823.html
Automatic Evaluation for English Translation of Literary Works Based on Machine Learning
SUN Li-Li 1, GUO Lin 2, ZHANG Wen-Nuo 1, WEN Xu 3
1(School of Humanities, Shangluo University, Shangluo 726000, China)
2
(Electronic Information and Electrical Engineering College, Shangluo University, Shangluo 726000, China)3
(College of International Studies, Southwest University, Chongqing 400715, China)
Abstract : The intelligent algorithm model based on machine learning has become the most effective method at present to improve the automatic evaluation for the English translation of literary works. First, the translation rules and particularity of literary works are studied, and the index system of translation evaluation based on the variable features is established.Then, with the aid of the Python language platform, after the English translation is filtered and preprocessed by tools such as Stanford Parser and NLTK, the feature codes and feature degree are obtained with the Vector Space Model (VSM).Furthermore, the results are input into the Random-RF, Original-RF, and AHP-RF algorithm models for training and learning. Thus, the evaluation and analysis of translation quality are completed. The experimental results show that the AHP-RF model combining the analytic hierarchy process, the grey correlation method, and the random forest algorithm has better classification than the other two. Meanwhile, compared with the other four machine translation versions, the manual translation has a high quality score and a low classification error, and the corresponding evaluation results are consistent with the actual translation.
Key words : machine learning; random forest; AHP-RF; automatic evaluation
计算机系统应用 ISSN 1003-3254, CODEN CSAOBN
E-mail: Computer Systems & Applications,2021,30(3):196−201 [doi: 10.15888/jki.csa.007823] ©中国科学院软件研究所版权所有.
Tel: +86-10-62661041
① 基金项目: 商洛文化暨贾平凹研究中心开放课题 (17SLWH09); 商洛学院服务地方项目 (18SKY-FWDF009); 国家社会科学基金重大项目 (15ZDB099)Foundation  item: Open  Fund  of  Shangluo  Culture  and  Jia  Pingwa  Research  Centre  (17SLWH09); Service  Local  Project  of  Shangluo  University  (18SKY-FWDF009); Major Program of National Social Science Foundation of China (15ZDB099)
收稿时间: 2020-07-09; 修改时间: 2020-08-11, 2020-08-19; 采用时间: 2020-08-21; csa 在线出版时间: 2021-03-03
196
机器翻译效率高、成本低, 随着人工智能技术发展得到广泛应用, 同时人们对翻译质量的诉求也越来越高. 衡量一个翻译作品的质量主要看是否忠于源语,以及目标语的语法、语义错误和优美程度, 特别是地域文化和方言气息浓厚的文学作品, 译文不仅要准确描述内容情节, 还要真实表达人设、历史、社会和文化环境, 因此翻译评价和机器翻译类似, 需要对作品解码和重新编码, 通过融合和训练, 合理科学评价作品翻译质量. 智能翻译评价系统需要算法或者模型来完成文本变量特征的表征[1], 再通过规则构造评价权重集,最后用匹配模型实现译文的评价和分析. 目前已有专家开始探索定性或定量的翻译质量评价方法. 哈尔滨工业大学的赵铁军等最先提出人工评价和自动评价思路, 利用句子相似度评价EBMT系统翻译质量[2]; 其后苏州大学的周国栋等总结自动评价的3个方面, 包括语言学检测点、字符串匹配和机器学习[3]; 厦门大学的周敏康等提出用层次分析法和模糊数学模型定量评价机器译文翻译质量[4]; 中国科学院的刘等提出融合策略, 多角度综合评价方法, 比如在Blend上, 对比使用SVM和FFNN两种机器算法[5]; 北京交通大学的刘明童等提出利用跨语句注意力机制构建BP复述识别模型, 提高翻译准确性[6]. 关于文学作品机器翻译和评价出现较晚, 相关翻译评价模型, 需要结合作品语言特点改进机器评价方法, 提高自动翻译评价水平. 本文提出一种融合策略, 充分利用层次分析法中专家打分的主观能动性和灰关联度法中相似行为映射结果的客观科学性, 以及随机森林算法中的集成学习策略和分类评价优势, 建立面向文学作品翻译的评价指标体系和模型, 并通过地方戏剧译本实验验证.
1  机器翻译评价方法
翻译评价以实现作品翻译的准确性和真实性为目的, 对机器翻译中固有或潜在的影响因素进行分析, 掌握译文发生畸变及其和原文之间相似程度, 从而制定出评价指标体系和评价模型. 本文研究一种基于机器学习的英译文评价方法, 评价整体流程如图1所示. 先对输入的译文样本进行数据预处理, 通过建立的评价指标体系得到文本变量特征; 由软件抽样把训练样本送至3种随机森林决策树中, 通过其中的分类器进行性能评估, 得到分类结果和评价错误率, 同时由建立的AHP-GRA模型计算评价结果.
图1    评价整体流程图
2  翻译评价指标体系
2.1  评价指标体系的建立
提出的翻译评价指标体系是建立在文学作品英译本基础上, 进行定量和定性地评价作品翻译质量, 此种评价方法不仅要考虑常规文本翻译方法, 还要考虑文学作品的语言因素, 兼顾翻译技巧的一般性和文学特殊性. 陕西的乡土小说《带灯》[7]经改编之后的商洛花鼓现代剧剧本, 带有复杂交织的人物感情和差
异性地域特, 里面出现大量方言和充满影射、隐晦的口语, 以及原作的创造性地方特语言, 包括人物对话、俚语和言外之意等. 本文以地方戏剧为例, 通过对《带灯》的实地调研和翻译实践, 分析了戏剧翻译的技法和特, 同时开始研究人工翻译和机器翻译的联系和区别, 结合相关翻译评论和作者已有研究[8–10], 设计文学作品英译质量评价体系, 如表1所示, 其翻译质量影响包括一般翻译技法-静态变量特征g[T]、作者定位-动态变量特征h[T]、作品定位-辅助变量特征p[T]和译者主体性-参考变量特征s[T]四类一级指标, 以及他们所属的19个二级指标. 一般翻译技法分析了文学作品翻译的常规影响变量, 包括语法、句型、词汇、语言、相关性和优美性; 作者定位分析了设定人物的传统伦理、物质精神条件、人与自然社会的关系; 作品定位分析了作品需要表达的历史、社会、人性和当地自然因素; 译者主体性分析了译者对原文的喜爱与信任、理解和侵入、吸收和传播、偏差和补偿等.
2.2  文本特征度的提取
利用Python语言平台[11], 把机器和人工翻译的文学作品英译文输入到相关模型工具包, 过滤不完整或有冗余噪音的文本数据, 分析语法、语义和语境, 然后采取向量空间模型VSM方法(把文本内容处理为向量空间中的向量运算, 并以空间相似度表达语义相似度)[12], 用特征向量表征每一段文本, 同时包含特征项T x和特征度, 特征度是影响系统评价结果的关键因素.为了提高特征度获取的精度和速度, 先采用Stanford Parser (Stanford NLP提供的一种词性语法分析工具)[13]和NLTK(一种基于Python的自然语义处理库)[14]进行
2021 年 第 30 卷 第 3 期计算机系统应用
197
文本初过滤和提取处理(包括词性和句型标注、平均、局部最大值及最小值、词频加权、位置加权、句法分析等); 然后利用Doc2Vec 方法(一种随机文本获
得固定长度特征的无监督算法工具)[15,16]提取静态变
量特征, 利用K-means(一种迭代求解的聚类分析算法)[17]提取动态变量特征, 利用LDA 模型(一种基于三层贝叶斯概率的文档主题生成模型)[18]提取文本辅助和参考变量特征, 获得文本的编码和特征度.
表1    文学作品英译质量影响变量特征库W [i ]
文本库
编号特征特征描述
参考特征度权重g [T ]一般翻译技法-静态变量
T 1句型句型设计符合原文的程度0~100%x 1T 2语法语法设计符合原文的程度0~100%x 2T 3地方词汇
地方词汇翻译准确程度0~100%x 3T 4地方语言地方语句翻译准确程度0~100%x 4T 5对话相关性对话语句的相关合理性1~5x 5T 6对话优美性对话语句的相关优美性1~5x 6h [T ]作者定位-动态变量
T 7传统伦理人物传统思想观念的符合程度0~100%x 7T 8
人物物质条件人物生活条件描述的符合程度0~100%x 8T 9人物精神条件人物精神状态描述的符合程度0~100%x 9T 10人与自然关系人物在努力改变自然环境, 或被环境同化Y/N x 10T 11人与社会关系人物在影响、同化别人, 或被影响、同化
Y/N x 11p [T ]作品定位-辅助变量
T 12
历史定位因素表达作品历史背景突出程度0~100%x 12T 13社会定位因素表达作品社会文化突出程度0~100%x 13T 14人性定位因素表达作品人性差别突出程度0~100%x 14T 15自然定位因素表达作品自然环境迥异程度0~100%x 15s [T ]译者主体性--参考变量
T 16
喜爱和信任译者对原文喜爱和信任程度0~100%x 16T 17理解和侵入译者对原文理解与认知程度0~100%x 17T 18吸收和传播译文吸收原文精髓信息程度0~100%x 18T 19
偏差和补偿
译者对译文质量的诠释说明
1~5
x 19
3  文学作品英译评价模型
3.1  AHP-GRA 模型
AHP-GRA 模型在层次分析法的基础上融合了灰关联度算法[19,20], 是一种无监督学习模型. 层次分析法将半定性、半定量问题转化为定量问题, 对专家主观打分的依赖性强, 而灰关联度算法是根据序列几何形状的相似性来确定序列重要关系, 强调行为结果的客观性, AHP-GRA 模型兼顾了二者优点. 通过层次分析法计算出所有指标的基础权重x i , 然后构建评价指标重要性判断矩阵V , 然后确定比较集列和最优指标集, 再对指标进行离散性的规范量化, 然后通过式(1)计算翻译评价指标的关联系数, 经过加权求和得到翻译译文的加权关联度. 式(1)中δ为翻译分辨系数,本文取0.5; δj 为翻译质量关联系数. 通过式(2)得到灰关联系数矩阵R , 再结合前面的权重矩阵V , 由式(3)计算得到灰关联度值S
, T 为文本特征.
根据灰关联度值对翻译准确度进行分级评价,当评价指标关联度值为0.8~1时认为译文水平优秀,为0.6~0.8时认为优良, 为0.4~0.6时认为一般, 为0~0.4时认为译文不准确.
3.2  随机森林算法
随机森林算法是一种基于集成学习Bagging 算法建立的包含多个决策树的随机分类器, 准确度高、处理能力强, 适合于分类和变数评估等问题[21]. 原始Original-RF 森林算法, 是一种基于Boosting 算法的依赖串行生成序列化方法, 先初始训练得到基学习器, 然后调整样本训练下一个基训练器, 如此重复达到基训练器预期数目, 最后将所有基训练器加权结合得到分
计算机系统应用
2021 年 第 30 卷 第 3 期
198
类结果; 随机抽样Random-RF森林算法是基于Bagging 算法的改进版, 产生相对独立和差异化的基训练器集合, 通过Bootstrap自助采样, 如图2所示, 引入决策树结构, 从根节点开始将数据样本根据特征进行分类, 每个类别决策树通过Bootstrap抽样产生一个训练集, 重复随机抽取n次的N个样本数据. 决策树数量根据所选取的译文长短确定, 随后在生长过程中以指数最小原则选出符合评价指标体系中若干特征变量的最优集合, 通过构建的N个决策树形成随机森林. 将测试样本集输入到随机森林, 由最大投票数的分类结果作为翻译评价的输出结果.
文本集抽样
N
1
N
2
N
i
...
...
决策树分类 1
决策树分类 2
决策树分类N
投票
决定
最优
分类
图2    随机森林算法示意图
3.3  AHP-RF评价模型
通过研究AHP-GRA模型和随机森林算法的优点,建立融合算法的文学英译作品评价模型AHP-RF, 如图3所示, 由随机森林算法得到分类结果和分类错误率, 再由AHP-GRA模型得到译文翻译质量评价值. 作品英译文的训练样本集通过工具包预处理后, 得到文本特征数据T1~T19, 通过Bootstrap再从对应训练集中抽取N个样本构成N个决策树, 不剪枝完全自然生长得到随机森林分类器, 通过多数投票表决得到分类结果和分类错误率; 最后将测试样本集输入到模型AHP-GRA中, 经过分层加权关联度计算, 得到译文翻译质量评价值.
文学作品英译文样本集
译文训练样本集 1
译文测试样本
多数投票
译文评价结果AHP-GRA
译文训练样本集 2译文训练样本集N
决策树 1决策树 2
分类结果和错误率决策树N
文本特征数据
数据预处理
Bootstrap 抽样
...
...
图3    AHP-RF作品翻译评价模型4  实验结果分析
本文以地方戏剧《带灯》剧本为源语文本, 以作者的人工英译本和百度、谷歌、有道、搜狗4种在线机器英译文为评价样本集. 机器翻译方法和人工翻译类似, 是对小说解码和重新编码的过程, 并非机械化般无情, 而是中西方语言文化的一次融合和训练, 从英语译文中到原作的词义、语义和语境. 在实验过程中,树节点变量数目和决策树数目非常关键, 决定了系统的评价错误率. 例如图4示例所示, 当决策树节点变量数目为左边的5时, 译文语义符合原文, 模型对于文本的误判率均值不同, 需要选择误判率均值最低时的变量数目. 当错误率趋于稳定不变, 此时决策树数目设定不变.
She
The
The Floor
Flower-
shelves
Flower-
shelves
Pushed over
She
The The Floor
Pushed over
onrandom翻译
on
图4    相同词序列的不同句法结构示例
通过Bootstrap从表1中的4个一级特征和19个二级特征中抽取19个文本特征, 带入本文的AHP-RF模型, 得到19个分类结果, 如图5所示.
T1T3T5T7T9T11
特征名称
T13T15T17T19
图5    AHP-RF二阶特征项权重
图5中各个特征的权重值, 其中最重要的第一层次特征项是地方语言(0.123)和地方词汇(0.115), 接下来第二层次是人物物质条件(0.093)和人物精神条件(0.090), 第三层次是语法(0.085)和句型(0.081), 第四层次是人性因素(0.064)和译者喜爱和信任(0.054), 之后的特征项权重小于平均值, 说明以上变量特征是影响实验样本翻译水平的重要指标; 其中最低层次是人与自然的关系(0.016)、偏差和补偿(0.016)和自然定位因素(0.012), 说明此类指标在翻译评价体系中的影
2021 年 第 30 卷 第 3 期计算机系统应用
199
响最小. 然后用AHP-GRA 算法把测试样本进行分级评价, 得到M 组分段样本的19×M 个灰关联度, 再分级评价得到离散化的数据文本. 通过实验得到机器1~4的译文评价值分别为0.53, 0.57, 0.44和0.62, 人工英译本的评价值为0.83, 其中机器4的译文水平达到优良, 翻译质量高于其他3种, 而人工译文水平达到优秀, 翻译质量明显优于机器翻译.
通过原始Original-RF 森林算法、随机抽样Random-RF 森林算法和本文的AHP-RF 算法, 分别计算输出分类结果性能指标错误率(error rate), 如图6至图8所示的不同决策树数量下译本集的各种模型算法分类
错误率对比, 随着决策树数目的增加, 分类错误率明显下降,并且当决策树数目增长到200附近时, 分类错误率趋于稳定, 所以针对选取的实验样本, 确定200是其最优的分类决策树数量.
20
40
70
100150决策树数目 (Original-RF 算法)
200300400500
机器 1机器 2机器 3机器 4人工译文
图6    Original-RF 算法的错误率结果
20
4070100150决策树数目 (Random-RF 算法)
200300400500
机器 1机器 2机器 3机器 4人工译文
图7    Random-RF 算法的错误率结果
20
40
70
100150决策树数目 (AHP-RF 算法)
200300400500机器 1机器 2机器 3机器 4人工译文
图8    AHP-RF 算法的错误率结果
如图9所示, 在相同决策树数量200下各种译本集的3种随机森林算法分类错误率对比, 基于文本特征分层抽样的AHP-RF 算法的分类错误率最低, Random-RF 算法次之, Original-RF 算法最高, 并且人工译文的错误率小于其他4种在线机器. 评价结果与实际翻译
情况较为吻合, 说明文本提出的翻译评价方法是可行的.
机器 1
机器 2
机器 3
机器 4机器 5
Original-RF 算法Random-RF 算法AHP-RF 算法
图9    不同随机森林算法的错误率对比结果
5  结论
通过对翻译评价方法的研究, 建立了文学作品翻译的评价指标体系和AHP-RF 评价模型, 并通过地方戏剧《带灯》的5种译本作为实例, 进行了翻译质量评价与分析, 实验结果表明, 融合层次分析法、灰关联法和随机森林算法的AHP-RF 模型, 输入样本有效完成了变量特征分类, 为翻译作品的质量评价奠定了基础. 按照权重大小排位前八的依次是地方语言、地方词汇、人物物质条件、人物精神条件、语法、句型、人性因素和译者喜爱和信任, 处于最低层的依次是人与自然的关系、偏差和补偿和自然定位因素; 人工译本的评价结果高于其它4种机器译本, 分类错误率小于其它4种机器译本, 评价结果与实际翻
译情况吻合; AHP-RF 模型的分类效果优于Random-RF 和Original-RF, 并且当决策树数目为200时, 该实验样本的分类错误率下降趋于平衡状态.
参考文献
吴彦文, 黄凯, 王馨悦, 等. 一种融合主题模型的短文本情
感分类方法. 小型微型计算机系统, 2019, 40(10): 2082–2086. [doi: 10.3969/j.issn.1000-1220.2019.10.010]
1姚建民, 周明, 赵铁军, 等. 基于句子相似度的机器翻译评
价方法及其有效性分析. 计算机研究与发展, 2004, 41(7):
1258–1265.
2李良友, 贡正仙, 周国栋. 机器翻译自动评价综述. 中文信
息学报, 2014, 28(3): 81–91. [doi: 10.3969/j.issn.1003-0077.
3计算机系统应用
2021 年 第 30 卷 第 3 期
200

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。