机器翻译的研究必然伴随着翻译质量评价,质量评价是研究翻译领域不可或缺的反馈环节。评价译文质量的应用需求十分普遍,算法
不只机器翻译系统须要评测和对比,在译文的出版编辑、语言翻译教学等领域也须要对译文的质量进行评价。译文质量评价是一个性能
主观性较强的问题,评分的高低实质上是对评价者而言译文的可接受程度。同一个译文,不一样的评价者或同一个评价者屡次翻译的学习
结果可能并不彻底一致。测试
面对海量译文,人工评价显得愈来愈力不从心。尤为是在机器翻译快速发展的今天,须要快速发现译文中的错误、调节翻译系翻译
统中的参数、评价系统性能、进行不一样系统的比较等,使得质量自动评价的研究也成为热点。2010年,ACL首次将翻译评价标准和对象
机器翻译、系统综合一块儿列为统计机器翻译的三大研讨问题。排序
(1)根据研究对象的不一样来分类学习方法
(2)根据评价方式的不一样来分类语法
(3)根据实现的方法不一样来分类方法
在基于以上三点的状况下有从有无参考译文、评价粒度及对语言知识的依赖程度等进一步细分。
人类译文的自动评价更多的模拟专家评价的思想。人类译文自动评价的方式包括评分和诊断两类,实现评价是一般有加分法和减
分法两种:
加分法是经过累计正确的得分点的分数来对译文进行打分
减分法是基于译文中的错误从满分值中作减法。
大多数质量评价基于错误分类方案进行,即根据错误数及错误的严重程度实行减分。而错误分为两类,大错和小错。大错是指译文
基本成分的错,错误将致使语义混乱。小错是指使用了不恰当或不正确的表达方式或语法。固然,评价译文质量的高低经常还有一我的
们对错误的容忍度的问题,所以关于错误体系的构建成为核心研究问题,例如美国翻译家协会ATA将错误划分为22种类型,不一样类型的
错由不一样类型的分值。
对于学习者译文评价的研究也在开展,研究以加分法为主,首先须要有专家参与肯定译文的评分点,而后经过统计评分点的出现情
况并综合其余特征,如译文的形式特征、译文和原文的对其特征等进行回归分析,从而获得译文的评分。
机器译文自动评价的研究今年来如雨后春笋般出现,大体分为如下三类:诊断性评价、评分和排序。
诊断性评价:
诊断性评价今年来开展的工做最少,一种方法为人工将测试句中的重要语言测试点挑出来并分类,而后在机器译文中自动检测这些
测试点是否被正确翻译出来,从而评价译文质量。测试点分为词语、成语、词法、基本语法、中级语法和高级语法六类分别设定对质量
影响的权重而后利用加分法进行评分。另外一种方法提出的用于 “ 863 ” 机器翻译评测的WoodPecker,对检测点实现了自动提取,减小了
对人工的依赖。
评分:
评分是最多的自动评价方式。评价机器译文时,根据有无参考译文又分为两种研究。有参考译文的评价是经过将待评价译文和参考
译文做比较,根据类似程度评分,这种研究居多。而不须要参考译文的评分也称为译文质量估计。根据译文的特征将译文质量简单分为
“ 好 ” 或 “ 坏 ” ,或者区分人类译文和非人类译文。质量估计被用来作二分类问题。
有参考译文:
依赖参考译文的评价,参考译文就是标准答案,与参考译文越类似,译文质量越高,这个假设是评价算法的基本思想。而待求译
文和参考译文之间类似度的计算的方法多种多样,这些方法根据语言粒度能够分为词汇层面的类似和句子或语篇层面的类似,根据对语
言知识的依赖程度又能够分为非语言、轻语言和重语言。
非语言的方法一般不须要语言层面的分析来计算类似,常见的有四种:
(1)基于编辑距离的方法如WER、PER、TER等。
(2)基于准确率的方法如BLUE、NIST、SIA等。
(3)基于召回率的方法如ROUGE等。
(4)基于综合指标的方法如GTM、PORT等。
轻语言的方法须要利用一些语言信息进行质量评价,如词性POS、同义词典等。著名的算法有METEOR、METEOR-NEXT等
重语言的类似求解方法则对译文进行较多的语法或语义层面的分析,从句法结构、重述、近义、文本蕴含等语言方面计算待评价译
文和参考译文的类似度。
排序法:
排序法适用于对一组译文进行评价,根据质量高低排序。
评价排序的优势有三:
(1)人工评测是,排序比打分更容易
(2)人工排序的评价的一致性比打分一致性更高。
(3)更适用于系统之间的比较。
能够将BLEU得分、依存关系匹配、困惑度融合到SVM学习方法中,根据SVM的得分对一组机器译文的优劣进行排序。影响译文
质量的因素是多方面的,常见的包括译文的流利度和充分性或可理解性等。