神经机器翻译中的曝光误差,幻觉翻译与跨域稳定性

⬆⬆⬆ 点击蓝字web

关注咱们算法

AI TIME欢迎每一位AI爱好者的加入!跨域

摘要:神经机器翻译中的标准训练策略存在曝光误差问题。即便已有研究提出缓解曝光误差方法,可是曝光误差形成的实际影响仍然存在争议。微信


本文,咱们将曝光误差与神经机器翻译中另外一个普遍讨论的问题,即跨域下产生幻觉翻译联系起来。经过三个数据集多个测试域的实验,咱们证明曝光误差是致使幻觉翻译的缘由之一。使用最小风险训练模型,避免暴露误差,便可减轻幻觉翻译。咱们的分析实验解释了为何曝光误差在跨域的场景下会形成更严重的问题,而且证明了曝光误差与束搜索矛盾问题(即增长搜索束宽性能恶化)之间的联系。架构


本文的实验发现为减小暴露误差的相关方法提供了一个新的佐证:即便它们不能提升域内测试集的性能,它们仍旧能够提升模型的跨域稳定性。dom


王朝君,爱丁堡大学,爱丁堡大学信息学院科研助理,导师为Alexandra Birch。主要研究方向神经机器翻译,已在相关领域的国际顶级会议ACL发表论文。svg


1、幻觉翻译和曝光误差的概念函数


本次分享的内容主要是一篇分析文章,这篇文章主要联系了目前领域中的几个理论问题和实际问题,好比:曝光误差(Exposure Bias),幻觉翻译(Hallucination),以及神经机器翻译的跨域稳定性。此外还提出了一种新的可视化的方法,针对模型的曝光误差。性能


首先,对幻觉翻译作一个说明。幻觉翻译指的是模型产生的翻译和原文在内容层面是不相关的,可是没有语法方面的错误。举一个例子:给模型输入一个德语句子,原意为:她发现了咱们。可是模型会把它翻译成:若是他们的症状和你同样。以前的研究和本次的工做都发现这样的幻觉翻译在模型的跨域翻译情景下很常见。跨域稳定性的实际意义在于当用户使用的目标领域未知或者在低资源状况下,没有充足的目标领域并行语料。这篇文章从幻觉翻译的角度探究模型的跨域稳定性。学习


当前的端到端神经机器翻译模型中有一个你们广泛认知的理论缺陷,它就是曝光误差。曝光误差指的是模型训练与预测过程之间的不匹配。在训练时每个词输入都来自真实样本,可是在推断时当前输入用的倒是上一个词的输出,因此这样的不匹配你们称之为曝光误差。像MRT最小风险训练这样序列级的训练损失函数在理论上能够避免曝光误差的产生,可是在学界对曝光误差实际产生的影响仍然存在争议。在这篇论文的工做中,假设曝光误差可能致使跨域下的幻觉翻译问题。因此文章探究两点:第一,曝光误差是不是致使幻觉翻译的缘由之一;第二,采用MRT损失函数训练模型以后是否能减少幻觉翻译的出现从而提高跨域稳定性。


2、MRT对跨域翻译稳定性的影响


咱们对上述问题进行了实验验证。实验使用两个语言对,德语到英语(OPUS)和德语到罗曼什语(Allegra/Convivenza),括号中是语料的来源。德语到英语的训练集使用的是医疗领域语句,而测试集语句则是关于IT,法律,古兰经以及电影或电视字幕。对于德语到罗曼什语,训练集使用的是法律领域语句,测试集语句是博客相关的语料。咱们采用Transformer做为模型架构。首先使用最大似然函数训练模型,做为基线。而后使用MRT精调基线,做为对比模型。



能够看到通过一系列的超参数的搜索,在测试集上进行评估以后,最终的结果呈如今上图中。蓝色的表明基线模型,红色表明MRT精调以后的对比模型。在两个语言对上,在同域(In-domain)的测试集下,MRT对比基线在稳定性上没有很大的提高,即翻译质量没有很明显的提高。可是在跨域(Out-of-domain)的测试集中它有一个比较明显的提高,比基线高出了07-0.8的稳定性。



进一步的对测试集中存在的幻觉翻译比例进行了人工评测。人工评测环节要求评测员对翻译的句子进行两个分类打分,首先对于翻译的流畅性从流畅、部分流畅、不流畅这三个程度进行打分。而后给评测员正确的翻译结果,从内容的充足性上进行充足、部分充足、不充足三个程度进行打分。最终被分类为部分流畅或流畅以及不充足的翻译句子归为幻觉翻译。从上面的表能够看到,在MRT精调以后跨域翻译的幻觉比例从33%降低到了26%。到目前为止,经过实验证明了MRT能够缓解跨域翻译下的幻觉翻译比例,从而提高跨域稳定性。可是仍是不清楚这样的提高是否来自于曝光误差的减少。


为了更进一步分析这个问题,因而经过可视化,观察随着MRT的精调,模型对于误差有着怎么样的变化趋势。文章所提出的方法,具体来讲就是模型对正确标记的翻译和随机抽样的句子的每一个token的几率进行打分,而后将结果可视化。这里随机抽样的句子来自于和训练语料领域一致的测试集,而且最终选取的句子长度必须和正确的翻译同样。所以,这个随机抽样的句子至关于一我的造的幻觉翻译。



以上是通过不一样updates的可视化结果,本次实验是在德语到英语的跨域测试集上进行的。能够看到在MRT 0 updates时,其至关于基线模型,它在前几个迭代时间还可以对人造的幻觉进行区分,但随着错误的翻译历史慢慢输入,就可以发现它不能区分或者说不能给予正确翻译更高的分数。可是随着MRT的训练,理论上它的曝光误差会慢慢减少。首先忽略从0到500 updates,由于这一部分总体的几率的提高是由于在基线模型中进行了标签平滑,可是在MRT的训练函数中去掉了标签平滑,因此模型对翻译的置信度有所提高。因此咱们主要关注updates从500,1000,2000,3000,从图片中能够明显看到MRT的精调会使得模型会给幻觉翻译一个更大的惩罚,即模型可以区分出reference和distractor,这两个曲线之间的缝隙也会愈来愈大,这意味着幻觉翻译的比例也会慢慢减少。



一样的现象出如今了同域的测试集中,最开始总体几率上升,500以后模型对distractor有一个下压。虽然MRT对幻觉翻译的误差有一个减缓效果,可是因为最开始MRT对reference有一个很是高的几率估计,达到了0.65,而在前面跨域测试集下,只有0.2的几率估计,因此即便模型存在曝光误差,到后期他们之间的缝隙逐渐减少,可是最终的总体几率仍是没法超越reference。能够说在同域的状况下曝光误差带来的实际问题就被隐藏了,所以序列集的训练函数,例如MRT,所带来的提高被隐藏了。因此说到目前为止,经过分析实验证明了文章的假设。



基于以上实验,进行了进一步的假设,认为以前实验所发现的束搜索悖论问题(随着束宽增大到必定程度,翻译质量会降低)和曝光误差有关。。因而使用束宽分别为一、四、50进行了测试。能够看到,随着束宽增大,幻觉翻译的比例发生了上升,即使MRT精调以后也没有缓减这个现象。可是缓减了上升的幅度,从44%降低到了33%。同时在稳定性上能够看到束宽4到50有所降低,可是通过MRT精调后降低幅度有所缓减,从16%降低到9%。


3、结论


这篇文章对曝光误差这个理论缺陷提出了新的问题,即幻觉翻译问题。经过实验证明了经过MRT模型能够减少跨域翻译的幻觉翻译比例,从而提高神经模型的跨域稳定性。更重要的一点,本实验给序列级的目标函数提供了新的佐证,即便它不能对同域的翻译质量进行一个比较明显的提高,但可以提高模型的跨域稳定性。


嘉宾问答:


请问一下in-domain的曝光偏置问题严重吗  如今有什么比较有用的方法吗?

目前的研究发现in-domain下曝光误差所带来的实际问题并非很严重,能够参考一下这篇文章 https://arxiv.org/pdf/1905.10617.pdf。解决曝光误差方法研究大概分两类,一类是强化学习类的方法,把模型的翻译与reference的metric做为RL的reword,咱们工做中用到的MRT也算做这一类;另外一类是schedule sampling类,基本思想是模拟模型的预测过程来训练模型,好比ACL2019 best paper就属于这一类。




整理:闫昊

审稿:王朝君

排版:田雨晴


本周直播预告:


AI Time欢迎AI领域学者投稿,期待你们剖析学科历史发展和前沿技术。针对热门话题,咱们将邀请专家一块儿论道。同时,咱们也长期招募优质的撰稿人,顶级的平台须要顶级的你,请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY



 

AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,增强思想碰撞,打造一个知识分享的汇集地。

更多资讯请扫码关注




(点击“阅读原文”下载本次报告ppt)

(直播回放:https://b23.tv/DDkF5J)



本文分享自微信公众号 - AI TIME 论道(lundaoAI)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索