神经机器翻译推断阶段信心校准研究

本论文由腾讯 AI Lab 和清华大学合做完成，做者提出了一种评估神经机器翻译模型在推断场景下信心校准误差的方法，并发现Transformer模型的信心尽管在训练场景中校准较好，可是在推断场景中仍然存在较大的校准误差。如下为论文的详细解读。安全

On the Inference Calibration of Neural Machine Translation并发

基于几率的机器学习模型在给出预测结果的同时，每每会输出一个对应的信心指数(i.e., confidence)，该信心指数能够表明模型对自身预测结果的正确性的一个估计。在金融、医疗等安全等级较高的场景中，咱们但愿模型不但有较好的预测精度(i.e., accuracy)，而且可以作到“知之为知之，不知为不知”，对预测结果的正确性有准确的估计。机器学习

咱们能够设想一个场景：在一个共同抗击疫情的各国联合医疗队中，各国医护人员可使用机器翻译系统进行交流。在涉及患者病情的关键性描述中，咱们要求机器翻译系统要如实反映其对翻译结果的信心。对于模型不自信的翻译结果，咱们能够请语言专家有针对性的进行后处理，对于大部分模型自信的结果，咱们能够直接使用。因而可知，对自身输出结果是否有一个准确的信心估计，是衡量机器翻译模型可否实际部署的重要性质。ide

量化模型对预测结果信心校准误差的前人工做大可能是在分类任务上开展的。可是，不一样于分类任务的单一输出，包括机器翻译在内的生成式天然语言任务的输出都是序列化的，而且每每具备潜在的语义结构。如何评估序列化生成模型的信心校准误差依然是一个还没有解决的问题。学习

在本文中，咱们对指望校准误差(Expected Calibration Error, ECE)进行了扩展，使其可以应用到序列化生成任务中来。具体地，ECE在计算方式以下：测试

咱们首先将模型在测试集中全部预测的token分为M组，分组的标准是每一个token对应的信心指数（具体地，咱们使用模型的翻译几率做为信心指数），信心指数相近的token会被分到同一组。在每一组中咱们计算全部token的平均准确率和平均信心指数。对全部组的平均准确率与平均信心指数的误差进行加权平均，将会获得最终的ECE结果。编码

为了计算ECE，一个关键是如何量化每一个token的准确性。为此，咱们使用TER方法在模型译文和参考译文之间创建一个对应关系，并根据TER的标注决定每一个token的正确性：spa

至此，咱们就可使用ECE量化序列化生成模型在推断场景下的信心校准误差了。翻译

在实验中，咱们比较了机器翻译模型分别在训练与推断场景下信心校准误差的状况：设计

能够看到模型在推断阶段的ECE远远高于在训练阶段的ECE (15.83 > 1.39)，说明推断阶段的信心校准误差对目前的机器翻译模型来讲仍然是一个问题。为了深刻理解模型信心校准的特性，咱们分析了信心失准的token的语言学性质。首先，咱们比较了不一样频率的token的特性：

实验发现模型在高频词上更不容易发生信心失准，而在中低频词上更容易发生信心失准。咱们从相对位置、繁殖力、词性、词粒度等角度分析了模型的信心校准状况，详情请见论文。

为了探究当前深度学习技术与模型信心校准性质的影响，咱们受 Guo et al., 2017 的启发，研究了正则化技术对机器翻译模型的影响：

实验发现，dropout和label smoothing这两个在Transformer模型中很是经常使用的正则化技术有利于下降模型的ECE。基于实验发现，咱们提出了一种Graduated label smoothing的方法，能够进一步减少模型在推断场景下的ECE。具体地，咱们的设计思想是对训练集中模型自己预测几率较高的样例使用较大的smoothing系数，对于预测几率较低的样例使用较小的smoothing系数。

咱们还分析了ECE与模型大小的关系：

实验发现尽管增大模型会提升翻译的BLEU值，可是也会致使模型的ECE升高，这是增大模型参数量的一个弊端。另外咱们发现这个问题能够经过只增大编码器，保持解码器不变这一简单策略在必定程度上缓解。