哈佛大学提出变分注意力:用VAE重建注意力机制

注意力 (attention) 模型在神经网络中被普遍应用,不过注意力机制通常是决定性的而非随机变量。来自哈佛大学的研究人员提出了将注意力建模成隐变量,应用变分自编码器(Variational Auto-Encoder,VAE)和梯度策略来训练模型,在不使用 kl annealing 等训练技巧的状况下进行训练,目前在 IWSLT German-English 上取得了很是不错的成果。git

1532592977905.png

  • 论文连接:https://arxiv.org/abs/1807.03756v1github

  • 相关代码:https://github.com/harvardnlp/var-attn网络

1、背景 ide

近年来不少论文将 VAE 应用到文本生成上,经过引入隐变量对不肯定性进行建模。不过这会致使一个常见的 KL collapsing 问题,致使的现象就是直接训练的 VAE 获得的 KL 接近于 0,也就意味着近似后验和先验同样,隐变量被模型所忽略。函数

为了解决这个问题,在哈佛研究人员的工做中,注意力被建模成隐变量,因为解码器 (decoder) 和译码器 (encoder) 之间的主要信息传输通道是经过注意力来传输的,若是忽略了这个隐变量,就会因没法获得源文本的信息而获得很大的惩罚 (penalty)(这相比以前的许多工做中直接把隐变量加入到每一个解码步骤不一样,由于那样即便解码器忽略了隐变量,也能够达到很好的模型表现)。所以经过直接优化目标函数才能使得这个隐变量也不易被忽略,研究人员的实验彻底验证了这一点。工具

值得注意的是,研究人员将注意力建模成隐变量并非单纯为了应用 VAE 这个工具,而是由于研究人员认为将注意力建模成隐变量能够为解码器提供更干净 (clean) 的特征,从而在不增长模型参数的状况下提升模型的表现能力。学习

2、实验效果 flex

1532592937499.png

与传统的注意力机制进行对比,传统的注意力机制仅能经过以前生成的单词肯定当前即将生成单词的注意力(上图蓝色部分,仅能观测到已经预测的单词,因为存在多种翻译方式,所以会注意到和实际翻译的单词并不对应的位置),研究人员经过所有的源文本和目标文本去获得更准确的后验注意力(上图红色部分,经过所有信息获得后验,所以注意力和实际翻译应该与注意 (attend) 的源单词对应),并把更好的后验注意力提供给解码器,从而使解码器拿到更为干净的特征,藉此但愿获得更好的模型。优化

3、核心思想 编码

方法:假定 x 是源文本,y 是目标文本,z 是注意力,根据标准的 VAE 方法,研究人员引入推理网络 (inference network) q(z | x, y) 去近似后验,那么 ELBO 能够表达为(为了方便,只考虑目标文本只有一个单词的状况):

1532592937851.png

上面不等式的右侧是 ELBO,其中第一项是从 q(z | x, y) 中采样出注意力,使用采样出的注意力做为解码器的输入计算交叉熵损失,第二项是确保后验分布接近于先验分布(注意到此处的先验和通常的 VAE 不一样,这里的先验是和模型一块儿学习的)。此时的 p(z | x) 和 q(z | x, y) 都是分类分布的,所以咱们使用梯度策略去优化上面的目标函数。

因为此时的后验 q 能看到所有的 x 和 y,所以后验中采样的注意力能够比先验 p(z | x) 好,好比如下的例子:

1532592940584.png

这里须要把德语(纵向)翻译成英语(横向),红色表明先验(即只观测到 x 而不观测到 y 的 p(z | x)),蓝色表明后验(即观测到所有信息的 q(z | x, y))。注意到在第二个单词「actually」处,红色的先验试图注意到「nun」后面的逗号「,」,从而试图生成一个「well,」的翻译结果,然而实际的英语翻译中并无逗号,而是直接是」well actually」,因为后验 q(z | x, y) 能够看到实际的翻译,所以蓝色的后验正确地注意到了「tatsachlich」上。注意到训练目标 ELBO 中咱们从后验 q 中采样注意力给解码器,所以经过使用 VAE 的方法,解码器获得了更准确的注意力信号,从而提升了模型的表达能力。

4、展望

注意力方法是天然语言处理等领域广泛存在的工具,但它们很难用做隐变量模型。这项工做经过具备良好实验结果的变分注意力机制来探索潜在对齐的替代方法。研究人员同时也表示将来的工做将实验规模较大的任务和更复杂的模型,如多跳注意力模型 (multi-hop attention models),变压器模型 (transformer models) 和结构化模型 (structured models),以及利用这些潜在变量的可解释性做为一种方式去将先验知识进行结合。

理论 注意力模型 神经网络 哈佛大学 变分自编码器
1