哈佛大学提出变分注意力：用VAE重建注意力机制

时间 2021-01-20

原文原文链接

注意力 (attention) 模型在神经网络中被广泛应用，不过注意力机制一般是决定性的而非随机变量。来自哈佛大学的研究人员提出了将注意力建模成隐变量，应用变分自编码器（Variational Auto-Encoder，VAE）和梯度策略来训练模型，在不使用 kl annealing 等训练技巧的情况下进行训练，目前在 IWSLT German-English 上取得了非常不错的成果。论文链接：