哈佛大学提出变分注意力：用VAE重建注意力机制

时间 2020-06-06

标签哈佛大学提出变分注意力 vae 重建机制繁體版

原文原文链接

注意力 (attention) 模型在神经网络中被普遍应用，不过注意力机制通常是决定性的而非随机变量。来自哈佛大学的研究人员提出了将注意力建模成隐变量，应用变分自编码器（Variational Auto-Encoder，VAE）和梯度策略来训练模型，在不使用 kl annealing 等训练技巧的状况下进行训练，目前在 IWSLT German-English 上取得了很是不错的成果。git 论文

>>阅读原文<<