哈佛大学提出变分注意力:用VAE重建注意力机制

注意力 (attention) 模型在神经网络中被广泛应用,不过注意力机制一般是决定性的而非随机变量。来自哈佛大学的研究人员提出了将注意力建模成隐变量,应用变分自编码器(Variational Auto-Encoder,VAE)和梯度策略来训练模型,在不使用 kl annealing 等训练技巧的情况下进行训练,目前在 IWSLT German-English 上取得了非常不错的成果。 论文链接:
相关文章
相关标签/搜索