论文赏析【EMNLP19】多粒度自注意力机制(MG-SA)

论文地址 Multi-Granularity Self-Attention for Neural Machine Translation[1] 介绍 现在主流的机器翻译模型基本都是采用多头注意力机制来对句子进行编码解码,但是有一些研究表明,这么多 head 其实并不是都有用的,有些 head 的信息是冗余的,所以本文就想充分利用一下这些冗余的 head 。 此外,统计机器翻译的研究也表明了,对短语
相关文章
相关标签/搜索