Attention Is All You Need 2017 论文笔记

Google Brain 通过self-attention,自己和自己做attention,使得每个词都有全局的语义信息(长依赖 由于 Self-Attention 是每个词和所有词都要计算 Attention,所以不管他们中间有多长距离,最大的路径长度也都只是 1。可以捕获长距离依赖关系 提出multi-head attention,可以看成attention的ensemble版本,不同head
相关文章
相关标签/搜索