Attention Is All You Need简析

Attention Is All You Need 介绍 文章提出的transformer,使用注意力机制,对于资源的要求更低,却同样能达到state-of-the-art的效果。 整体框架 Encoder Encoder由6个相同的层组成,每层都有两个子层,一个是self-attetion机制,一个是全连接的前向网络。在子层之间也使用了残差连接与layer nomalization。 Decod
相关文章
相关标签/搜索