Transformer学习记录

1. 模型结构 模型结构如下图: 和大多数seq2seq模型一样,transformer的结构也是由encoder和decoder组成。 1.1 Encoder Encoder由N=6个相同的layer组成,layer指的就是上图左侧的单元,最左边有个“Nx”,这里是x6个。每个Layer由两个sub-layer组成,分别是multi-head self-attention mechanism和f
相关文章
相关标签/搜索