Transformer结构

文章目录 Transformer结构 0. RNN的缺点 1. 整体结构域 2. Encoder部分 2.1. multi-head-Attention层 2.1.1 插入讲解self-attention 2.1.2. 回到多头 2.2. 全连接层 3. Decoder部分 4. Generator部分 5. Positional Encoding 参考文献: Transformer结构 与Ber
相关文章
相关标签/搜索