Attention机制之Transformer

文章目录 Attention机制 -- Transformer 0. 代码 1. Scaled Dot-product Attention 2. Multi-head Attention 3.残差网络,Normalization与feed-forward network 4. Transformer中使用Multi-head Attention的细节 5. Positional encoding
相关文章
相关标签/搜索