Transformer详解

目录 模型结构 Attention 放缩点积Attention(Scaled Dot-Product Attetion) 多头Attention(Multi-Head Attention) Transformer中的Attention 嵌入和Softmax 位置编码 使用Self-Attention的原因 Transformer内部细节 Encoder内部细节 残差网络 Encoder过程 层归一
相关文章
相关标签/搜索