Attention专场——(2)Self-Attention 代码解析

文章目录 1. 参考资料 2. 模型架构 2.1 Encoder and Decoder Stacks 2.1.1 通用类 2.1.1.1 层的复制函数 2.1.1.2 LayerNorm类 2.1.1.3 sublayer之间的链接方式 2.1.4 Encoder 2.1.4.1 EncodeLayer类 2.1.5 Decoder 2.3 Attention 2.3.1 Attention方式
相关文章
相关标签/搜索