Attention-Is-All-You-Need论文笔记

原文链接: http://chenhao.space/post/2a42add6.html Transformer 以机器翻译为例: 其中 Add & Norm 层的意思是:将input到Multi-Head Attention中的 a a a,与Multi-Head Attention output的 b b b进行Add操作,得到 b ′ b' b′,再将 b ′ b' b′进行Layer N
相关文章
相关标签/搜索