Attention Is All You Need 笔记

摘抄自:https://jalammar.github.io/illustrated-transformer/ 1.Overall的定性理解 结构: input–encoder–decoder–output 1.1 encoder part encoder中包含数个相同结构的encoder layer(不共享权重),文章中用了六个(该数目可相应调整)。 每个encoder layer有两个subl
相关文章
相关标签/搜索