Transformer学习

时间 2020-12-28

原文原文链接

文章目录一、前言二、模型结构二、Self-Attention Mechanism 三、为什么计算可并行四、Mult-head Attention 五、positional Encoding 六、残差连接和层归一化七、position-wise Feed-Forward Networks 参考资料：一个月之后，要学习Bert模型了，发现学过的transformer已经忘光了，所以又回