Transformer学习

文章目录 一、前言 二、模型结构 二、Self-Attention Mechanism 三、为什么计算可并行 四、Mult-head Attention 五、positional Encoding 六、残差连接和层归一化 七、position-wise Feed-Forward Networks 参考资料:   一个月之后,要学习Bert模型了,发现学过的transformer已经忘光了,所以又回
相关文章
相关标签/搜索