Bert系列学习之Transformer(一)

目录 1、BERT任务目标概述 2、传统解决方案遇到的问题 2.1 传统的RNN 2.2 传统的word2vec 3、注意力机制的作用 3.1 Transformer架构 3.2 Attention机制 3.3 self-attention 计算方法 4、Multi-head 的作用 5、堆叠多层Encoder 6、位置信息编码 7、LayerNorm 与 残差连接 8、Transformer的D
相关文章
相关标签/搜索