Transformer的工作

要想学习BERT,需要先了解Transformer 1、Transformer的工作 2、传统网络结构的问题 RNN网络不能做并行训练,X1会用上X0的隐层特征,X2会用上X1的隐层特征,所以不能独立计算(x0,x1,x2各自计算,算完合在一起),所以不能并行计算,所以层数不够多,计算速度也不快。 Transformer注意力机制 注意力机制简单点说就是"今天早上吃饭,上午上课,下午上课,晚上打篮
相关文章
相关标签/搜索