Bert

每个block的参数不共享,独立学习 介绍了Transformer,下一个就是Bert,一个巨大成功的预训练模型,上图 Bert全名为Bidirectional Encoder Representations from Transformers,E1...En是单个字或者词,大部分都是字为单位,Trm是一个transformer,T1...Tn是最终计算的隐藏层。因为再注意力矩阵中每个词都能学习到
相关文章
相关标签/搜索