聊聊Bert

在上一篇文章中我们提到了Transformer,详见:聊聊Transformer 。在这篇文章中,我们讲解一下BERT模型。 ** 1.BERT模型 ** BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-t
相关文章
相关标签/搜索