BERT模型: Pre-training of Deep Bidirectional Transformers for Language Understanding

时间 2020-12-30

原文原文链接

参考链接论文链接:https://arxiv.org/pdf/1810.04805v1.pdf 代码链接:https://github.com/google-research/bert 参考博客https://arxiv.org/pdf/1810.04805v1.pdf 模型架构模型图 BERT模型架构是：一个多层的双向的Transformer的encoder。Encoder如下图所示： L表