Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding

时间 2020-12-30

原文原文链接

Abstract 我们介绍了一种语言表达模型称为BERT，也就是Transformer的双边编码表示。与当前语言表达模型不同（Peters et al., 2018a; Radford et al., 2018），BERT设计通过考虑所有层左右上下文对为标注过的文本进行深度双边表达的预训练。因此，预训练BERT模型可以通过只增加一个额外的输出层进行finetuned，从而在很多任务