文献记录-BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

摘要: bert 是用transformer的encoder 来构建的双向预训练模型,训练过程是无监督的,并且可以通过fine-tune的方式去获得较好的多个下游任务的效果. 简介: 预训练模型对于NLP的数据特征的提取有着很大作用,为了找到,句子和句子,词语和词语之间的联系. 现有的预训练模型有两种:基于特征的(elmo);微调(GPT) 特点: 1:Bert使用了掩语预测的模型. 2:双向 3
相关文章
相关标签/搜索