论文浅尝 | BERT：Pre-training of Deep Bidirectional Transformers

时间 2020-12-30

原文原文链接

论文笔记整理：王春培，天津大学硕士。链接：https://arxiv.org/pdf/1810.04805.pdf 动机将预训练语言表示应用于下有任务现有两种策略：基于特征的和基于微调的。文章认为当前技术限制了预训练的能力，尤其是基于微调的方法。很多语言模型是单向的，或者特征抽取器功能不够强大，这些都限制了下游NLP任务的性能。BERT模型通过使用双向编码器来改进基于微调的方法，添加NSP提高