论文浅尝 | BERT:Pre-training of Deep Bidirectional Transformers

论文笔记整理:王春培,天津大学硕士。 链接:https://arxiv.org/pdf/1810.04805.pdf 动机 将预训练语言表示应用于下有任务现有两种策略:基于特征的和基于微调的。文章认为当前技术限制了预训练的能力,尤其是基于微调的方法。很多语言模型是单向的,或者特征抽取器功能不够强大,这些都限制了下游NLP任务的性能。BERT模型通过使用双向编码器来改进基于微调的方法,添加NSP提高
相关文章
相关标签/搜索