RoBERTa：一种鲁棒地优化BERT预训练的方法

时间 2020-12-30

原文原文链接

RoBERTa：一种鲁棒地优化BERT预训练的方法文章目录 RoBERTa：一种鲁棒地优化BERT预训练的方法前言背景实验静态 VS 动态 Masking 输入形式与NSP任务更大的batch_size 更大的BPE词汇表总结使用最后前言本文提出了一种对BERT预训练进行精细调参和调整训练集的方法，用这种方法对BERT进行预训练还能提升性能。自训练的方法，诸如 ELMo、G