ICLR 2020|ELECTRA

MLM(Masked language modeling)方式的预训练语言模型如BERT是在输入上用[MASK]遮蔽掉部分tokens,再训练一个模型以重建出原始的tokens。这种方式迁移到下游NLP任务时能够得到较好的结果,已然成为NLP任务中的标配。但是这种预训练方法往往需要大量的算力。为此,本文提出一种样本效率更为高效的预训练任务:替换token检测(replaced token dete
相关文章
相关标签/搜索