ELECTRA论文阅读笔记

ELECTRA模型是对BERT的一次改进,该改进主要体现在对样本的使用效率上。具体实现方式,是引入了比较像GAN的一种架构——首先,使用一个较小的generator(生成器)将随机mask掉的token再预测出来,然后再将重新修复后的句子交给discriminator(判别器)进行判断,判断input中每个单词是否有被generator替换过。相比之下,BERT是先对一部分token进行随机mas
相关文章
相关标签/搜索