阅读笔记 -- ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

时间 2021-01-15

原文原文链接

本文的主要贡献：将BERT与类似于GAN的结构相结合，并辅以新的预训练任务来做预训练 – 在更少的参数量和数据下，效果超越BERT，并且仅用1/4的算力就达到了SOTA模型RoBERTa的效果： Introduction：当下流行的MLM（Masked Language Modeling）方法会大大增加计算开销，原因：模型只学到每个example中15%的tokens信息，而且有些token可

>>阅读原文<<