阅读笔记 -- ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

本文的主要贡献: 将BERT与类似于GAN的结构相结合,并辅以新的预训练任务来做预训练 – 在更少的参数量和数据下,效果超越BERT,并且仅用1/4的算力就达到了SOTA模型RoBERTa的效果: Introduction: 当下流行的MLM(Masked Language Modeling)方法会大大增加计算开销,原因:模型只学到每个example中15%的tokens信息,而且有些token可
相关文章
相关标签/搜索