CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model

时间 2021-01-16

原文原文链接

整篇文章，很好理解，建议大家读一下。 0 摘要主要是使用CLUECorpus2020，100G语料预训练模型。他们在小数据及以及大数据集上做了实验，表明这个语料训练的模型，更适合中文。他们使用的vcoba_clue是8k,是google的Chinese Bert的1/3 。他们发布了这个语料训练的小模型和大模型。大模型能达到最高的水平,小模型在保留大部分精度的情况下加速了训练,并且预测速度是