CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model

  整篇文章,很好理解,建议大家读一下。 0 摘要 主要是使用CLUECorpus2020,100G语料预训练模型。他们在小数据及以及大数据集上做了实验,表明这个语料训练的模型,更适合中文。他们使用的vcoba_clue是8k,是google的Chinese Bert的1/3 。他们发布了这个语料训练的小模型和大模型。大模型能达到最高的水平,小模型在保留大部分精度的情况下加速了训练,并且预测速度是
相关文章
相关标签/搜索