【NLP】ALBERT：瘦身版的BERT模型

时间 2021-01-04

原文原文链接

引言 BERT是一种预训练模型，有很多预训练模型，例如skip-gram，cbow可以用在embedding的时候的预训练模型，但参数比较少，我们得在加上很多其他层来训练。ALBERT也是一种预训练模型。在深度学习中，我们知道把网络变深可以增加模型的效果，但将BERT模型的网络变深，hiddne size变大之后将会很大训练，因为参数的量级达到了十几G。所以就引出了ALBERT的核心研究问题：

>>阅读原文<<