【NLP】ALBERT:瘦身版的BERT模型

引言 BERT是一种预训练模型,有很多预训练模型,例如skip-gram,cbow可以用在embedding的时候的预训练模型,但参数比较少,我们得在加上很多其他层来训练。ALBERT也是一种预训练模型。 在深度学习中,我们知道把网络变深可以增加模型的效果,但将BERT模型的网络变深,hiddne size变大之后将会很大训练,因为参数的量级达到了十几G。 所以就引出了ALBERT的核心研究问题:
相关文章
相关标签/搜索