cs224n学习4： Contextual Word Representations and Pretraining

时间 2020-12-24

原文原文链接

Contextual Word Representations and Pretraining BERT原理详解 BERT的预训练过程输入微调 BERT原理详解从创新的角度来看,bert实并没有过多的构方面的创新点,其和GPT一样均是采用的 transformer的结构,相对于GPT来说,其是双向结构的,而GPT是单向的,如下图所示 elmo: 将上下文当作特征，但是无督的语料和我们真实的语