详解nlp预训练词向量(上)——从word2vec到ELMO

时间 2020-12-23

原文原文链接

长话短说 Bert具备广泛的通用性，就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。客观的说，把Bert当做最近两年NLP重大进展的集大成者更符合事实。串起来这个故事的脉络就是自然语言的预训练过程，但是落脚点还是在Bert身上。要讲自然语言的预训练，得先从图像领域的预训练说起。图像领域的预训练预训练在图像领域的应用 1.训练数据小，不足以训练复杂网络 2.加快训练速度 3.

>>阅读原文<<