详解nlp预训练词向量(上)——从word2vec到ELMO

长话短说 Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。客观的说,把Bert当做最近两年NLP重大进展的集大成者更符合事实。 串起来这个故事的脉络就是自然语言的预训练过程,但是落脚点还是在Bert身上。要讲自然语言的预训练,得先从图像领域的预训练说起。 图像领域的预训练 预训练在图像领域的应用 1.训练数据小,不足以训练复杂网络 2.加快训练速度 3.
相关文章
相关标签/搜索