【DataWhale学习记录15-06】零基础入门NLP - 新闻文本分类赛题 - 06基于深度学习的文本分类3

BERT 原理: BERT 的创新点在于它将双向 Transformer 用于语言模型, 之前的模型是从左向右输入一个文本序列,或者将 left-to-right 和 right-to-left 的训练结合起来。 实验的结果表明,双向训练的语言模型对语境的理解会比单向的语言模型更深刻, 论文中介绍了一种新技术叫做 Masked LM(MLM),在这个技术出现之前是无法进行双向语言模型训练的。 BE
相关文章
相关标签/搜索