BERT摘要

论文链接 词向量 基本结构 Transformer encoder 预训练阶段 mask language model 15%的选定词汇 80%mask 10%用随机词汇替代 10%保持原样 next sentence prediction 50%下一句为真实跟随句,50%不是
相关文章
相关标签/搜索