BERT摘要

论文链接

词向量

在这里插入图片描述

基本结构

Transformer encoder

预训练阶段

mask language model

15%的选定词汇

  • 80%mask
  • 10%用随机词汇替代
  • 10%保持原样

next sentence prediction

  • 50%下一句为真实跟随句,50%不是
    在这里插入图片描述