JavaShuo
BERT摘要
时间 2021-07-13
标签
预训练模型
BERT
论文链接
词向量
基本结构
Transformer encoder
预训练阶段
mask language model
15%的选定词汇
80%mask
10%用随机词汇替代
10%保持原样
next sentence prediction
50%下一句为真实跟随句,50%不是