【阅读笔记】BERT 介绍和代码解读

最近玩了玩 BERT,做了一些实验,感觉还挺有意思的,写点东西记录一下,我会从粗到细,从简单到复杂,一层一层的说明白 BERT 的每一步。 BERT 的预训练 BERT 模型的预训练会从数据集抽取两句话,其中 B 句有 50% 的概率是 A 句的下一句,然后将这两句话转化输入表征,再随机遮掩(mask 掉)输入序列中 15% 的词,并要求 Transformer 完成预测这些被遮掩的词和预测 B
相关文章
相关标签/搜索