【阅读笔记】BERT 介绍和代码解读

时间 2021-01-04

标签 bert transformer 程序理解简介繁體版

原文原文链接

最近玩了玩 BERT，做了一些实验，感觉还挺有意思的，写点东西记录一下，我会从粗到细，从简单到复杂，一层一层的说明白 BERT 的每一步。 BERT 的预训练 BERT 模型的预训练会从数据集抽取两句话，其中 B 句有 50% 的概率是 A 句的下一句，然后将这两句话转化输入表征，再随机遮掩（mask 掉）输入序列中 15% 的词，并要求 Transformer 完成预测这些被遮掩的词和预测 B

>>阅读原文<<