(五)Bert

文章目录 一、Bert的基本原理是什么? 二、BERT 是怎么用 Transformer 的? 三、BERT 的训练过程是怎么样的? 3.1 Masked LM 3.2 Next Sentence Prediction 四、为什么 BERT 比 ELMo 效果好?ELMo 和 BERT 的区别是什么? 4.1 为什么 BERT 比 ELMo 效果好? 4.2 ELMo 和 BERT 的区别是什么?
相关文章
相关标签/搜索