google bert 论文阅读

时间 2020-12-30

原文原文链接

1.原文解读 Bidirectional Encoder Representations from Transformers，bert，根据字面意思，训练的其实还是一个embedding，而且还是一个字级别的word embedding，通过这个embedding，有两种用法，一种是将其作为特征，训练特定的任务时候，不学习这些参数，通过设计特定的架构来实现不同的任务，第二种是将其作为骨干网络，然后