google bert 论文阅读

1.原文解读 Bidirectional Encoder Representations from Transformers,bert,根据字面意思,训练的其实还是一个embedding,而且还是一个字级别的word embedding,通过这个embedding,有两种用法,一种是将其作为特征,训练特定的任务时候,不学习这些参数,通过设计特定的架构来实现不同的任务,第二种是将其作为骨干网络,然后
相关文章
相关标签/搜索