MobileBERT架构

整理自网络,主要方便自己查询和记忆 (a)BERT,(b)MobileBER Tteacher模型和(c)MobileBERT student模型中的Transformer架构可视化。标有“linear”的绿色梯形称为bottlenecks。 知识迁移技术 (a)辅助知识迁移,(b)联合知识迁移,(c)渐进知识迁移。  通过逐步的知识迁移过程来训练MobileBERT的这些变体是最有效 Mobil
相关文章
相关标签/搜索