MobileBERT:一个在资源有限设备上使用的BERT模型

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者:Viktor Karlsson 编译:ronghuaiyang 导读 在蒸馏之后对学生模型再进行微调,进一步提升能力。 随着NLP模型的大小增加到数千亿个参数,创建这些模型的更紧凑表示的重要性也随之增加。知识蒸馏成功地实现了这一点,在一个例子中,教师模型的性能的96%保留在了一个小7倍的模型中。然而,在设计教师模型时,知识的提炼仍然
相关文章
相关标签/搜索