MobileBERT —资源受限设备上的任务无关BERT

  随着NLP模型的规模增加到数千亿个参数,对这些模型进行高效的压缩也越来越重要。知识蒸馏成功地实现了这一目标,典型例子:student模型压缩了1/7却达到了模型96%的效果(https://medium.com/dair-ai/tinybert-size-does-matter-but-how-you-train-it-can-be-more-important-a5834831fa7d)。但
相关文章
相关标签/搜索