MobileBERT —资源受限设备上的任务无关BERT

时间 2021-01-21

原文原文链接

随着NLP模型的规模增加到数千亿个参数，对这些模型进行高效的压缩也越来越重要。知识蒸馏成功地实现了这一目标，典型例子：student模型压缩了1/7却达到了模型96%的效果（https://medium.com/dair-ai/tinybert-size-does-matter-but-how-you-train-it-can-be-more-important-a5834831fa7d）。但