Knowledge Distillation(知识蒸馏)

Do Deep Nets Really Need to be Deep? 虽然近年来的趋势如BigGAN,BERT等,动辄上亿参数,几乎就是数据驱动+算力的“暴力”结果。但同时,更加轻量级的升级版模型如ALBERT也能以更少的参数和架构持续刷榜,元学习(meta learning)和零样本学习(Zero-shot learning),还有只需要个位数层数就能取得优异效果的GCN等,都似乎证明了“大
相关文章
相关标签/搜索