深度模型压缩策略——量化与二进制化

翻译原文:Model Compression and Acceleration for Deep Neural Networks 量化是通过减少表示每个权重所需的比特数(the number of bits)来压缩原始网络。 文献[6]和 文献[7]对参数值使用 K 均值标量量化。 文献[8]表明8-bit量化可以在准确率损失极小的同时实现大幅加速。 文献[9]在基于随机修约(stochastic
相关文章
相关标签/搜索