zz神经网络模型量化方法简介

【转载请注明出处】chenrudan.github.io

随着神经网络算法的发展，网络性能虽然愈来愈强大，可是也耗费了太多的计算资源和内存，为了获得更有效率的网络以及能部署在移动端，近几年神经网络的压缩算法成了一个研究热点，主要的网络压缩途径有五种，量化、剪枝、低秩分解、教师-学生网络、轻量化网络设计，量化就是将以往用32bit或者64bit表达的浮点数用1bit、2bit占用较少内存空间的形式进行存储。剪枝的目的是为了去掉一些不重要的神经元、链接、通道等，低秩分解主要是经过各类分解方法用精简的张量来表达复杂张量，教师-学生网络间接经过提高小网络性能来压缩学生网络的规模，通常能够与其余压缩方法同时使用，轻量化网络设计主要是相似MobileNet这种设计的很是精简但性能又好的网络。几种方法都各有特色，都是值得研究和讨论的，本文主要针对量化算法近几年的发展作一个梳理和概括，我以为量化算法有几个特色，理论简单，公式少，性能稳定且trick多。

下图1-4我整理了本文涉及到的文章在各个开源数据集上的性能表现，因为各个文章中对比指标不是彻底一致，例如MNIST、Cifar10所用到的基础网络不必定同样，对性能感兴趣的能够去对照原文看看。

图1 Cifar十、VGG、GoogLeNet	图2 AlexNet
图3 ResNet18	图4 ResNet34 & ResNet50

图1 Cifar十、VGG、GoogLeNet	图2 AlexNet
图3 ResNet18	图4 ResNet34 & ResNet50

模型量化主要包括两个部分，一是针对权重Weight量化，一是针对激活值Activation量化，在一些文章中已经代表了将权重和激活值量化到8bit时就能够等价32bit的性能。在神经网络中的基本操做就是权重和激活值的卷积、乘加操做， $W * A$

BinnaryConnect

BinnaryConnect[2]是我看到的第一篇概括出完整量化流程的文章，它提出DNN的前向和反向训练中用1bit的二值权重替代浮点权重，可以让硬件计算将乘法操做简化成简单的累加操做，且能大量的减小存储空间，在MNIST、CIFAR-十、SVHN上接近SOA的性能。

咱们知道正是因为神经网络参数量大，没法直接获得损失函数的最优参数，才采用了梯度降低的方式来逼近最优解，Sgd经过平均权重带来的梯度来获得一些小的带噪声的步长，尝试更新权重去搜索参数空间，所以这些梯度十分重要，要具备足够的分辨率，sgd至少须要6~~8bits的精度，大脑突触的估计精度也是6~~12bits。。若是采用量化权重，就会致使没法对权重直接求导，这种权重能够被当作是带噪声的权重。文章认为带噪声的权重每每可以带来正则化，使得泛化能力更好，相似dropout、dropconnect这种就是对激活值或者权重加入了噪声，它们代表只有权重的指望值须要是高精度的，添加噪声每每是有益处的，因此对权重进行量化理论角度是可行的，且在部分文章中发现对梯度随机取舍可以提供无偏离散化。

在本文中提出了BinaryConnect，在DNN的前向和反向训练中用二值权重替代浮点权重，此处的二值权重B取值为{-1,1}，文章中提出了两种量化方法，判别式和随机式，其中 $σ (w) = c l i p (\frac{x + 1}{2}, 0, 1)$

w b = {+ 1, if w \geq 0; - 1, otherwise (1)

w b = {+ 1, with probability p = σ (w); - 1, with probability 1-p (2)

完整算法流程以下图5，C是损失函数，binarize(w)是按照上述公式二值化权重值，clip(w)是截断权重值，L是层数。前向传播时，只对权重作二值化，而后逐层求出二值权重获得的激活值，反向传播时，也是在二值权重上将对每层输入的导数传播回来，此时的导数是浮点的，更新参数时，一样求得的梯度也是浮点的。因为一般求得的梯度数值不是很大可是又很是重要，因此此处参数更新时仍是用浮点梯度。因为权重量化时只取符号，浮点权重大于正负1，对结果没有影响，为了限制浮点权重不会增加过于夸张以及提升正则性，使用了clip函数将浮点权重限制在正负1之间。

图5 BinnaryConnect算法流程

量化网络如何inference，一是直接用二值权重。二是用浮点权重，权重二值化只用在训练阶段。三是从浮点权重和随机二值化能够采样出不少二值网络，将它们的预测输出平均一下做为输出。论文用第三种方法，训练过程当中用随机二值权重，测试时用浮点权重能够提高性能，证实了论文前面认为的带噪声的权重具备必定的正则性。

这篇文章主要贡献在于将浮点权重量化到1bit，提出了完整的量化权重流程，且从带噪声的权重角度来解释量化权重。

BNN

BNN[3]与BinnaryConnect是同一个做者，也是这个算法的扩展，在前面只将权重量化到了1bit，本文则进一步将激活值也变成1bit，即减小了内存消耗，也将许多乘加操做简化成了按位操做XNOR-Count，二值化CNN可以减小60%的硬件时间复杂度，训练BNN在MNIST、CIFAR-十、SVHN上达到了SOA的性能。

权重和激活值都量化成了{-1,1}，量化方式也是按照公式1和2，随机式在硬件实现上具备必定的难度，为了加快训练速度，文章中用的是判别式。因为符号函数的梯度都是0，离散神经元的梯度能够经过straight-through estimator[25]来解决，即浮点数的梯度等于量化数的梯度 $g_{r} = g_{q} 1_{| r | \leq 1}$

在训练过程当中，须要保存二值权重和浮点权重，在前向后向计算中用二值权重，计算出来的梯度保存成浮点，且更新到浮点权重上。前向传播时，先对 $W_{k}$

文章中提出了第一个卷积层参数广泛较少，因此第一个卷积层输入量化到8bit，后面不少论文也采用一样的策略。与1bit权重相乘方式如公式3， $x^{n}$

s = \sum n = 1 8 2 n - 1 (x n \cdot w b) (3)

BNN算法主要贡献在于同时对权重和激活值量化到1bit，不只从实验角度证实量化算法的可行，还分析针对低bit如何进行更有效的计算，整理出了同时量化权重和激活值到1bit的算法流程，且针对内部的硬件计算，给出了具体实现，例如Shift-based Batch Normalization、XNOR-Count，最终训练能减小60%的时间，32倍的存储空间。

XNOR-Net

这篇文章[15]提出了两个网络Binary-Weight-Networks(BWN)和XNOR-Net，BWN只将权重量化为二值，XNOR权重和激活值都是二值，速度快了58x，内存节省32x。当AlexNet压缩成BWN时，性能与浮点网络一致。

在对浮点值进行量化时，加入了一个scaling factor，例如权重量化中 $W = α B$

J (B, α) = | | W - α B | | 2 α *, B * = a r g m

将公式4对 $α$

XNOR-Net中对激活值也量化 $X = β H$

Cnn训练分为三个部分，前向传播、后向传播、参数更新，在前向后向的计算中使用量化权重，更新时若是直接更新量化权重，那么梯度可能不够大到改变量化权重的取值，因此仍是让浮点权重进行更新。

XNOR-Net文章主要贡献在于提出了一个更好的拟合浮点数的方法，即给二值数增长一个尺度因子，而不是简单的取符号，在alexnet上将权重量化到1bit时可以达到跟浮点权重同样的性能。

TWN

前几篇文章都是将浮点数直接量化到了1bit，TWN[4]则提出将权重量化成2bit，虽然2bit能表达四个数，可是只取了三个数{-1,0,1}，在mnist和cifar10数据集上三值权重性能比二值权重好不少，经过2bit表达，能够达到16x到32x的模型压缩比例。

通常卷积kernel的尺寸是3x3，针对二值权重，表达能力是2^(33)=512种配置，而三值权重3^(33)=19683种配置，因此说三值权重比二值权重的表达能力要高不少。三值权重取值上多了一个0，实际计算中，因为0值处不须要进行相乘累加，对硬件也是十分友好。

量化公式如公式5，也使用到了尺度因子来拟合浮点权重，最小化量化权重TWN和浮点权重FPWN之间的L2距离。

α *, W t * = a r g m i n α, W t J (α, W t) = | | W -

优化问题就变成了如何求出 $α$

W t i = + 1, ::: i f :: W i > Δ

求阈值则没法直接去求解，所以假设权重服从几个分布来分析这个阈值的求解途径，例如假设权重服从均匀分布[-a,a]，阈值 $Δ = 1 / 3 * a$

TWN的主要贡献经过2bit来近似浮点权重，相比于二值权重性能有较明显的提高，但因为取值也限于正负1和0，对硬件计算没有额外的负担。

BWNH

[5]认为量化的过程能够当作一个hash映射，目标就变成了交替优化方法来学习哈希码。

在以前文章中的量化优化问题都是找到最优的量化数值来拟合浮点数值，本文中考虑的是最小化内积的量化偏差。本文中是将权重量化到1bit，内积指的是权重和激活值之间相乘，也称为输入X和权重W的类似性矩阵 $S = X^{T} W$

m i n L (B) = | | X T W - X T B | | 2 F ::: s . t . B \in {+ 1, -

$g (W) = B A$

此处对A和B求梯度设为0，能够推导出带有输入数据关于 $α$

α i = S T i X T B i | | X T B i | | 2 F b = s i

在具体算法流程中，逐层的对每一层的权值作二值化，每一层量化时初始化时B取浮点权重的符号，而A取权重平均绝对值，接着就按照公式8进行交替的优化A和B。最后再对整个网络进行finetuing。

BWNH只对权重进行了量化，算法主要贡献在于从哈希角度来解决量化问题，而且提出了逐层的交替更新，相对于以前的二值权重量化方法性能有着较为明显的提高。

FFN

FFN[16]中只将浮点权重量化到2bit，经过定点化分解方式来求解量化后权重，因为三值权重只有正负1和0，便可以消除最耗费资源的multiply-accumulate operations(MAC)操做，FFN能够获得浮点网络性能至关的网络，且乘法运算仅为浮点网络的千分之一。

经过semidiscrete decomposition(SDD)半离散分解将浮点权重W分解成定点化方式 $W = X D Y^{T}$

图6 FFN分解

为了更好的恢复浮点权重，算法中保留了X和Y对应的浮点数值 $\hat{X}$

FFN只针对权重作了量化，提出了将浮点权重矩阵用矩阵分解的方式分解成三个简单矩阵，其中两个矩阵元素取值为正负1和0，从而间接完成量化的功能。

INQ

INQ[17]提出增量网络量化方法，经过权重分组、按组量化、从新训练三个操做将浮点网络量化到低bit网络，在resnet18上量化权重后，4bit、3bit、2bit可以达到甚至超过浮点权重。

文章从网络剪枝算法中获得灵感，逐步的从已经训练好的网络中移除掉不那么重要的权重，最终性能也不会有明显降低，因此说权重是存在不一样的重要性的，可是以前的方法没有考虑到这点，而是同时将高精度浮点数转化为低精度数值，所以改变网络权重的重要性对于减小量化网络的损失很重要。

本文中低bit权重须要一个符号位，至少从2bit开始，b是比特数，取值范围是 $P_{l} = \pm 2^{n_{1}}, \dots, \pm 2^{n_{2}}, 0$

W l^(i, j) = β s g n (W l (i, j)) :::: if (α + β) / 2 \leq a b s (

网络训练过程当中，将权重分割到两个不相交的组中，第一个组 $A_{l}^{(1)}$

图7 INQ算法

INQ算法对权重进行了量化，经过逐步增量式的将权重量化，经过保留一部分浮点权重来恢复模型的性能，精度损失获得了必定的遏止。

SQ-B(T)WN

SQ-B(T)WN[6]也是一种增量式量化算法，它从不一样权重会致使不一样量化偏差角度，在近似实数权重时，可能只是针对部分filter量化error大，部分filter量化error小，文章提出了随机选择部分filter量化STOCHASTIC QUANTIZATION，逐渐增长量化比例最终完成所有权重量化。

一层的权重按照输出channel做为一组数据 $W = W_{1}, \dots, W_{m}$

针对每个filter $W_{i}$

图8 随机channel量化

在图8中，先计算出4个channel的量化error，假设当前r=50%，根据每一个channel计算出来的量化几率挑选2个channel量化。

SQ-B(T)WN算法经过逐步量化权重，比直接所有量化产生的更加合适梯度方向，可是从算法结果上来讲，看起来并非特别好。

Deep Compression

Deep Compression算法[7]结合了剪枝、量化、哈夫曼编码三种操做，在性能没有下降的状况下压缩了35x~49x，目标是减小存储空间减小inference的耗时，从而能部署在移动设备上。

第一步是剪枝，在训练过程当中来学习各个链接的性能表现，而后裁剪掉权重较小不够重要的链接，经过设定一个阈值，小于这个阈值移除掉，再从新训练留下的稀疏链接。剪枝后的稀疏结构用compressed sparse row和compressed sparse row方式存储，须要保存2a+n+1数据，a是非零值元素个数，n是行数或者列数。这一步中能够在Alexnet和VGG-16上压缩9x~13x。

第二步是量化，经过让多个链接共享相同权重来达到量化目的，在有限的bit数中只能表达有限的数值，因此当某些神经元取同样的数值时，就说它们在共享这个权重。假设权重大小是4*4，权重被量化到4个bin，在相同bin中的权重取值相同，所以只须要保存bin的索引，更新的时候相同bin中的梯度加起来再更新。假若有k个bin，那么须要log2k位来对索引进行编码，假如网络有n个链接，每一个链接由b个位表达，从而能够获得压缩比例 $r = \frac{n b}{n l o g 2 (k) + k b}$

huffman编码是一种无损数据压缩方法，压缩非均匀分布的值可节省20%~~30%的网络存储。最终通过这三个操做，网络在性能没有下降的状况下被压缩了35x~~49x。

这篇文章操做较多比较复杂，可是性能是稳定可靠的，每一个压缩操做都没有致使性能降低。

TTQ

TTQ[8]量化浮点权重到三值权重，在开源数据集上相比浮点性能降低不多。

在以前的量化算法中，是经过一个尺度因子和三值权重相乘来拟合浮点权重，像在TWN中给出了经验公式来计算尺度因子 $α$

首先将浮点权重除以最大值后正则化到正负1之间，全部的层有一个相同的参数t，用来计算阈值 $Δ_{l} = t \times m a x (| \tilde{w} |)$

w t l = W p l : w ~ l > Δ l 0 : | w ~ l | < Δ l -

这里针对正负数有不一样的量化levels，即有两个尺度因子 $W_{l}^{p}$

对尺度因子进行训练的好处在于，正负尺度因子的不对称使得模型能力更强，且针对全部层有一个常数稀疏r，调整超参数r能够调整量化阈值，可以得到不一样稀疏度的三值网络。

TTQ中将正负量化levels分开考虑，且做为可训练的参数进行更新，而不是用经验公式进行计算，性能比TWN也要好一些。

DoReFa-Net

在DoReFa-Net[9]中权重、激活值和参数梯度都设置成了低bit，优势是不仅在inference时可以加速，且训练时因为梯度也被量化了，训练时也能加速。因此可以很好的在硬件平台上直接进行训练。

当权重和激活值都量化后，就可以用bitcount操做来计算，即x和y相与的结果后能够直接数出位置为1的个数，而以前的文章中尚未量化过梯度到8bit如下。在BNN网络中，浮点梯度在-1到1范围内时等于量化梯度，超出范围就等于0，在xnor-net中，浮点梯度直接等于量化梯度，因为加上了一个尺度因子，因此权重可以表示的范围就更广了，在DoReFa-Net中权重量化方式为 $r_{o} = f_{w}^{k} (r_{i}) = 2 q u a n t i z e_{k} (\frac{t a n h (r_{i})}{2 m a x (| t a n h (r_{i}) |)} + \frac{1}{2}) - 1$

激活值的量化先是由一个激活函数将范围限制在0~1以内，再量化到k bit， $f_{a}^{k} (r) = q u a n t i z e_{k} (r)$

在针对梯度进行量化时，随机量化是一个比较有效的手段，且梯度是不像激活值能够被限制在某个范围内，有的位置上梯度取值可能会比较大，激活值因为能够通过一个激活函数，因此可以限制数值大小。梯度量化公式为 $f_{γ}^{k} (d r) = 2 m a x_{0} (| d_{r} |) [q u a n t i z e_{k} [\frac{d_{r}}{2 m a x_{0} (| d_{r} |)} + \frac{1}{2} + N (k)] - \frac{1}{2}]$

因此DoReFa-Net并非指定量化到多少bit，而是能够量化到任意的bit，因为整个网络的输入数据层channel较少，对于总体网络复杂度影响较小，所以第一个卷积层的权重不进行量化，第一个卷积层的输出激活值会被量化，若是输出类别较少时，最后一个卷积层的权重也不进行量化，最后一层的反向梯度须要量化。

这篇文章主要就是提出对梯度也进行量化，而且支持量化到任意bit。

ABC-Net

二值权重和激活值可以很大程度的减小内存空间，且能采用按位计算，对硬件很友好，可是现有的方法会致使性能降低，本文主要提出了ABC-net(Accurate-Binary Convolutional)线性组合多个二值权重基来拟合浮点权重，利用多个二值激活值基组合来减小信息损失。

将浮点权重用M组二值权重和尺度因子进行线性组合， $W \approx α_{1} B_{1} + α_{2} B_{2} + \dots + α_{M} B_{M}$

当权重是二值的，卷积操做就没有了乘法，只剩下加减，若是想要更高效的利用按位操做，最好是将激活值也变为二值。所以相似对权重的处理，文章首先将激活值经过一个clip函数 $h_{v} (x) = c l i p (x + v, 0, 1)$

ABC-Net也是一个不限制bit数的量化算法，性能也接近浮点网络。

HWGQ

HWGQ[11]主要针对激活值量化，利用了激活值的统计特性和batchnorm操做，在前向计算时能有效的近似浮点值的性能。

针对激活值的量化须要处理不可微的操做，主要切入点在于ReLU函数，神经网络每一个单元都计算了一个激活函数，即权重与输入相乘后通过一个非线性变换，这个操做的多少决定了整个网络的复杂度。

本文中估计1bit量化权重，也是基于二值权重和尺度因子相乘去拟合浮点权重，输入I与量化权重卷积来近似I和浮点权重卷积结果，是二值权重取浮点权重的符号 $B^{*} = s i g n (W)$

在对激活值进行量化时，若是直接按照符号函数来定义量化levels，那么对量化激活值进行求导时，导数到处为0，因此有人提出，对符号函数求导若是输入绝对值小于1则梯度为1，其余位置取0。结合relu函数，本文对激活值量化的目标是拟合relu函数的输出。quantizer是一个分段常数函数，量化levels就是量化到的值，量化step就是两个量化level之间的差，针对每一个浮点数值，它只须要保存一个索引值i，对应到第i个量化level，非均匀量化状况下表达浮点权重须要多余 $l o g_{2} m$

首先考虑最基本的relu函数，它对输入的梯度等于输出梯度，与正向的HWGQ所须要的梯度是不匹配的，特别是当输入数值大于最大的量化level时，产生的偏差致使的反向梯度就会特别大。基于这个状况，考虑用clipped后的relu，保证最大值不超过最大的量化level，可是因为clipped的操做，丢失掉了 $q_{m}$

Q l ~ (x) = q m + l o g (x - τ), x > q m x, x \in (0, q m] 0,

HWGQ主要从理论上分析如何去选择一个激活函数，从而保证激活值量化后低bit网络性能接近浮点网络。

Network Sketching

本文提出了Network Sketching[19]用来寻找量化二值权重的网络，整个过程能够当作是由粗到细的模型近似。

按照输出channel来划分不一样的filter，假设有m组基来拟合一个channel的权重， $W = \sum_{m = 0}^{m - 1} α_{j} B_{j}$

W j^= W - \sum k = 0 j - 1 α k B k (12)

具体在求B和 $α$

本文的sketch就体如今第j个量化权重是在估计当前浮点权重的残差，量化error愈来愈精细，就像在逐步的从粗到细描绘出具体的轮廓。

PQ+TS+Guided

本文[20]为了提高量化网络训练性能，提出了三个方法，一是两步优化策略，先量化权重再量化激活值，其次在训练过程当中逐步减小量化位宽，第三联合训练浮点网络和低精度网络。

量化采用的是Q函数均匀量化， $z_{q} = Q (z_{r}) = \frac{1}{2^{k} - 1} r o u n d ((2^{k} - 1) z_{r})$

为了增长量化的准确性，本文首先提出了两步优化two-stage optimization(TS)，先量化权重再量化激活值，若是从K-bit的网络量化获得k-bit的网络，首先训练在K-bit激活值下的k-bit权重，在k-bit权重训练好后训练k-bit的激活值。而因为训练过程当中近似的梯度不必定是准确的，因此会致使陷入局部最优值的状况，因此本文提出了分阶段量化progressive quantization(PQ)的想法，逐步减小量化位宽的方法，例如32bit->16bit->4bit->2bit，量化n次就得完整训练n次。第三个提高方法是基于教师-学生网络(Guided)，联合训练浮点网络和低精度网络，互相适应，由于直接用固定的预训练好的浮点模型来指导量化网络不必定最好，且在特征图层面上进行迁移，为了保持浮点网络和低精度网络一致，在相互适应时，将浮点网络也作一样的量化，而后再相互迁移。

图9 Guided训练

这个方法主要是提出一些有效的trick来辅助训练量化网络，且表现很是不错。

SYQ

SYQ[21]提出了对称量化可以提高网络准确率。

在SYQ中，Codebook C是量化levels的一些可能取值，例如{-1,1}，或者{-1,0,1}，二值化或者三值化权重时一般的方法是采用分段常数函数，并存在 $η$

不少细粒度量化方法可以提高近似权重分布的能力，本文实现了按像素进行缩放，假设一层权重是 $K \times K \times N \times I$

在SYQ算法流程中，每一层首先经过 $Q_{l} = s i g n (W_{l}) ⨀ M_{l}$

SYQ相对于TTQ没有特别明显的改进，增长了 $α$

TSQ

以前方法中都是同时量化权重和激活值，TSQ[12]提出了先量化激活值再量化权重，针对激活值，提出了稀疏量化方法，文章认为网络压缩和加速中稀疏能起到很大做用，以前的文章中都不多研究这个方向，且稀疏性在特殊硬件上会更有效，而权重量化能够当作低bit非线性最小二乘回归问题，经过迭代方式求解。

获得低比特权重是transformations，获得低比特激活值是encodings。在encodings问题中，Relu函数自己就产生了50%的稀疏性，在attention机制的基本假设中，数值较大的激活值比数值较少的激活值更重要。因此将数值较小的正值变成0，这样量化算法可以更能关注到较大的数值，量化的会更精细。n-bit均匀量化子quantizer将浮点激活值映射到 $2^{n}$

Q * ϵ (x) = a r g m a x Q ϵ E x \sim N (0, 1), x > ϵ [(Q

对权重进行量化，假设上一层的输出是X，这一层的输出是Y，将权重量化的问题变成一个非线性最小平方回归问题，将浮点尺度因子 $α$

在求解 $α$

对权重量化时，层与层之间能够同时进行，没有耦合关系，可是独立进行量化时，量化偏差会在层与层之间累加，因此仍是考虑经过按层量化。

TSQ经过稀疏量化激活值和引入一个中间变量z来产生新的量化方法，在alexnet上将权重激活值都量化到2bit时性能与浮点也是一致的。

LQ-Net

LQ-Net[13]目的是但愿学习量化任意bit权重和激活值的quantizers，现有的量化方法都是一种人工设计的quantizers，例如均匀量化、对数量化，或者在网络训练之时已经计算好的quantizers(HGWQ)，若是针对不一样的网络能自适应的学到不一样quantizers，性能应该会有所提高，因此本文就想联合训练一个量化的DNN网络和对应的quantizers。

$q_{l}$

假设网络被量化到K-bit，一个整数q能够经过一个k维的basis系数向量v和k个bit的二值编码向量 $e_{l}$

q =< [1 2 \dots 2 K - 1], [b 1 b 2 \dots b K] >

因为二值编码向量 $e_{l}$

对权重和激活值都进行相同的量化操做，卷积就变成了 $Q_{o u r s} (w, v^{w})^{T} Q_{o u r s} (a, v^{a}) = \sum_{i = 1}^{K_{w}} \sum_{j = 1}^{K_{a}} v_{i}^{w} v_{j}^{a} (b_{i}^{w} ⊙ b_{j}^{a})$

在量化和更新过程当中，在训练开始以前经过一个经验公式求出初始的v，而后先固定v更新B，此时v是已知的，能够直接计算出全部levels，对比浮点数x落在哪一个区间就量化到对应的B。而后固定B更新v，经过最小化量化偏差 $\underset{v, B}{a r g m a x} | | B^{T} v - x | |_{2}^{2}$