深度学习卷积网络中反卷积/转置卷积的理解 transposed conv/deconv

时间 2019-11-06

标签深度学习网络反卷转置理解 transposed conv deconv 栏目系统网络繁體版

原文原文链接

搞明白了卷积网络中所谓deconv究竟是个什么东西后，不写下来怕又忘记，根据参考资料，加上我本身的理解，记录在这篇博客里。git

先来规范表达

为了方便理解，本文出现的举例状况都是2D矩阵卷积，卷积输入和核形状都为正方形，x和y轴方向的padding相同，stride也相同。
记号：
$i, o, k, p, s$ 分别表示：卷积/反卷积的输入大小 $i n p u t s i z e$ ，卷积/反卷积输出大小 $o u t p u t s i z e$ ，卷积/反卷积核大小 $k e r n e l s i z e$ ， $p a d d i n g$ ， $s t r i d e$ 。
举例（以下左图）：
输入 $X \in R^{(4, 4)}$ 矩阵，卷积核 $w \in R^{(3, 3)} ， p a d d i n g = 0 ， s t r i d e = 1$ 的状况下，卷积的输出 $Y \in R^{(2, 2)}$ ，就记为 $i = 4, o = 2, k = 3, p = 0, s = 1$ 。

推翻错误的理解

第一次看到deconv这个词，觉得deconv的结果就是卷积的逆，以为神奇，不由产生了“哦？转置的卷积就能够求逆了吗？”这样的想法，而后在matlab里面实验求证，我还记得当时觉得反卷积可以求逆，考虑到图片进行常规卷积操做输出大小又不可能变大（same/valid），因而我还假设反卷积输出大小不变，用了same padding和原核的转置做为反卷积配置，结果发现根本不是那么一回事好吗。
其实DL中的deconv，是一种上采样过程，举个比方：输入 $X \in R^{(4, 4)}$ 矩阵，卷积核 $w \in R^{(3, 3)} ， p a d = 0 ， s t r i d e = 1$ 的状况下（以下左图），卷积的输出 $Y \in R^{(2, 2)}$ 。对 $Y$ 进行deconv，它只能作到把还原输出大小到和 $X$ 同样大，输出值和 $X$ 有那么一点联系。
因此啊deconv这个名字至关误导人呐！这在cs231n课程里也被吐槽过，你们如今更喜欢用transposed conv来表述反卷积。为了方便起见，后文就用反卷积这个词了。github

第二个容易confused的地方，就是不少文章都说卷积核的转置就能够求反卷积，又陷入迷茫“就算把卷积核转置（或者左右翻转上下翻转），卷积后输出仍是愈来愈小（或不变，至少不会增大）啊”……直到看到文献和相应的这个动画（其余动画在github-convolution arithmetic1）web

$卷积 $\ padding=0,stride=1$$	$反卷积$\ padding=0,stride=1$$
卷积 $i = 4, k = 3, p = 0, s = 1, 则 o = 2$	反卷积 $i = 2, k = 3, p = 0, s = 1, 则 o = 4$

注意图中蓝色（下面）是输入，绿色（上面）是输出，卷积和反卷积在 $p 、 s 、 k$ 等参数同样时，是至关于 $i$ 和 $o$ 调了个位。
这里说明了反卷积的时候，是有补0的，即便人家管这叫no padding（ $p = 0$ ），这是由于卷积的时候从蓝色 $4 \times 4$ 缩小为绿色 $2 \times 2$ ，因此对应的 $p = 0$ 反卷积应该从蓝色 $2 \times 2$ 扩展成绿色 $4 \times 4$ 。并且转置并非指这个 $3 \times 3$ 的核 $w$ 变为 $w^{T}$ ，但若是将卷积计算写成矩阵乘法（在程序中，为了提升卷积操做的效率，就能够这么干，好比tensorflow中就是这种实现）， $\vec{Y} = C \vec{X}$ （其中 $\vec{Y}$ 表示将 $\vec{Y}$ 拉成一维向量， $\vec{X}$ 同理），那么反卷积确实能够表示为 $C^{T} \vec{Y}$ ，而这样的矩阵乘法，偏偏等于 $w$ 左右翻转再上下翻转后与补0的 $Y$ 卷积的状况。网络

而后就产生了第三个confuse：“补0了会不会有影响，还能经过反卷积近似输入 $X$ 吗？”其实反卷积也不必定能达到近似的效果，图像里的卷积，至关于一种相关操做，而反卷积维持了这种相关操做时的 $w$ 与 $X$ 、与 $Y$ 之间的联系维持了。至于补0后操做是否还等价，上一段已经说明了是等价的，读者能够在阅读完后面的文章后本身尝试一下。app

反卷积以及反向传播的过程

卷积和反卷积的过程在arXiv-A guide to convolution arithmetic for deep learning2写的很是详细，还有不少例子便于理解，在这里我就截图出重点来（ps.文中的figure2.1就是上图的左边）。剩下的例子请你们多看看原文，最好本身动手算一下，我也贴个我算的过程（ $C_{i}$ 表示矩阵 $C$ 的第 $i$ 行），供参考。
关于反向传播， 知乎-如何理解深度学习中的deconvolution networks3有详细的推导过程。

ide