文章转自:同做者我的微信公众号【机器学习炼丹术】。欢迎交流沟通,共同进步,做者微信:cyx645016617微信
这篇文章的最大特点天然是提出了DRN,Dilated Residual Networks,在残差网络的基础上加入了膨胀卷积。网络
膨胀卷积,又叫作空洞卷积,是在卷积核参数不变的基础上,增长视野域的一种手段。经过使用膨胀卷积,能够放大最深层特征图的尺寸而且保持视野域大小不变,说白了就是少了几个池化层,而后用膨胀卷积维持一样大小的视野域。比方说,resnet众所周知,包括stem中的下采样和4个layer的下采样,5次下采样,总体的步长为32;可是DRN中,总体步长仅为8。机器学习
固然文章若是仅仅是把碰撞卷积代替通常卷积,那么这篇文章就毫无特点了。碰撞卷积会引出一个degridding效应,如何解决这个问题才是文章的核心。ide
再加上一句,虽然模型的参数没有改变,可是由于增长了特征图的尺寸,计算量和内存消耗必然有增长,请你们仁者见仁。学习
这个长话短说,直接看图:
3d
dilation是一个参数,若是是1的话,就是上图左图的常规卷积核,若是dilation是2的画,就变成右边的膨胀卷积的样子。dilation表示卷积核中参数相邻的距离。blog
先来看Resnet的结构图:
图片
输入的图片是224x224大小的,第一次下采样在stem中(图中的conv1),随后的下采样在每一层layer的第一个卷积层前面。内存
DRN结构没有了resnet最后的两次下采样,也就是说,特征图在28x28的大小以后就再也不变小了。再也不减少特征图尺寸,那么就要增长卷积核的膨胀系数get
上图中展现的是后两次下采样的resnet和DRN的区别,能够看到,DRN没有后两次下采样,所以特征图的尺寸都相同。
使用膨胀卷积来代替下采样,会产生degriding栅格化问题
这种状况产生的缘由在原文中有这样的一句解释:
Gridding artifacts occur when a feature map has higher-frequency content than the sampling rate of the dilated convolution.
就是说,当一某一个特征的重要性超过采样率。做者给出了这样的一个例子:
上面图(a)是一个单个像素异常重要的特征图,而后通过一个膨胀卷积,变成(c),变成网格状的输出。能够说gridding artifiacts是膨胀卷积性质产生的现象。
为了解决这样的问题,做者对DRN做出了改进:
所以在上面的展现图汇中,DRN-C的输出的语义分割效果图,很是丝滑。
效果有很是大的提升。这个不下降特征图的尺寸,从而提升了小物体的目标检测的效果。值得尝试。
这个也挺好实现的,咱们记住: