深度学习——Dual Super-Resolution Learning

CVPR2020论文:Dual Super-Resolution Learning for Semantic Segmentation
1.主要工作:
提出了双信息流结构的超分辨率深度学习网络(DSRL网络)。在不增加计算量的情况下,提高语义分割的精度。
验证了DSRL网络框架的通用性,它可以很容易地扩展到其他需要高分辨率表示的任务,如人体姿态估计。
证明了该方法在语义分割和人体姿态估计方面的有效性。

2.主体架构
在这里插入图片描述
主要分为3部分:(a) Semantic Segmentation Super-Resolution (SSSR); (b) Single Image SuperResolution (SISR);(c)Feature Affinity (FA) module;
(a) Semantic Segmentation Super-Resolution (SSSR)模块主体为U型网络,encoder部分提取图像层级特征,decoder上采样还原图像尺寸。特殊的是在最后多添加了一个上采样模块。使得最终的输出(语义分割蒙版)的尺寸更大,充分利用ground truth的标签信息,如输入图像为512×1024, 则输出为1024×2048。这个上采样模块为反卷积层+批标准化+relu 构成。
(b) Single Image SuperResolution (SISR)模块同样也是U型网络,并且encoder部分是与SSSR模块共享的。其根据低分辨率的输入图像,输出高分辨率图像。该模块能够提供更细粒度的图像特征信息,这些细粒度特征信息更好地帮助语义分割。
在这里插入图片描述
我们可以看出SISR模块的输出(C)比SSSR(b)的不同颜色区域更多,即特征粒度更细。
因此,我们利用从SISR中恢复的高分辨率特征信息来指导SSSR的学习。该模块的主要作用不是做超分辨率,而是辅助SSSR进行语义分割,故而只在训练的时候用,在预测输出阶段是不用的。
(c)Feature Affinity (FA) module模块,即特征关联模块。该模块的主要作用就是利用SISR恢复的高分辨率特征信息来辅助训练SSSR。
在这里插入图片描述
S表示的是F(feature map)中各像素对(像素i 与像素j )的相似性矩阵(即Fi的转置乘Fj)。双竖线表示对特征F进行正则化(p=2为L2正则化),降低训练过程的不稳定。
在这里插入图片描述 L表示FA模块训练的损失函数,其中WH为宽和高,双竖线表示SSSR的相似性矩阵和SISR的相似性矩阵的L1正则化(q=1)。