深度学习——Dual Super-Resolution Learning

时间 2021-08-15 标签深度学习--语义分割计算机视觉深度学习人工智能神经网络

CVPR2020论文：Dual Super-Resolution Learning for Semantic Segmentation
1.主要工作：
提出了双信息流结构的超分辨率深度学习网络（DSRL网络）。在不增加计算量的情况下，提高语义分割的精度。
验证了DSRL网络框架的通用性，它可以很容易地扩展到其他需要高分辨率表示的任务，如人体姿态估计。
证明了该方法在语义分割和人体姿态估计方面的有效性。

2.主体架构

主要分为3部分：(a) Semantic Segmentation Super-Resolution (SSSR)； (b) Single Image SuperResolution (SISR)；（c）Feature Affinity (FA) module；
(a) Semantic Segmentation Super-Resolution (SSSR)模块主体为U型网络，encoder部分提取图像层级特征，decoder上采样还原图像尺寸。特殊的是在最后多添加了一个上采样模块。使得最终的输出（语义分割蒙版）的尺寸更大，充分利用ground truth的标签信息，如输入图像为512×1024, 则输出为1024×2048。这个上采样模块为反卷积层+批标准化+relu 构成。
(b) Single Image SuperResolution (SISR)模块同样也是U型网络，并且encoder部分是与SSSR模块共享的。其根据低分辨率的输入图像，输出高分辨率图像。该模块能够提供更细粒度的图像特征信息，这些细粒度特征信息更好地帮助语义分割。

我们可以看出SISR模块的输出（C）比SSSR（b）的不同颜色区域更多，即特征粒度更细。
因此，我们利用从SISR中恢复的高分辨率特征信息来指导SSSR的学习。该模块的主要作用不是做超分辨率，而是辅助SSSR进行语义分割，故而只在训练的时候用，在预测输出阶段是不用的。
（c）Feature Affinity (FA) module模块，即特征关联模块。该模块的主要作用就是利用SISR恢复的高分辨率特征信息来辅助训练SSSR。

S表示的是F（feature map）中各像素对（像素i 与像素j ）的相似性矩阵（即Fi的转置乘Fj）。双竖线表示对特征F进行正则化（p=2为L2正则化），降低训练过程的不稳定。
L表示FA模块训练的损失函数，其中WH为宽和高，双竖线表示SSSR的相似性矩阵和SISR的相似性矩阵的L1正则化（q=1）。