Paper | Detail-revealing Deep Video Super-resolution

目录数据库

发表在2017年ICCV。网络

核心内容:提出了亚像素运动补偿(Sub-pixel Motion Compensation, SPMC)层,服务:基于CNN的视频超分辨方法。架构

特色:ide

  1. SPMC能够同时完成超分辨和运动补偿。这一点是精髓,做者claims that能够更好地保持亚像素信息。为何这么说,最后我再解释。学习

  2. SPMC是无参数的,所以结合到视频超分辨网络中,使得该网络可用于任意尺寸的输入,而无需从新训练。编码

  3. 使用了Conv-LSTM,输入帧数任意。这样,咱们能够在效率和质量上权衡。spa

这篇论文实际上写得很绕。我无心间发现了做者对这篇论文的报告视频(B站:https://www.bilibili.com/video/av36952293/),讲得简单明了。这里作一个截图和笔记。
封面3d

故事

首先,视频超分辨率有如下几个挑战:视频

  1. 如何配准多帧信息。若是没有配准,那么多帧反而是有害的。blog

  2. 模型不够健壮。一个放缩系数每每对应一个模型,而且输入帧数也是固定的。

  3. 生成的细节有时是假的。这是由于外部数据库的影响。

挑战

鉴于此,本文的目标是:

  1. 任意大小输入,任意放缩系数。

  2. 更好地利用亚像素信息。

  3. 生成更真实的细节。

优点

本文提出的网络架构(从论文截取的大图):
网络

步骤

  1. \(i\)时刻的LR帧\(I_i^L\) 和 当前\(0\)时刻的LR帧\(I_0^L\) 一块儿输入运动预测网络,获得光流预测图\(F_{i \to 0}\)
    图示

  2. \(F_{i \to 0}\)\(I_i^L\) 一块儿输入SPMC层,获得 升采样而且运动补偿的 \(J^L\)
    图示

  3. 因为\(J^L\)比较稀疏,所以输入一个有丰富降采样的编码器-解码器网络,获得残差;而后与 \(I_0^L\) 点点求和,即获得最终输出。注意,与传统编解码网络不一样,中间的单元被换成了Conv-LSTM,从而能够对视频序列建模。
    图示

实验

首先,做者尝试将三个相同帧输入网络,发现输出图像虽然更锐利了,可是没有产生额外的信息。
图示

接着,做者换成了三张连续帧,效果就行了。这说明:SPMC的使用,使得细节伪造更少了,而且细节的生成更真实。
图示

做者还尝试了传统方案:先运动补偿,而后升采样,结果中产生了不少虚假的细节:
图示

换成SPMC就行了:
图示

做者说:基于以上实验,他们认为,在亚像素级别,只有合适地运动补偿,才能恢复真实的细节。这一句,就是点睛之笔。
个人理解:前人通常都是先 运动补偿 而后 超分辨,在这个过程当中,亚像素信息须要二次加强,很难保真,而更倾向于从 根据外部数据库学习的先验 中获取

SPMC

看完了视频,咱们再来看一下SPMC。其实很简单:
SPMC

第一步是坐标变换,其中\(\alpha\)就是放缩系数:
图示

第二步是双线性插值,将升采样的图完善。
图示

相关文章
相关标签/搜索