空间-角度信息交互用于光场图像超分辨重构,性能达到最新SOTA | ECCV 2020

做者 | Yingqian Wang, Longguang Wang等php

译者 | 刘畅git

出品 | AI科技大本营(ID:rgznai100)
github

光场(LF)相机不只会记录光线的强度,也会记录光线的方向,而且会从多个视点捕获场景。而每一个视点内的信息(即空间信息)以及不一样视点之间的信息(即角度信息)都有利于图像超分辨率(SR)。
算法

在本文中,做者提出了一种用于LF图像SR的空间角度交互网络(即LF-InterNet)。在本方法中,做者使用两个专门设计的卷积分别从输入的光场图中提取空间和角度特征。而后,将这些提取的特征重复地交互以合并空间和角度信息。最后,将交互的空间和角度特征融合在一块儿,去超分辨每一个子孔径的图像。c#

做者在6个公共的LF测试数据集上作了实验,证实了本文方法的优越性。与现有的LF图像和单张图像超分辨方法相比,本文的方法能够恢复更多的细节,而且在PSNR和SSIM两个指标上比现有技术有显著提高。网络

 

论文连接:https://arxiv.org/abs/1912.07849app

代码地址:https://github.com/YingqianWang/LF-InterNet运维

 

引言ide

 

光场相机能够提供场景的多个视图,所以可在许多方面都有应用,例如深度估计,显著性检测、去遮挡等。然而,LF相机面临着空间分辨率和角度分辨率之间的权衡。也就是说,它要么能够提供低图像分辨率的密集角度采样,要么提供高分辨图像的稀疏角度采样。所以,研究者们已经作了许多努力,经过LF重构来提高角度分辨率,或者经过LF图像超分辨率(SR)来提高空间分辨率。在本文中,做者主要关注LF图像的SR问题,即从其相应的低分辨率(LR)子孔径图像(sub-aperture image, SAI)重建高分辨率(HR)的 SAI。性能

 

图像超分辨重构是计算机视觉中一个长期存在的问题。为了得到较高的重建效果,SR方法须要从LR输入中吸取尽量多的有用信息。在单张图像SR领域,能够经过充分利用图像中的邻域上下文(即空间信息)来取得较好的效果。相比之下,LF相机可从多个视图捕获场景。而不一样视图之间的角度信息,则能够用于进一步提高LF图像的SR效果。

 

可是,因为LF复杂的4D结构,在LF中合并空间和角度信息是很是有挑战性的。现有的LF图像超分辨方法没法充分利用角度信息和空间信息,从而致使SR性能有限。具体地,有研究人员使用单个图像SR方法分别对SAI进行超分辨,而后将其微调在一块儿以合并角度信息。也有研究者仅使用部分SAI来超分辨一个视图,而且未合并另外废弃视图中的角度信息。


相反,有另外的研究人员提出了一种基于图的方法来考虑优化过程当中的全部角度视图。可是,该方法没法充分利用空间信息,而且不如基于深度学习的SR方法。值得注意的是,即便全部视图都被送到一个深层神经网络,要实现卓越的性能仍然十分具备挑战。

 

因为空间信息和角度信息在LF图像中高度耦合,并采用不一样的方式对LF图像超分辨作出贡献。所以,网络难以直接使用这些耦合信息。为了有效地合并空间和角度信息,本文提出了用于LF图像超分辨的空间角度信息交互网络(即LF-InterNet)。

首先,做者专门设计了两个卷积,以将空间和角度特征与输入的LF分离。而后,做者提出了LF-InterNet以重复交互并合并空间和角度信息。最后,做者作了多个消融实验验证了本文的设计。并将本文方法与最新的单一图像和LF图像SR方法,在6个公开LF数据集上进行了比较。结果显示,本文的LF-InterNet显著提高了PSNR和SSIM性能。

 

 

方法

空间-角度特征解耦

光场图像按照上图左边的方式进行排列能够组成阵列的SAI,将每幅阵列SAI相同空间位置的像素按照视角顺序进行排列,则能够构成宏像素的图像(macro-pixel image,MacPI)。本文所提出的空间信息特征提取(SFE)与角度信息特征提取(AFE)均以MacPI做为输入,以下图所示。

做者对光场宏像素图进行了简化示例,其中光场的空间分辨率与角度分辨率均为3*3。图中涂有不一样底色的3*3区域表示不一样的宏像素,每一个宏像素内的3*3标有不一样的符号(十字、箭头等),表示其属于不一样的视角。而后做者分别对两种特征提取器进行了定义。AFE是kernel size=A*A,stride=A的卷积;SFE是kernel size=3*3,stride=1,dilation=A的卷积。注意,将AFE应用于MacPI时,只有单个MacPI内的像素参与卷积运算,而不一样像素之间信息不互通。同理,将SFE应用于MacPI时,只有属于相同视角的像素参与卷积运算,而属于不一样视角的像素不互通。所以,AFE和SFE能够分别提取光场的角度信息和空间信息,实现信息的解耦。

网络设计

上图是做者构建的LF-InterNet网络,该网络主要分为三个部分,特征提取、空间角度特征交互、特征融合重构。

特征提取:将上述的AFE与SFE两种特征提取器应用于输入的光场MacPI时,能够分别提取光场的角度特征与空间特征。

空间角度特征交互:用于实现空间角度特征交互的基本单元为交互块(Inter-Block)。该文将4个交互块级联构成了一个交互组(Inter-Group),再将4个交互组级联构成网络的交互部分。如图4(b)所示,在每一个交互块中,输入的空间特征与角度特征进行一次信息交互。交互上是相互的,一方面角度特征上采样A倍后与空间特征进行级联,然后经过一个SFE与ReLU实现角度信息引导的空间特征融合;另外一方面,空间特征经过AFE卷积提取新一轮的角度特征,并与输入的角度特征进行级联,然后经过一个1*1卷积与ReLU进行角度特征的更新。空间特征分支与角度特征分支均采用局部残差链接。

 

特征融合构建:网络的每一个交互组输出的空间特征与角度特征分别进行级联,然后经过bottleneck模块进行全局特征融合。如图4(c)所示,在bottleneck模块中,角度特征首先经过1*1卷积与ReLU进行通道压缩,然后经过上采样与空间特征进行级联。融合获得的特征经过SFE进行通道扩增,然后经过光场结构reshape为阵列的SAI形式,最后经过pixel-shuffle层与1*1卷积层输出高分辨率光场SAI。

 

实验

 

做者首先介绍了数据集和实现的细节,而后进行了消融实验。最后,将LF-InterNet与最新的LF图像SR和单图像SR方法进行比较。

数据集和细节

该文采用下表所示的6个公开数据集进行训练与测试。训练时,会把每张SAI分割成64*64的大小,生成一个LR patches。网络训练采用L1 loss,数据加强采用了翻转和旋转。评价指标采用PSNR和SSIM。算法是使用pyTorch实现,已开源。针对2倍和4倍的超分辨,输入光场的角度分辨率为5*5,LF-InterNet的通道数设为64。

消融实验

空间信息和角度信息

 

经过表格2能够看出,空间信息和角度信息对于超分辨的提高均有帮助。且不能仅单独使用角度信息,空间信息对于超分辨性能的提高更有益。而本文提出的SFE和AFE对于信息的解耦能够进一步提高SR性能。

 

特征交互组的数量

能够看出,若是没有特征交互,效果较差。而随着特征交互组数量的增多,效果变得愈来愈好。

 

角度-空间上采样方式 & 角度分辨率

表格4能够看出,nearest、bilinear相较于pixel shuffling的采样方式,均不够好。表格5能够看出,2倍和4倍的超分辨重构效果均随着角度分辨率的增长而提高。

 

算法对比

 

本文在6个公开数据集上将LF-InterNet与单图超分辨算法VDSR、EDSR、RCAN、SAN、SRGAN、ESRGAN以及光场图像超分辨算法LFBM5D,GB,LFSSR,resLF,以及LF-ATO进行了比较,结果以下表格所示,本文算法是目前的SOTA。

视觉上的效果以及性能对比

经过视觉上的对比,本文算法能够更好的保持纹理和细节信息。且从模型参数量和FLOPs数上,性能是明显优于LF-ATO算法。

结论

本文提出了空间-角度信息交互的光场图像超分辨网络(LF-InterNet),首先设计了空间特征提取器与角度特征提取器分别提取光场图像的空间与角度特征,然后构建LF-InterNet对两类特征进行渐进式交互融合。实验验证了该文算法的有效性,达到了目前的SOTA。

推荐阅读
你点的每一个“在看”,我都认真当成了AI