[计算机视觉论文速递] 2018-05-10

时间 2021-02-01

标签 html git github 算法数据库网络架构框架 dom 异步栏目快乐工作繁體版

原文原文链接

通知：这篇文章有6篇论文速递信息，涉及前景检测、行为分类、3D、SLAM和去模糊等方向（含2篇CVPR论文和一篇TIP论文）html

编辑：Amusigit

审稿：Amusigithub

Foreground Detection算法

[1]《A Fusion Framework for Camouflaged Moving Foreground Detection in the Wavelet Domain》数据库

IEEE TIP 2018网络

Abstract：因为前景物体和背景之间的类似性，检测假装的（camouflaged）移动前景物体是很是困难的。传统方法因为它们之间的差别很小，因此不能区分前景和背景，所以对于假装的（camouflaged）前景对象的检测率很低。在本文中，咱们提出了一个融合框架来解决小波域（wavelet domain）中的这个问题。咱们首先代表，图像域的小差别能够在某些小波带中突出显示（highlight）。而后经过为每一个小波带制定前景和背景模型来估计每一个小波系数为前景的可能性。所提出的框架基于小波变换的特征有效地聚合来自不一样小波带的可能性。实验结果代表，该方法在检测假装前景物体方面明显优于现有方法。具体而言，该算法的平均F-measure为0.87，而其余最早进的方法则为0.71至0.8。架构

注：文中的假装（camouflaged）实际上是指前景和背景颜色和纹理等信息很相近框架

arXiv：https://arxiv.org/abs/1804.05984dom

Activity Classification异步

[2]《M-PACT: Michigan Platform for Activity Classification in Tensorflow》

Abstract：行动分类是一项广为人知的研究领域，它提供了一种视频理解的方法。如今并无包含最新技术（SOTA）模型且易于使用的平台供给大众使用。考虑到单个研究代码并非考虑最终用户编写的，而且在某些状况下代码没有发布，即便是已发布的文章，在减轻开发整个系统负担的同时，可以提供结果的通用统一平台的重要性不能夸大。为了尝试和解决这些问题，咱们开发一个基于tensorflow端到端的pipeline安装方面，统一平台减小了没必要要的开销，以容许用户快速，轻松地prototype action classification models。经过在不一样模型之间使用一致的编码风格以及各类子模块之间的无缝数据流，该平台适用于各类数据集的各类SOTA方法的快速生成结果。全部这些功能都经过使用创建在一个小而强大的一套处理异步数据加载模块的功能，模式初始化，指标计算的顶部彻底预先定义的培训和测试模块成为可能，保存和检查站的负荷，并记录结果。该平台旨在轻松建立模型，最低要求是定义网络体系结构，并从大量自定义层选择和预处理功能中预处理步骤。 M-PACT目前拥有4个SOTA活动分类模型，其中包括I3D，C3D，ResNet50 + LSTM和TSN。对于HMDB51，ResNet50 + LSTM的分类性能达到43.86％，而C3D和TSN分别达到UCF101的93.66％和85.25％。

arXiv：https://arxiv.org/abs/1804.05879

github：https://github.com/MichiganCOG/M-PACT

注：很强大的code

[3]《Pixels, voxels, and views: A study of shape representations for single view 3D object shape prediction》

CVPR 2018

Abstract：本论文的目的是比较基于表面的（surface-based）和基于体积的3D对象形状表示，以及用于单视图3D形状预测的以观察者为中心和以对象为中心的参考框架。咱们提出了一种用于从多个视点预测深度图的新算法，其中单个深度或RGB图像做为输入。经过修改网络和评估模型的方式，咱们能够直接比较体素（voxels）与表面（surfaces）的优势，以及从RGB或深度图像预测的熟悉与陌生物体的以观察者为中心与以物体为中心的优势。在咱们的研究结果中，咱们显示基于表面的方法赛过来自新类别的对象的体素表示并产生更高分辨率的输出。咱们还发现，使用以观察者为中心的坐标对于新颖的物体是有利的，而以物体为中心的表示对于更熟悉的物体更好。有趣的是，坐标系显著地影响所学的形状表示，以物体为中心更重视隐式识别物体类别和以观察者为中心的生成形状表示，而对类别识别的依赖较小。

arXiv：https://arxiv.org/abs/1804.06032

SLAM

[4]《The TUM VI Benchmark for Evaluating Visual-Inertial Odometry》

Abstract：视觉测距和SLAM方法在诸如加强现实或机器人等领域具备大量的应用。利用惯性测量补充视觉传感器极大地提升了跟踪精度和鲁棒性，所以引发了人们对视觉 - 惯性（VI）测距方法发展的极大兴趣。在本文中，咱们提出了TUM VI基准，这是一种新颖的数据集，它在不一样的场景中具备多种序列，用于评估VI odometry。它提供20 Hz下的1024x1024分辨率的照相机图像，高动态范围和光度校准。一个IMU测量3个轴上200Hz的加速度和角速度，而摄像头和IMU传感器在硬件上进行时间同步。对于轨迹评估，咱们还能够在运动捕捉系统中以高频（120 Hz）在序列的开始和结束处提供精确的姿态地面实况，这些序列与摄像机和IMU测量精确对齐。包含原始和校准数据的完整数据集是公开可用的。咱们还在咱们的数据集上评估了最早进的VI odometry方法。

arXiv：https://arxiv.org/abs/1804.06120

datasets：https://vision.in.tum.de/data/datasets/visual-inertial-dataset

Debluring

[5]《A Concatenated Residual Network for Image Deblurring》

Rejected by IJCAI 2018

Abstract：基于深度卷积神经网络（CNN）的恢复（restoration）方法最近在低级视觉任务中得到了至关大的进展，例如去噪，超分辨率，修复。然而，普通的CNN因为模糊退化形成严重的像素重叠而没法进行图像去模糊。在本文中，咱们提出了一种新颖的级联残余CNN用于图像去模糊。在基于最小均方偏差（MMSE）的区分性学习的驱动下，图像去模糊的解决方案被有趣地展开为一系列迭代残差份量，而且被分析以展现迭代残余去卷积（IRD）的贡献。此外，IRD激发了咱们向前迈进一步，为图像去模糊设计CNN。具体来讲，采用剩余的CNN单元来替代残差迭代，而后将它们链接起来并最终进行积分，从而产生链接的残余卷积网络（CRCNet）。实验结果代表，CRCNet不只能够实现更好的定量指标，还能够恢复更多视觉上合理的纹理细节。

arXiv：https://arxiv.org/abs/1804.06042

注：这篇文章虽然被IJCAI拒了，但我以为仍是有点意思的

Reconstruction

[6]《PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image》

CVPR 2018

Abstract：本文提出了一种深度神经网络（DNN），用于从单个RGB图像中进行分段平面深度图重构。尽管DNN在单图像深度预测方面取得了显著进展，但分段（piece-wise）平面深度图重建须要结构化几何表示，而且即便对于DNN也须要掌握不少任务。所提出的端到端DNN学习从单个RGB图像直接推断一组平面参数和相应的平面分割掩模。咱们已经为大规模RGBD视频数据库ScanNet的ScanNet培训和测试生成了超过50,000个分段平面深度图。咱们的定性和定量评估代表，所提出的方法在平面分割和深度估计精度方面均优于基线方法。据咱们所知，本文介绍了从单个RGB图像中分段平面重建的第一个端到端神经架构。

arXiv：

https://arxiv.org/abs/1804.06278

github：

https://github.com/art-programmer/PlaneNet

homepage：

http://art-programmer.github.io/planenet.html

注：一项很cool的工做，但Amusi不知道piecewise planar是个啥？！但愿有童鞋能够补充一下