[计算机视觉论文速递] 2018-05-16

时间 2021-02-01

标签 git github 算法数据库网络框架机器学习 ide 学习 3d 栏目快乐工作繁體版

原文原文链接

导言git

这篇文章有4篇论文速递信息，涉及单目图像深度估计、6-DoF跟踪、图像合成和动做捕捉等方向（含1篇CVPR 2018论文和1篇ICRA 2018论文）。github

CVer算法

编辑: Amusi 数据库

校稿: Amusi网络

题外话（重磅福利）框架

关注CVer的童鞋应该都知道，CVer平台的特色是论文速递，旨在整理与计算机视觉/深度学习/机器学习方向相关的最新论文。近期有童鞋反映，看了论文，脑中存在点印象，须要去CVer公众号上再翻阅再查找，有时候还会找不到。包括Amusi本身在内，也常常遇到这类问题（本身整理，本身都会忘记出处）。机器学习

为了解决这个问题，Amusi想到了实(zhuang)用(bi) 神器GitHub，因此Amusi将平常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨，还请见谅。喜欢的童鞋，欢迎star、fork和pull。直接点击“阅读全文”便可访问daily-paper-computer-vision。
link: https://github.com/amusi/daily-paper-computer-visionide

Depth Estimation学习

2018 arXiv
《Dual CNN Models for Unsupervised Monocular Depth Estimation》3d

Abstract：立体视觉中的深度估计问题已经取得了不少进展。虽然经过利用监督深度学习的深度估计来观察到很是使人满意的表现。这种方法须要大量的标定好的真实数据（ground truth）以及深度图，这些图准备很是费时费力，而且不少时候在实际状况下不可用。所以，无监督深度估计是利用双目立体图像摆脱深度图ground truth的最新方法。在无监督深度计算中，经过基于极线几何约束（epipolar geometry constraints）以图像重构损失对CNN进行训练来生成视差图像。须要解决使用CNN的有效方法以及调查该问题的更好的损失（loss）。在本文中，提出了一种基于双重（dual）CNN的模型，用于无监督深度估计，每一个视图具备6个损失（DNM6）和单个CNN，以生成相应的视差图。所提出的双CNN模型也经过利用交叉差别扩大了12个损失（DNM12）。所提出的DNM6和DNM12模型在KITTI驾驶和Cityscapes城市数据库上进行了试验，并与最近最早进的无监督深度估计结果进行了比较。

arXiv：https://arxiv.org/abs/1804.06324

github：

https://github.com/ishmav16/Dual-CNN-Models-for-Unsupervised-Monocular-Depth-Estimation/tree/master/DNM6

注：无监督学习，厉害了！

6-DoF Tracking

2018 arXiv

《Egocentric 6-DoF Tracking of Small Handheld Objects》

Abstract：虚拟和加强现实技术在过去几年中有了显著性增加。这种系统的关键部分是可以在3D空间中跟踪头戴式显示器和控制器的姿态。咱们从自我中心相机（egocentric camera perspectives）的角度解决了手持式控制器高效的6-DoF跟踪问题。咱们收集了HMD控制器数据集，该数据集由超过540,000个立体图像对组成，标记有手持控制器的完整6-DoF姿态咱们提出的SSD-AF-Stereo3D模型在3D关键点预测中实现33.5毫米的平均平均偏差，并与控制器上的IMU传感器结合使用，以实现6-DoF跟踪。咱们还介绍了基于模型的完整6-DoF跟踪方法的结果。咱们的全部型号都受到实时移动CPU inference的严格限制。

arXiv：https://arxiv.org/abs/1804.05870

Image Synthesis

《Geometry-aware Deep Network for Single-Image Novel View Synthesis》

CVPR 2018

Abstract：本文从单个图像解决了新颖视图合成的问题。特别是，咱们针对的是具备丰富几何结构的真实场景，这是一个具备挑战性的任务，由于这些场景的外观变化很大，而且缺少简单的3D模型来表示它们。现代的，基于学习的方法主要集中于外观来合成新颖的视图，所以倾向于产生与底层场景结构不一致的预测。相反，在本文中，咱们建议利用场景的三维几何来合成一种新颖的视图。具体而言，咱们经过固定数量的平面逼近真实世界的场景，并学习预测一组单应性（homographies）及其相应的区域蒙版/掩膜（masks），以将输入图像转换为新颖视图。为此，咱们开发了一个新的区域感知型几何变换网络（region-aware geometric transform network），在一个通用框架中执行这些多任务。咱们在户外KITTI和室内ScanNet数据集上的结果证实了咱们网络在生成场景几何的高质量合成视图方面的有效性，从而超越了最早进的方法。

arXiv：https://arxiv.org/abs/1804.06008

Motion Capture

ICRA 2018

《Human Motion Capture Using a Drone》

Abstract：目前的动做捕捉（MoCap）系统一般须要标记和多个校准摄像头，这些摄像头只能在受限环境中使用。在这项工做中，咱们介绍了一款基于无人机的3D人体模型系统。该系统只须要具备自主飞行无人机和板载RGB相机，并可用于各类室内和室外环境。重建算法被开发用于从无人机记录的视频恢复全身运动。咱们认为，除了跟踪移动主体的能力以外，飞行无人机还提供快速变化的视点，这对于运动重建是有益的。咱们使用咱们新的DroCap数据集评估拟议系统的准确性，并使用消费无人机在野外证实其适用。

arXiv：https://arxiv.org/abs/1804.06112

github：https://github.com/daniilidis-group/drocap

注：脑洞好大的研究，很cool