[计算机视觉论文速递] 2018-04-23

通知:这篇文章有6篇论文速递信息,涉及目标检测、图像分割、3D卷积等方向(含1篇CVPR论文)git

目标检测github

[1]《Zero-Shot Object Detection》
[计算机视觉论文速递] 2018-04-23
Abstract:咱们介绍和解决了Zero-Shot 目标检测(ZSD)的问题,它旨在检测训练期间未观察到的物体类别。咱们与一组具备挑战性的对象类一块儿工做,而不是将咱们限制在相似和/或细粒度的类别中。以前的zero-shot classification工做。咱们遵循一个原则性的方法,首先适应ZSD的视觉语义嵌入。而后咱们讨论与选择背景类相关的问题,并激发两种背景感知方法来学习鲁棒检测器。其中一个模型使用固定的背景类,另外一个基于迭代的潜在分配。咱们还概述了与使用有限数量的训练类别相关的挑战,并提出了基于使用大量类别的辅助数据对语义标签空间进行密集采样的解决方案。咱们提出了两种标准检测数据集 - MSCOCO和VisualGenome的新型分割,并讨论了普遍的实证结果,以突出所提出的方法的优势。咱们提供有用的insights into the algorithm,并经过提出一些开放问题来鼓励进一步的研究。算法

arXiv:https://arxiv.org/abs/1804.04340网络

注:对Zero-Shot方向感兴趣的同窗能够自行google一下 zero-shot classification架构


图像分割
框架

[2]《Outline Objects using Deep Reinforcement Learning》ide

[计算机视觉论文速递] 2018-04-23
[计算机视觉论文速递] 2018-04-23

Abstract:图像分割须要局部边界位置信息和全局对象上下文信息。 最近最早进的方法 - 全卷积网络 - 的性能在端到端训练风格中同时平衡两种信息以后,因为神经网络限制而出现瓶颈。 为了克服这个问题,咱们将语义图像分割成时间子任务。 首先,咱们找到一个物体边界的可能像素位置; 而后在有限长度内按步骤追踪边界,直到整个对象被勾画出来。 咱们提出了第一个深度强化学习方法来进行语义图像分割,称为DeepOutline,它在Coco val2017数据集中的中等和大尺寸人员类别中优于Coco检测排行榜中的其余算法。 同时,它经过强化学习计算机视觉问题,提供了一种分而治之的方法。函数

arXiv:https://arxiv.org/abs/1804.04603性能

注:使用了强化学习(Reinforcement Learning),实在很6学习

[3]《A two-stage 3D Unet framework for multi-class segmentation on full resolution image》

[计算机视觉论文速递] 2018-04-23

Abstract:深度卷积神经网络(CNN)已被普遍用于多种类别的数据分割,并得到了最早进的性能。然而,处理大型高分辨率3D数据时的一个常见问题是,因为计算设备的存储容量有限,输入深度CNN的体积必须进行裁剪(crop)或降采样(downsample)。这些操做会致使输入数据 batches 中分辨率的下降和类不平衡的增长,从而下降分割算法的性能。受到图像超分辨率CNN(SRCNN)和self-normalization(SNN)的架构的启发,咱们开发了一个两阶段修改的Unet框架,它能够同时学习检测整个体积内的ROI并对体素进行分类而不会丢失原始图像解析度。对各类多模式音量的实验代表,当用简单加权的模子系数和咱们定制的学习程序进行训练时,该框架显示比具备高级类似性度量标准的最早进的深CNN更好的分割性能。

arXiv:https://arxiv.org/abs/1804.04341

3D

[4]《Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling》

CVPR 2018

[计算机视觉论文速递] 2018-04-23

[计算机视觉论文速递] 2018-04-23

Abstract:咱们从一个图像研究三维形状建模,并从三个方面对其作出贡献。 首先,咱们展现了Pix3D,这是一个不一样图像形状对与像素级2D-3D对齐的大型benchmark。 Pix3D在形状相关的任务中有着普遍的应用,包括重建,检索,视点估计等。然而,构建这样的大规模数据集很是具备挑战性; 现有数据集或者只包含合成数据,或者缺乏2D图像和3D图形之间的精确对齐,或者仅包含少许图像。 其次,咱们经过行为研究来校准三维形状重建的评估标准,并使用它们客观地,系统地对Pix3D上的cutting-edge重建算法进行基准测试。 第三,咱们设计了一个同时进行三维重建和姿态估计的新模型; 咱们的多任务学习方法能够在两项任务中实现最早进的性能。

arXiv:https://arxiv.org/abs/1804.04610

homepage:http://pix3d.csail.mit.edu/

code:https://github.com/xingyuansun/pix3d

[5]《CubeNet: Equivariance to 3D Rotation and Translation》

[计算机视觉论文速递] 2018-04-23

Abstract:3D卷积神经网络对应用于其输入的转换很敏感。这是一个问题,由于3D对象的体素化版本(voxelized version)及其旋转的克隆在经过网络的最后一层以后看起来彼此不相关。相反,理想化的模型会保留体素化对象的有意义的表示,同时解释两个输入之间的姿态差别。等变表示向量有两个组成部分:不变身份(identity)部分和转换的可辨别编码。没法解释姿态差别的模型会“稀释”表示,以追求优化分类或回归损失函数。

咱们引入了一个群组(group)卷积神经网络,它具备三维平移和直角旋转的线性等变性。咱们称之为网络CubeNet,反映它的立方体状对称性。经过构建,这个网络有助于保持3D形状的全局和局部签名,由于它经过连续的层次进行转换。咱们将该网络应用于各类3D推理问题,实现了ModelNet10分类挑战的最新技术,以及ISBI 2012 Connectome分段基准测试的可比性能。就咱们所知,这是第一个用于体素表示的3D旋转等变CNN。

arXiv:https://arxiv.org/abs/1804.04458

注:通常2D对象都是用pixel,而3D对象是用voxel来计算,后者难度很大啊!

其它

[6]《Extraction of Airways using Graph Neural Networks》

[计算机视觉论文速递] 2018-04-23

Abstract:咱们从图像数据中提取树结构(如气道)的提取,做为图形细化任务。 为此,咱们提出了一种图形自动编码器模型,该模型使用基于图形神经网络(GNN)的编码器来学习来自输入节点特征的嵌入和解码器以预测节点之间的链接。 GNN模型的性能与平均野外网络相比,可以从3D胸部CT扫描中提取气道。

arXiv:[1804.04436] Extraction of Airways using Graph Neural Networks

相关文章
相关标签/搜索