通知:这篇文章有9篇论文速递信息,涉及目标检测、图像分割、目标跟踪、三维重建和立体匹配等方向
PS:因为时间问题,本文没有附上相应图示,还请见谅git
前文回顾github
TensorFlow和深度学习入门教程算法
YOLOv3:你必定不能错过网络
你如今应该阅读的7本最好的深度学习书籍app
目标检测框架
[1]《Optimizing the Trade-off between Single-Stage and Two-Stage Object Detectors using Image Difficulty Prediction》ide
Abstract:主要有两种类型的最早进的物体探测器。一方面,咱们two-stage探测器,好比Faster R-CNN(基于区域的卷积神经网络)或Mask R-CNN,它们(i)使用区域提议网络在第一阶段产生兴趣区域, (ii)将区域提案发送到pipeline中以进行对象分类和边界框回归。这样的模型达到了最高的准确率,但一般较慢。另外一方面,咱们有YOLO(You Only Look Once)和SSD(Singe Shot MultiBox Detector)等single-stage探测器,将物体探测做为一个简单的回归问题,它将输入图像做为输入图像并学习类几率,边界框坐标。这种模型的准确率较低,但比two-stage物体探测器快得多。在本文中,咱们建议使用图像难度预测器来实现目标检测中精度和速度之间的最佳平衡。将图像难度预测器应用到测试图像上,将其分解为简易图像和困难图像。一旦分离后,简单的图像将被发送到更快的single-stage探测器,而困难图像被发送到更精确的two-stage探测器。咱们在PASCAL VOC 2007上进行的实验代表,使用图像难度与图像的随机分割相比绝不逊色。咱们的方法是灵活的,由于它容许选择一个指望的阈值,将图像分红简单和较难。性能
注:还能有这种操做?!感受就是一个预处理,但实际中仍是要训练两个模型,咦!不过若是整体测试,精度和速度若达到均衡也很棒!学习
arXiv:https://arxiv.org/abs/1803.08707测试
[2]《Speeding-up Object Detection Training for Robotics with FALKON》
Abstract:最新的物体检测深度学习方法获得了显著的性能提高,但在机器人应用中使用时会受到限制。最相关的问题之一是训练时间长,这是因为相关训练集的大小和不平衡形成的,其特征在于不多的正样本和负样本(即背景)例子。提出的方法,不管是基于反向传播的端对端学习[22],or standard kernel methods trained with Hard Negatives Mining on top of deep features [8],都证实是有效的,但对于在线应用却不合适。在本文中,咱们提出了一种新颖的物体检测pipeline,克服了这个问题,并提供了与60倍训练加速至关的性能。咱们的流程结合了(i)区域提议网络和[22]中的深度特征提取器,以有效地选择候选RoI并将它们编码成强大的表示,(ii)最近提出的FALKON [23]算法,一种新的基于内核的方法能够快速训练数百万分。咱们经过利用方法中固有的随机子采样,结合一种新颖,快速的自举方法来解决训练数据的大小和不平衡问题。咱们评估标准计算机视觉设置(PASCAL VOC 2007 [5])中该方法的有效性,并证实其适用于由iCubWorld Transformations [18]数据集表示的真实机器人场景。
arXiv:https://arxiv.org/abs/1803.08740
[3]《Object Detection for Comics using Manga109 Annotations》
Abstract:随着数字化漫画的发展,图像理解技术变得愈来愈重要。在本文中,咱们着重于对象检测,这是图像理解的基础任务。尽管基于卷积神经网络(CNN)的方法在天然图像的对象检测中存档良好,但在将这些方法应用于漫画对象检测任务时存在两个问题。首先,没有大规模的带注释的漫画数据集。基于CNN的方法须要大规模的注释用于训练。其次,与天然图像相比,漫画中的物体高度重叠。这种重叠会致使现有的基于CNN的方法中的分配问题。为了解决这些问题,咱们提出了一个新的注释数据集和一个新的CNN模型。咱们注释了现有的漫画图像数据集,并建立了最大的注释数据集Manga109-annotations。对于分配问题,咱们提出了一种新的基于CNN的探测器SSD300-fork。咱们使用Manga109注释比较SSD300-fork与其余检测方法,并确认咱们的模型基于mAP得分赛过了它们。
注:上述将annotation翻译成了注释,有些不妥,但思来想去,翻译成标签、标记都仍是很差。讲真,仍是意会比较好。
arXiv:https://arxiv.org/abs/1803.08670
图像分割
[4]《Context Encoding for Semantic Segmentation》
CVPR 2018
Abstract:最近的工做已经在利用全卷积网络(FCN)框架经过使用扩张/Atrous 卷积,利用多尺度特征和细化边界来提升用于像素标记的空间分辨率方面取得重大进展。在本文中,咱们经过引入上下文编码模块来探索全局上下文信息在语义分割中的影响,上下文编码模块捕获场景的语义上下文并选择性地突出显示与类相关的特征图。所提出的上下文编码模块显著改善了语义分割结果,而且在FCN上仅有边际额外计算成本。咱们的方法在PASCAL-Context上得到了51.7%的最新成果,在PASCAL VOC 2012上得到了85.9%的mIoU。咱们的单一模型在ADE20K测试集上取得了0.5567的最终成绩,超过了COCO 2017冠军此外,咱们还探讨了上下文编码模块如何改进CIFAR-10数据集上图像分类的相对浅层网络的特征表示。咱们的14层网络已经实现了3.45%的错误率,这与具备10倍以上层数的最早进方法至关。完整系统的源代码是公开可用的。
注:期待源码早点公开!
arXiv:https://arxiv.org/abs/1803.08904
[5]《Deep learning and its application to medical image segmentation》
Abstract:在医学成像中最多见的任务之一是语义分割。自动实现这种分割一直是一个活跃的研究领域,但因为不一样患者的解剖结构差别很大,这项任务已被证实很是具备挑战性。然而,深度学习的最新进展使得显著提升了计算机视觉领域中的图像识别和语义分割方法的性能。因为在深度学习框架中采用数据驱动的分层特征学习方法,这些进步能够绝不费力地转化为医学图像。深卷积神经网络的几种变体已成功应用于医学图像。特别是彻底卷积体系结构已被证实是有效的3D医学图像分割。在本文中,咱们将介绍如何构建一个能够处理3D图像以产生自动语义分割的3D彻底卷积网络(FCN)。该模型通过临床计算机断层扫描(CT)数据集的训练和评估,并显示了多器官分割的最新性能。
arXiv:https://arxiv.org/abs/1803.08691
目标跟踪
[6]《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》
CVPR 2018
Abstract:鉴别相关滤波器(DCF)在视觉追踪中是有效的,但遭受不须要的边界效应。已经提出空间正则化DCF(SRDCF)来经过对DCF系数执行空间惩罚来解决这个问题,这不可避免地以复杂性增长的价格提升了跟踪性能。为了处理在线更新,SRDCF在多个训练图像上制定了模型,进一步增长了提升效率的难度。在这项工做中,经过将单个样本的时间正则化引入SRDCF,咱们提出了咱们的空间 - 时间正则化相关滤波器(STRCF)。受到在线被动 - 积极(PA)算法的启发,咱们将时间正则化引入单样本SRDCF,从而产生咱们的时空正则化相关滤波器(STRCF)。 STRCF公式不只能够做为SRDCF与多个训练样本的合理近似,并且在外观变化大的状况下也能够提供比SRDCF更强大的外观模型。此外,它能够经过乘法器的交替方向法(ADMM)有效解决。经过结合时间和空间正则化,咱们的STRCF能够处理边界效应,而不会产生太多的效率损失,而且在精确度和速度方面比SRDCF实现更好的性能。实验在三个基准数据集上进行:OTB-2015,Temple-Color和VOT-2016。与SRDCF相比,具备手工特征的STRCF提供了5倍的加速,分别在OTB-2015和Temple-Color上得到了5.4%和3.6%的AUC分数。此外,STRCF与CNN功能相结合,对于最早进的基于CNN的跟踪器也表现出色,而且在OTB-2015上得到了68.3%的AUC评分。
arXiv:https://arxiv.org/abs/1803.08679
[7]《Region-filtering Correlation Tracking》
Abstract:最近,相关滤波器已经证实了在视觉跟踪方面的出色表现。可是,基本训练样本区域大于目标区域,包括干涉区域(IR)。基训练样本的循环移位训练样本中的IR严重下降了跟踪模型的质量。在本文中,咱们提出了新颖的区域滤波相关跟踪(RFCT)来解决这个问题。咱们当即经过将空间图引入标准CF配方来过滤训练样本。与现有的相关滤波跟踪器相比,咱们提出的跟踪器具备如下优势:(1)能够在较大的搜索区域上学习相关滤波器,而不受空间映射的干扰。 (2)因为经过空间图处理训练样本,在训练样本中控制背景信息和目标信息是更通常的方法。空间图的值不受限制,那么能够探索更好的空间图。 (3)增长精确过滤器的重量比例以减轻模型corruption。在两个基准数据集上进行实验:OTB-2013和OTB-2015。对这些基准的定量评估代表,所提出的RFCT算法对于几种最早进的方法有良好的表现。
arXiv:https://arxiv.org/abs/1803.08687
三维重建
ICIP 2017
[8]《CSfM: Community-based Structure from Motion》
Abstract:动态结构方法大体能够分为两类:增量式和全局式。虽然增量式方法对异常值具备鲁棒性,但会受到偏差累积和大量计算负担的影响。全局方式具备同时估计全部相机姿态的优势,但它一般对极外几何异常值很敏感。在本文中,咱们提出了一个基于自适应社区的SfM(CSfM)方法,该方法既考虑到鲁棒性又考虑效率。首先,极线几何图形被划分为不一样的社区。而后,并行解决每一个community 的重建问题。最后,重构结果由一种新的全局类似性平均方法合并,解决了三个凸L1优化问题。实验结果代表,咱们的方法在计算效率方面比许多先进的SfM方法执行得更好,同时得到与许多最早进的增量SfM类似或更好的重构精度和鲁棒性方法。
arXiv:https://arxiv.org/abs/1803.08716
立体匹配
[9]《Pyramid Stereo Matching Network》
CVPR 2018
Abstract:最近的研究代表,从一对立体图像进行深度估计能够被制定为一个监督学习任务,用卷积神经网络(CNN)来解决。 然而,目前的体系结构依赖于基于parch的Siamese网络,缺少利用上下文信息来查找在所示区域的对应关系的手段。为了解决这个问题,咱们提出PSMNet,一个由两个主要模块组成的金字塔立体匹配网络:空间金字塔池和3D CNN。空间金字塔池模块经过聚合不一样尺度和位置的上下文来利用全局上下文信息的能力来造成cost volume。3D CNN学习使用堆叠的多个hourglass网络结合中间监督来调整cost volume。所提出的方法在几个基准数据集上进行了评估。 咱们的方法在2018年3月18日以前的KITTI 2012和2015排行榜中排名第一。