通知:这篇推文有14篇论文速递信息,涉及目标检测、图像分割、显著性目标检测、人脸识别和GAN等方向算法
最近有些忙,论文速递频率快降低至两天一更了,但愿你们能够体谅。数据库
前文回顾网络
[计算机视觉] 入门学习资料架构
[计算机视觉论文速递] 2018-03-14框架
[计算机视觉论文速递] 2018-03-11机器学习
目标检测ide
[1]《Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection》模块化
Abstract:对于行人检测来讲,色彩 - 热量对的多光谱图像比单一颜色通道更有效,特别是在具备挑战性的照明条件下。可是,如何有效融合这两种模式仍然缺少研究。在本文中,咱们深刻比较了六种不一样的卷积网络融合体系结构并分析了它们的适应性,使得vanilla architecture可以得到与最新结果相媲美的检测性能。此外,咱们发现,来自彩色或热图像的行人检测可信度与照明条件相关。考虑到这一点,咱们提出了一种照明感知更快的R-CNN(IAF RCNN)。具体而言,引入照明感知网络来给出输入图像的照明度量。Then we adaptively merge color and thermal sub-networks via a gate function defined over the illumination value. The experimental results on KAIST Multispectral Pedestrian Benchmark validate the effectiveness of the proposed IAF R-CNN.函数
arXiv:https://arxiv.org/abs/1803.05347工具
[2]《Rotation-Sensitive Regression for Oriented Scene Text Detection》
CVPR 2018
Abstract:天然图像中的文本具备任意方向,须要根据定向边界框进行检测。一般状况下,多导向的文本检测器每每涉及两个关键任务:1)文本存在检测,这是一个无视文本方向的分类问题; 2)面向边界框的回归,它关注文本的方向。之前的方法依赖于这两个任务的共享功能,因为两个任务不兼容致使性能降低。为了解决这个问题,咱们提出对不一样设计的两个网络分支提取不一样特征的特征进行分类和回归。具体而言,回归分支经过主动旋转卷积滤波器来提取旋转敏感特征,而分类分支经过聚集旋转敏感特征来提取旋转不变特征。所提出的方法名为旋转敏感回归检测器(RRD),在三个面向文本的基准数据集(包括ICDAR 2015,MSRA-TD500,RCTW-17和COCO-Text)上实现了最早进的性能。此外,RRD在船舶采集数据集上实现了重大改进,证实了其在面向对象检测方面的通常性。
arXiv:https://arxiv.org/abs/1803.05265
[3]《Knowledge-based Recurrent Attentive Neural Network for Traffic Sign Detection》
Abstract:准确的交通标志检测(TSD)能够帮助驾驶员根据交通规则作出更好的决策。 TSD做为一种典型的小型物体检测问题,在自动驾驶和先进的驾驶辅助系统领域是很是重要的。 可是,小物体检测仍然是一个悬而未决的问题。 在本文中,咱们提出了一我的脑启发网络来处理这个问题。 注意机制是咱们大脑的基本功能,咱们使用了一种新颖的周期性注意神经网络,以精细得到的方式提升检测精度。 此外,因为咱们人类能够结合领域特定知识和直觉知识来解决棘手的任务,所以咱们提出了一个假设,即交通标志的位置服从反向高斯分布,这意味着位置在每张图片的中心偏向附近。 实验结果代表,咱们的方法比目标检测中使用的几种经常使用方法取得了更好的性能。
arXiv:https://arxiv.org/abs/1803.05263
[4]《Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Salient Objects》
Abstract:显著目标检测是一个已被详细考虑的问题,并提出了许多解决方案。在本文中,咱们认为迄今为止的工做已经解决了一个相对不合适的问题。具体而言,当多个观察者被询问时,对于什么构成显著目标并无广泛的一致意见。这意味着一些目标比其余目标更有可能被判断为显著,而且意味着显著物体上存在相对等级。本文提出的解决方案解决了考虑相对等级的这个更通常的问题,而且咱们提出了适合测量相对对象显著性landscape成功的数据和度量。基于相对显著性和分阶段细化的分层表示,提出了一种新颖的深度学习解决方案。咱们还代表,显著对象subitizing的问题能够用同一网络来解决,并且咱们的方法超越了全部考虑的指标(传统和新提出的)的任何先前工做的性能。
arXiv:https://arxiv.org/abs/1803.05082
图像分割
[5]《Combining Multi-level Contexts of Superpixel using Convolutional Neural Networks to perform Natural Scene Labeling》
Abstract:现代深度学习算法引起了各类图像分割方法。 然而,其中大多数涉及基于像素的分割。 可是,超像素提供了必定程度的上下文信息,同时下降了计算成本。 在咱们的方法中,咱们已经执行了超像素级别的语义分割,考虑3个不一样层次做为语义上下文的邻居。 此外,咱们已经招募了一些集合方法,如最大投票和加权平均。 咱们还使用了Dempster-Shafer不肯定性理论来分析各类类别之间的混淆。 咱们的方法已被证实在同一数据集上优于许多不一样的现代方法。
注:厉害厉害,superpixel semantic segmentation
arXiv:https://arxiv.org/abs/1803.05200
[6]《Topology guaranteed segmentation of the human retina from OCT using convolutional neural networks》
Abstract:光学相干断层扫描(OCT)是一种无创成像模式,可用于获取视网膜的深度图像。所以能够经过分析这些OCT图像来量化变化的层厚度,并且已经显示这些变化与多发性硬化症中的疾病进展相关。最近的自动视网膜层分割工具使用机器学习方法来执行像素方式标记和图形方法以保证图层分层结构或拓扑结构。然而,像距离和平滑度约束等图形参数必须经过视网膜区域和病理进行实验指定,从而下降整个框架的灵活性和时间效率。在本文中,咱们开发了级联深度网络,以在单前馈传播中提供拓扑正确的视网膜层分割。第一个网络(S-Net)执行按像素标记,第二个回归网络(R-Net)采用拓扑不受约束的S-Net结果,并输出每层和每一个位置的层厚度。 Relu激活被用做R-Net的最终操做,其保证了输出层厚度的非负性。因为分割边界位置是经过对相应的非负层厚度求和而得到的,因此即便在边界之间的距离能够为零的中心凹处也保证了重构边界的层次排序(即,拓扑结构)。 R-Net使用模拟掩模进行训练,所以能够推广到为其余分层结构提供拓扑保证分割。这个深度网络已经达到可比较的平均绝对边界偏差(2.82微米)到最早进的图形方法(2.83微米)。
arXiv:https://arxiv.org/abs/1803.05120
人脸
[7]《Face-MagNet: Magnifying Feature Maps to Detect Small Faces》
Abstract:在本文中,咱们介绍面部放大器网络(Face-MageNet),它是一种基于Faster-RCNN框架的人脸检测器,能够将小尺度人脸的识别信息流传送给分类器,而不会出现任何跳跃或残留链接。为了实现这个目标,Face-MagNet在区域提议网络(RPN)中部署了一套ConvTranspose(也称为去卷积)层,并在感兴趣区域(RoI)池层以前部署了另外一套ConvTranspose,以便于检测更精细的人脸。此外,咱们还设计,培训和评估其余三个精心设计的架构,这些架构表明了规模问题的常规解决方案:上下文池,跳过链接和缩放分区。这三个网络中的每个均可以得到与最早进的面部检测器相媲美的结果。通过大量实验,咱们证实基于VGG16架构的Face-MagNet比最近提出的基于ResNet101的HR方法在WIDER数据集上的人脸检测任务上得到了更好的结果,而且在hard set上也得到了与咱们的其余方法SSH相似的结果。
arXiv:https://arxiv.org/abs/1803.05258
GAN
[8]《Image Colorization with Generative Adversarial Networks》
Abstract:在过去的十年中,灰度图像的彩色化和老化和/或退化图像的恢复,自动着色的过程已经被完全研究。 因为颜色信息分配过程当中的自由度很是大,所以这个问题很是不恰当。 自动彩色化的近期发展包括在整个培训期间包含共同主题的图像,和/或须要高度处理的数据(如语义地图)做为输入数据。 在咱们的方法中,咱们试图使用有条件的深度卷积生成对抗网络(DCGAN)彻底归纳这个过程。 该网络经过公开可用的数据集进行培训,如CIFAR-10和Places365。 比较生成模型和传统深层神经网络的结果。
arXiv:https://arxiv.org/abs/1803.05400
其它
[9]《Deep Image Demosaicking using a Cascade of Convolutional Residual Denoising Networks》
Abstract:去马赛克和去噪是现代数码相机pipelines中最关键的步骤之一。同时,联合图像去噪 - 去马赛克是一种很是不适合的反演问题,其中至少有三分之二的信息丢失,其他的信息被噪声破坏。这对于得到有意义的重建提出了巨大的挑战,而且须要特别注意有效处理该问题。虽然最近有几种机器学习方法被用来解决这个问题,但在这项工做中,咱们提出了一种新颖的深度学习体系结构,它受到强大的经典图像正则化方法和大规模凸面优化技术的启发。所以,与其余竞争深度学习方法相比,咱们派生的网络更加透明而且有着明确的解释。咱们普遍的实验代表,咱们的网络在噪声和无噪数据方面都优于之前的任何方法。重建质量的这种提升归功于咱们设计网络架构的原则性方式,与当前最早进的深度网络解决方案相比,这种方法所需的可训练参数也更少。最后,咱们代表,即便在小数据集上进行训练时,咱们的网络仍具备良好的泛化能力,同时保持低参数总数。
arXiv:https://arxiv.org/abs/1803.05215
[10]《Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning》
Abstract:视觉问题回答须要图像的高阶推理,这是机器系统遵循复杂指令所需的基本能力。最近,模块化网络已被证实是执行视觉推理任务的有效框架。虽然模块化网络最初设计时具备必定程度的模型透明度,但它们在复杂的视觉推理基准上的表现还很欠缺。当前最早进的方法不能提供理解推理过程的有效机制。在本文中,咱们关闭了可解释模型和最早进的视觉推理方法之间的性能差距。咱们提出了一组视觉推理原语,它们在组成时表现为可以以明确可解释的方式执行复杂推理任务的模型。基元输出的保真度和可解释性使得无与伦比的能力能够诊断所得模型的优势和缺点。重要的是,咱们显示这些原始数据是高性能的,在CLEVR数据集上达到了99.1%的最高精确度。咱们还代表,当提供包含新颖对象属性的少许数据时,咱们的模型可以有效地学习广义表示。使用CoGenT归纳任务,咱们显示出比现有技术水平提升了20个百分点。
注:视觉推理VOA再次Mark
arXiv:https://arxiv.org/abs/1803.05268
[11]《EdgeStereo: A Context Integrated Residual Pyramid Network for Stereo Matching》
Abstract:最近卷积神经网络(CNN)极大地促进了立体匹配的发展。特别是那些端到端的立体方法实现最佳性能。然而,对编码上下文信息的关注较少,简化了两阶段视差学习管道,并改善了视差图中的细节。不一样的是,咱们专一于这些问题。首先,咱们提出了一种基于一阶段上下文金字塔的残差金字塔网络(CP-RPN)进行视差估计,其中嵌入了上下文金字塔以明确地对多尺度上下文线索进行编码。接下来,咱们设计了一个名为EdgeStereo的基于CNN的多任务学习网络,利用边缘检测任务中的中级特征来恢复视差图中的缺失细节。在EdgeStereo中,CP-RPN与基于双重多任务交互的建议边缘检测器HEDβ集成在一块儿。端到端EdgeStereo直接从立体对输出边缘地图和视差图,而无需任何后期处理或正则化。咱们发现边缘检测任务和立体匹配任务能够在咱们的EdgeStereo框架中互相帮助。诸如Scene Flow和KITTI 2015等立体基准的全面实验代表,咱们的方法达到了最早进的性能。
arXiv:https://arxiv.org/abs/1803.05196
[12]《LCANet: End-to-End Lipreading with Cascaded Attention-CTC》
Abstract:机器唇部读取是一种特殊类型的自动语音识别(ASR),它经过视觉解释包括嘴唇,脸部和舌头在内的相关脸部区域的运动来转录人类言语。最近,基于深度神经网络的唇线阅读方法显示出巨大的潜力,而且在一些基准数据集中超过了经验丰富的人类唇线笔的准确性。然而,唇读仍远未解决,现有方法对野生数据的错误率每每较高。在本文中,咱们提出LCANet,一种基于端到端深度神经网络的唇读系统。 LCANet使用堆叠的3D卷积神经网络(CNN),高速公路网络和双向GRU网络对输入视频帧进行编码。编码器有效捕获短时和长时空时信息。更重要的是,LCANet集成了一个级联注意-CTC解码器来生成输出文本。经过级联CTC注意力,它能够部分消除隐藏的神经层中CTC的条件独立性假设的缺陷,而且这产生显着的性能改进以及更快的收敛。实验结果代表,所提出的系统在GRID语料库数据库上实现了1.3%的CER和3.0%的WER,与最早进的方法相比,致使了12.3%的改进。
注:CNN都能用到唇读上了,腻害腻害!
arXiv:https://arxiv.org/abs/1803.04988
[13]《Averaging Weights Leads to Wider Optima and Better Generalization》
Abstract:深度神经网络一般经过使用SGD变量优化损失函数以及衰减学习率来训练,直到收敛。 咱们代表,沿着SGD的轨迹的多个点的简单平均,具备周期性或恒定的学习率,致使比传统训练更好的泛化。 咱们还代表,这种随机加权平均(SWA)程序发现比SGD更普遍的最优化,而且近似于最近的使用单个模型的快速几何集成(FGE)方法。 使用SWA,咱们在CIFAR-10,CIFAR-100和ImageNet上与传统的SGD培训相比,在一系列最早进的残留网络,PyramidNets,DenseNets和Shake-Shake网络上实现了测试精度的显着提升。 简而言之,SWA很是容易实现,改进了泛化,几乎没有计算开销。
注:SWA???
arXiv:https://arxiv.org/abs/1803.05407
[14]《Approximate Query Matching for Image Retrieval》
Abstract:传统图像识别涉及经过单个对象焦点(ILSVRC,AlexNet和VGG)识别纵向型图像中的关键对象。更近期的方法考虑密集图像识别 - 用合适的边界框分割图像并在这些边界框内执行图像识别(语义分割)。 Visual Genome数据集[5]试图将这些不一样的方法链接到每一个子任务边界框生成,图像识别,字幕和一项新操做(场景图生成)的粘性数据集上。咱们的重点是使用这样的场景图来对图像数据库执行图搜索以基于搜索标准总体检索图像。咱们开发了一种方法,在图形数据库(使用Neo4J)中存储场景图形和元数据,并基于图形搜索查询执行图像的快速近似检索。咱们处理比单个对象搜索更复杂的查询,例如“女孩吃蛋糕”检索包含指定关系以及变体的图像。
arXiv:https://arxiv.org/abs/1803.05401