[计算机视觉论文速递] 2018-03-31

时间 2021-02-01

标签 git github 算法网络架构 ide 函数工具性能学习栏目快乐工作繁體版

原文原文链接

通知：这篇文章有10篇论文速递信息，涉及Re-ID、深度估计、超分辨率、显著性检测、GAN、VOA和卷积神经网络综述等方向git

往期回顾github

[计算机视觉论文速递] 2018-03-30算法

TensorFlow和深度学习入门教程网络

你如今应该阅读的7本最好的深度学习书籍架构

Re-IDide

[1]《Pose-Driven Deep Models for Person Re-Identification》函数

Abstract：行人重识别（re-id）是识别和匹配不重叠视图的摄像机记录的不一样位置人员的任务。re-id的主要挑战之一是人物姿态和摄像机角度的巨大差别，由于它们都不会受re-id系统的影响。在这项工做中，介绍了一种有效的方法来将粗略的相机视图信息和细粒度姿态信息整合到用于学习区分性从新嵌入的卷积神经网络（CNN）模型中。在最近的工做中，姿式信息或者在从新识别系统内被明确地建模，或者明确地用于预处理，例如经过姿式规范化人员图像。相反，所提出的方法代表，将相机视图以及检测到的身体关节位置直接用于标准CNN能够用于显著提升所学习的re-id嵌入的鲁棒性。在四个具备挑战性的监控和视频从新标识数据集上，已经实现了对当前技术水平的重大改进。此外，引入了MARS数据集的一种新的从新排序，称为X-MARS，以容许在轨迹数据上进行针对单图像从新识别训练的模型的交叉验证。工具

arXiv：https://arxiv.org/abs/1803.08709性能

[2]《Weighted Bilinear Coding over Salient Body Parts for Person Re-identification》学习

Abstract：深度卷积神经网络（CNN）已经证实了在行人重识别（Re-ID）方面的有很大的做用。现有的基于CNN的方法利用全局平均池（GAP）来聚合Re-ID的中间卷积特征。可是，该策略仅考虑局部特征的一阶统计量，并将同一重要位置处的局部特征视为同等重要，致使次优特征表示。为了解决这些问题，咱们提出了一种新颖的用于CNN网络中局部特征聚合的加权双线性编码（WBC）模型，以追求更具表明性和区分性的特征表示。具体而言，双线性编码被用于编码信道方面的特征相关性以捕获更丰富的特征交互。同时，对双线性编码应用加权方案，根据识别的重要性自适应调整不一样位置的局部特征权值，进一步提升特征聚合的可辨性。为了处理空间误差问题，咱们使用显著的部分网络来导出显著的身体部位，并将WBC模型应用于每一个部分。经过链接每一个部分的WBC编码特征造成的最终表示既具备区分性又能抵抗空间不对齐。包括Market-1501，DukeMMC-reID和CUHK03三个基准的实验证实了咱们的方法与其余最早进的方法的良好表现。

arXiv：https://arxiv.org/abs/1803.08580

深度估计

[3]《Revisiting Single Image Depth Estimation: Toward Higher Resolution Maps with Accurate Object Boundaries》

Abstract：咱们从新讨论从单个RGB图像估计场景深度的问题。尽管近期深度学习方法取得了成功，但咱们代表，经过训练由两个子网络组成的深层网络，在两个方面仍有改进的空间; 用于提供初始深度估计的基础网络，以及用于提炼它的精化网络。首先，可使用以顺序方式训练的子网络之间的跳跃链接来改进估计的深度图的空间分辨率。其次，咱们能够经过使用建议的使用深度梯度的损失函数来提升场景中物体边界的估计精度。实验结果代表，所提出的网络和方法提升了基线网络的深度估计性能，特别是对于小物体的重建和边缘失真的细化，而且优于基准数据集上的最新方法。

arXiv：https://arxiv.org/abs/1803.08673

超分辨率

[4]《Fast, Accurate, and, Lightweight Super-Resolution with Cascading Residual Network》

Abstract：近年来，深度学习方法已成功应用于单幅图像超分辨率任务。尽管它们表现出色，但因为计算量大，因此深度学习方法没法轻易应用到实际应用中。在本文中，咱们经过提出一个准确而轻量级的图像超分辨率深度学习模型来解决这个问题。详细来讲，咱们设计了一个在残差网络上实现级联机制的架构。咱们还提出了提出的级联残余网络的变体模型，以进一步提升效率。咱们普遍的实验代表，即便参数和操做少得多，咱们的模型也能达到与最早进方法相媲美的性能。

arXiv：https://arxiv.org/abs/1803.08664

显著性检测

[5]《PDNet: Prior-model Guided Depth-enhanced Network for Salient Object Detection》

ICME 2018

Abstract：全卷积神经网络（FCNs）在包括显著物体检测在内的许多计算机视觉任务中表现出色。然而，在基于深度学习的显著性检测中仍然须要解决两个问题。一个是缺少大量的注释数据来训练网络。另外一个是缺少鲁棒性来提取包含复杂场景的图像中的显著物体。在本文中，咱们提出了一种新的体系结构-PDNet，这是一种用于RGB-D显著物体检测的强大的先前模型引导深度加强网络。与现有的将图像像素的RGB-D值直接馈送到网络的做用相比，所提出的体系结构由用于处理RGB值的主网络和充分利用深度提示并包含深度的子网络组成基于网络的功能。为了克服用于训练的标记RGB-D数据集的有限尺寸，咱们使用大的传统RGB数据集来预训练主网络，这证实对最终准确度有很大贡献。对五个基准数据集进行普遍的评估代表，咱们提出的方法对于最早进的方法有良好的表现。

arXiv：https://arxiv.org/abs/1803.08636

github：https://github.com/cai199626/PDNet

GAN

[6]《Generative Adversarial Autoencoder Networks》

Abstract：咱们引入一个有效的模型来克服训练生成对抗网络（GAN）时模式崩溃的问题。首先，咱们提出一个新的生成器，发现它更好地处理模式崩溃。而且，咱们应用独立的自动编码器（AE）来约束发生器，并将其重构样本视为“真实”样本，以减慢鉴别器的收敛，从而减小梯度消失问题并稳定模型。其次，从AE提供的潜在和数据空间之间的映射，咱们进一步经过潜在和数据样本之间的相对距离来规范AE，以明确防止发生器陷入模式崩溃设置。当咱们找到一种可视化MNIST数据集模式崩溃的新方法时，这个想法就来了。就咱们所知，咱们的方法是第一个成功提出并应用潜在和数据样本的相对距离来稳定GAN的方法。第三，咱们提出的模型，即生成对抗自动编码器网络（GAAN），在合成，MNIST，MNIST-1K，CelebA和CIFAR-10数据集上经验证实，它是稳定的，既没有梯度消失也没有模式崩溃问题。实验结果代表，咱们的方法能够近似良好的多模态分布，并取得比这些基准数据集上最早进的方法更好的结果。

arXiv：https://arxiv.org/abs/1803.08887

github：https://github.com/tntrung/gaan

[7]《Fictitious GAN: Training GANs with Historical Model》

Abstract：生成对抗网络（GAN）是学习生成模型的强大工具。实际上，训练可能会因缺少convergence而受到影响。 GAN一般被视为两个神经网络之间的two player zero-sum游戏。在这里，咱们利用这种博弈论的观点来研究训练过程的收敛行为。受虚拟游戏学习过程的启发，引入了一种称为Fictitious GAN的新型训练方法。 Ficititous GAN使用历史模型的混合来训练深度神经网络。具体来讲，鉴别器（或生成器）根据对来自一系列先前训练的生成器（或鉴别器）的混合输出的最佳响应而被更新。结果代表，Fictitious GAN能够有效解决标准训练方法没法解决的一些收敛问题。证实，生成器输出的平均值与数据样本具备相同的分布。

arXiv：https://arxiv.org/abs/1803.08647

VOA

[8]《Explicit Reasoning over End-to-End Neural Architectures for Visual Question Answering》

AAAI 2018

Abstract：除了数据驱动的图像和天然语言处理外，许多视觉和语言任务都须要常识推理。在这里，咱们采用视觉问答（VQA）做为示例任务，系统须要用天然语言回答关于图像的问题。当前最早进的系统尝试使用深度神经架构来解决任务，并取得了使人满意的性能。可是，由此产生的系统一般是不透明的，他们很难理解须要额外知识的问题。在本文中，咱们在一组倒数第二个基于神经网络的系统之上提出了一个明确的推理层。推理层能够在须要额外知识的状况下推理和回答问题，同时为最终用户提供可解释的界面。具体而言，推理层采用基于几率软逻辑（PSL）的引擎来推理一篮子输入：视觉关系，问题的语义解析以及来自word2vec和ConceptNet的背景知识本体。在VQA数据集上生成的答案和关键证据预测的实验分析验证了咱们的方法。

arXiv：https://arxiv.org/abs/1803.08896

综述

[9]《What Do We Understand About Convolutional Networks?》

Abstract：本文将回顾使用多层卷积体系结构的最重要的方法。重要的是，典型的卷积网络的各个组成部分将经过回顾不一样的方法来进行讨论，这些方法的设计决策基于生物学发现和/或合理的理论基础。此外，将经过可视化和实证研究来了解ConvNets的不一样尝试。最终目标是阐明ConvNet体系结构中每一层处理的做用，提炼咱们目前对ConvNets的理解，并强调关键的开放问题。

arXiv：https://arxiv.org/abs/1803.08834

其它

[10]《Geometric and Physical Constraints for Head Plane Crowd Density Estimation in Videos》

Abstract：在拥挤的场景中进行人数统计的最早进的方法依赖于深度网络来估计图像平面中的人员密度。透视失真（perspective distortion）效果能够经过学习尺度不变特征或者估计不一样尺寸小片的密度来隐式处理，这二者都不能说明尺度变化必须在整个场景中保持一致的事实。在本文中，咱们代表，向网络提供一个显著的尺度变化模型会显著提升性能。另一个好处是，它可让咱们根据每平方米地面上的人数进行推理，从而使咱们可以实施不须要学习的物理启发性时间一致性约束。这产生了一种算法，在拥挤的场景中赛过最早进的方法，尤为是当透视效果很强时。

arXiv：https://arxiv.org/abs/1803.08805