[计算机论文速递] 2018-04-13

通知:这篇文章有10篇论文速递信息,涉及姿态估计、Re-ID、图像检索、视频描述和数据增广等方向git

前戏
github

PS:Amusi前几天在忙其它事,论文速递耽搁了近一个星期,还请你们见谅。由于时间因素,和往常同样,每篇paper不附带相应的图示。若是本文中出现明显重大的翻译问题,还请你们指出,谢谢。算法

姿态估计网络

[1]《3D Pose Estimation and 3D Model Retrieval for Objects in the Wild》架构

CVPR 2018框架

Abstract:咱们提出了一种可扩展,高效且准确的方法来检索户外物体的3D模型。 咱们的贡献有两个。咱们首先提出了一种针对对象类别的三维姿态估计方法,该方法明显优于Pascal3D +中的最新技术。 其次,咱们使用估计的姿态做为先验来检索3D模型,其准确地表示RGB图像中的对象的几何形状。 为此,咱们在咱们的预测姿态下渲染来自3D模型的深度图像,并使用基于CNN的多视图度量学习方法将RGB图像的学习图像描述符与渲染深度图像的描述符进行匹配。 经过这种方式,咱们率先在Pascal3D +上报告三维模型检索的定量结果,其中咱们的方法平均选择与人类注释器相同的模型做为验证图像的50%。 另外,咱们证实咱们的方法纯粹是在Pascal3D +上进行训练,经过ShapeNet从户外物体的RGB图像中检索丰富而准确的3D模型。dom

arXiv:https://arxiv.org/abs/1803.11493机器学习

[计算机论文速递] 2018-04-13

[2]《Cross-modal Deep Variational Hand Pose Estimation》ide

Abstract:人的手以复杂和高维的方式移动,从图像估计3D手姿式配置自己就是一项具备挑战性的任务。在这项工做中,咱们提出了一种方法,经过生成的深度神经网络来学习由跨模态训练的潜在空间表示的统计手模型。咱们从VAE框架的变分下界推导出一个目标函数,并联合优化获得的跨模态KL散度和后向重建目标,天然而然地接受一种训练机制,致使跨多种模态的相干潜在空间,如RGB图像,2D关键点检测或3D手形配置。此外,它还提供了使用半监督的简单方法。这个潜在的空间能够直接用于估计RGB图像中的3D手势,在不一样的设置中赛过现有技术。此外,咱们代表,咱们提出的方法能够在不改变深度图像的状况下使用,而且能够与专门的方法进行比较。最后,该模型是彻底生成的,能够在不一样模式下合成一致的手对配置。咱们在RGB和深度数据集上评估咱们的方法并定性分析潜在空间。函数

arXiv:https://arxiv.org/abs/1803.11404

Re-ID

[3]《Efficient and Deep Person Re-Identification using Multi-Level Similarity》

Abstract:行人重识别(ReID)要求比较在不一样条件下拍摄的人员的两幅图像。基于神经网络的现有工做一般计算单个卷积层的特征映射的类似性。在这项工做中,咱们提出了一个高效的端到端彻底卷积连体网络,计算多个层次的类似度。咱们证实多级类似性能够在ReID问题中使用低复杂度的网络结构大大提升准确性。具体来讲,首先,咱们使用几个卷积层来提取两个输入图像的特征。而后,咱们提出卷积类似网络来计算输入的类似度分数图。咱们使用空间变换网络(STN)来肯定空间关注。咱们建议应用高效深度卷积来计算类似度。所提出的卷积类似性网络能够被插入不一样的卷积层以提取不一样级别的视觉类似性。此外,咱们使用改进的排名损失来进一步提升性能。咱们的工做是首次提出计算ReID的低,中,高级视觉类似度。经过普遍的实验和分析,咱们证实咱们的系统紧凑而有效,能够经过更小的模型尺寸和计算复杂性来实现竞争结果。

arXiv:https://arxiv.org/abs/1803.11353

[4]《Learning View-Specific Deep Networks for Person Re-Identification》

IEEE TIP 2018

Abstract:近年来,愈来愈多的研究集中在人员重识别(re-id)的问题上。重识别技术试图匹配来自不相交的非重叠摄像机视图的行人图像。 re-id的一个主要挑战是the serious intra-class variations caused by changing viewpoints。为了克服这个挑战,咱们提出了一个基于深度神经网络的框架,它在特征提取阶段利用视图信息。所提出的框架经过交叉视图欧几里得约束(CV-EC)和交叉视图中心丢失(CV-CL)来学习针对每一个摄像机视图的视图特定网络。咱们利用CV-EC下降不一样视图之间的特征边缘,并将中心损失度量扩展到视图特定版本,以更好地适应从新生成问题。此外,咱们提出了一种迭代算法来优化视图特定网络的参数从粗到细。实验证实,咱们的方法显着提升了现有深度网络的性能,而且在VIPeR,CUHK01,CUHK03,SYSU-mReId和Market-1501基准测试中的性能优于最新的方法。

arXiv:https://arxiv.org/abs/1803.11333

图像检索

[5]《Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking》

CVPR 2018

Abstract:在本文中,咱们讨论了在标准和流行的Oxford 5k和Paris 6k数据集上进行图像检索基准测试的问题。 特别是,注释错误,数据集的大小以及挑战的级别都获得了解决:两个数据集的新注释都被建立,同时还特别关注了基本事实的可靠性。 引入了三种不一样难度的新协议。 协议容许在不一样方法之间进行公平比较,包括使用数据集预处理阶段的方法。 对于每一个数据集,引入了15个具备挑战性的新查询。Finally, a new set of 1M hard, semi-automatically cleaned distractors is selected. 。

在新基准上进行了最早进方法的普遍比较。评估了不一样类型的方法,从基于本地特征的方法到基于现代CNN的方法。 最好的结果是经过充分利用两个世界来实现的。 最重要的是,图像检索彷佛很难解决。

arXiv:https://arxiv.org/abs/1803.11285

其它

[6]《Guide Me: Interacting with Deep Networks》

CVPR 2018

Abstract:随着机器学习方法转变为涉及最终用户的实际应用,人类与智能机器之间的交互与协做变得愈来愈重要。虽然不少先前的工做都在于天然语言和视觉的交叉点,例如图像字幕或从文本描述中生成图像,但不多关注使用语言来指导或改进学习的视觉处理算法的性能。在本文中,咱们探索经过用户输入灵活引导训练的卷积神经网络的方法,以提升其在推断期间的性能。咱们经过在网络中插入一个充当空间语义指南的层来实现。本指南通过训练,能够直接经过能量最小化方案修改网络激活,也能够经过将人类语言查询转换为互动权重的循环模型间接进行修改。学习口头交互是彻底自动的,不须要手动文本注释。咱们在两个数据集上评估该方法,显示指导预先训练的网络能够提升性能,并提供对指南和CNN之间交互的深刻看法。

注:哇靠,还能这么玩!

arXiv:https://arxiv.org/abs/1803.11544

[7]《Reconstruction Network for Video Captioning》

CVPR 2018

Abstract:在本文中,描述了用天然语言描述视频序列的视觉内容的问题。与之前的视频字幕工做主要利用视频内容提示进行语言描述不一样,咱们提出了一种具备新型编解码器 - 重构器架构的重构网络(RecNet),其利用前向(视频到句子)和后向(句子到视频)流动视频字幕。具体而言,编码器 - 解码器利用正向流程来基于编码的视频语义特征来产生句子描述。两种类型的重构器被定制为采用反向流而且基于由解码器生成的隐藏状态序列来再现视频特征。由编码器 - 解码器产生的产生损失和由重建器引入的重构损失被共同引入到以端对端方式训练建议的RecNet。基准数据集上的实验结果代表,所提出的重构器能够提高编码器 - 解码器模型,并显着提升视频字幕的准确性。

arXiv:https://arxiv.org/abs/1803.11438

[8]《Parallel Grid Pooling for Data Augmentation》

Abstract:卷积神经网络(CNN)架构利用下采样层,这限制了后续层学习空间不变特征,同时下降计算成本。 可是,这样的下采样操做使得不可能使用全频谱的输入特征。 受此观察的启发,咱们提出了一种新的称为并行网格池(PGP)的层,它适用于各类CNN模型。 PGP执行下采样而不丢弃任何中间特征。 它用做数据加强,而且是经常使用数据加强技术的补充。 此外,咱们证实了扩张卷积能够天然地用PGP运算来表示,这代表扩张卷积也能够被认为是一种数据加强技术。 基于流行的图像分类基准的实验结果证实了所提出方法的有效性。

arXiv:https://arxiv.org/abs/1803.11370

github:https://github.com/akitotakeki

[9]《Fast and Robust Subspace Clustering Using Random Projections》

Abstract:在过去的几十年中,子空间聚类一直受到愈来愈多的关注并不断取得进展。然而,因为缺乏可扩展性和/或鲁棒性,现有方法仍然难以处理同时具备三个特征的数据:高维,大规模和严重损坏。为了同时解决可伸缩性和鲁棒性问题,在本文中,咱们建议考虑一个叫作压缩鲁棒子空间聚类的问题,它是用压缩数据执行鲁棒子空间聚类,而且经过将原始高维数据投影到随机选择较低维的子空间。在给定这些随机投影的状况下,所提出的行空间追踪(RSP)方法不只能够恢复真实的行空间,从而能够在某些条件下正确地得到聚类结果,还能够恢复数据中可能存在的严重错误。随机投影的压缩特性为咱们的RSP提供了高计算和存储效率,而且恢复特性使RSP可以处理严重损坏的数据。在高维和/或大规模数据集上进行的大量实验代表,RSP能够保持与广泛使用的方法至关的准确度,并大大缩短计算时间。

arXiv:https://arxiv.org/abs/1803.11305

相关文章
相关标签/搜索