[计算机论文速递] 2018-03-23

通知:这篇文章有15篇论文速递信息,涉及目标检测、目标跟踪、姿态估计、SLAM、GAN、行为识别、去雾、网络优化等方向git

创办CVer公众号,渐渐半个多月了,很感谢获得这么多童鞋的关注和支持。特别是看到后台有人给我留言:加油,我很喜欢你的公众号。我内心很知足,也颇有动力。github

我尽可能维持1.5day频率的更新速度,但写一篇推文确实太耗时间了,哪怕暂时是以“译文”为主的文章。在此向那些奉献知识的工做者表示致敬。算法

最近有同窗建议我,能够开启打赏功能,分享知识的同时,得到物质上的赞扬,也是做为对你的工做一种确定。我没有想过靠此盈利,由于这是我我的的公众号,因此想问一下你们对此的态度(算是一种调研吧)网络

[计算机论文速递] 2018-03-23

目标检测架构

[1]《Single-Shot Bidirectional Pyramid Networks for High-Quality Object Detection》框架

Abstract:近年来,使用深度学习技术在物体检测领域取得了使人振奋的成就。尽管取得了重大进展,可是大多数现有的检测器被设计用于检测具备相对低质量的位置预测的对象,即,一般在默认状况下用交叉点联合(IoU)阈值设置为0.5来训练,这能够产生低质量或者甚至是低质量嘈杂的检测。如何在不牺牲检测性能的状况下设计和训练可以实现更精肯定位(即IoU [数学处理偏差] 0.5)的高质量检测器仍然是一个公开挑战。在本文中,咱们提出了一种双向金字塔网络(BPN)的新型单发检测框架,以实现高质量的目标检测,该框架由两个新颖的组件组成:(i)双向特征金字塔结构,用于更有效和更鲁棒的特征表示;和(ii)梯级锚定细化,以逐步改善预先设计的锚点的质量以进行更有效的训练。咱们的实验代表,所提出的BPN在PASCAL VOC和MS COCO数据集上的全部单级物体检测器中都达到了最佳性能,特别是对于高质量检测。分布式

注:咦,提升IoU的目标检测器!仍是Single-Shot类型!Bidirectional Pyramid Networks (BPN)!!!实验结果IoU在0.五、0.6和0.7下的mAp是最高的!比two-stage还高!ide

arXiv:https://arxiv.org/abs/1803.08208函数

[计算机论文速递] 2018-03-23

[计算机论文速递] 2018-03-23

目标跟踪性能

[2]《Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World》

Abstract:在开放的世界环境中进行多人追踪须要特别的努力来进行精确的检测。此外,当场景混乱引入遮挡目标的具备挑战性的问题时,检测阶段的时间连续性变得更加剧要。为此,咱们提出了一个深度网络体系结构,它能够共同提取人体部位,并在短暂的时间跨度内将它们关联起来。咱们的模型明确地处理闭塞的身体部位,经过幻觉看不见关节的合理解决方案。咱们提出了由\ textit提供的四个分支(\ textit {可见heatmaps},\ textit {occluded heatmaps},\ textit {零件关联字段}和\ textit {时间关联字段})组成的新的端到端体系结构{时间连接器}功能提取器。为了克服跟踪,身体部分和遮挡注释缺少监视数据,咱们建立了最快的计算机图形数据集,用于人们在城市场景中进行跟踪,经过利用真实感的视频游戏进行跟踪。它是迄今为止在城市情景中跟踪人体的最快数据集(大约500,000帧,超过1000万个身体姿态)。咱们在虚拟数据方面进行培训的体系结构在公共实际跟踪基准上具备良好的泛化能力,当图像分辨率和清晰度足够高时,可生成可用于进一步批量数据关联或从新标识模块的可靠tracklets。

arXiv:https://arxiv.org/abs/1803.08319

[计算机论文速递] 2018-03-23

[计算机论文速递] 2018-03-23

姿态估计

[3]《Unsupervised Adversarial Learning of 3D Human Pose from 2D Joint Locations》

Abstract:从单个图像中进行三维(3D)人体姿态估计的任务能够被分红两部分:(1)从图像中的二维(2D)人体关节检测和(2)根据二维关节估计3D姿态。这里,咱们关注第二部分,即,来自2D关节位置的3D姿态估计。现有方法存在的问题是它们须要(1)从视频序列中获取的连续帧中的3D姿态数据集或(2)2D关节位置。咱们旨在解决这些问题。咱们第一次提出一种在没有任何3D数据集的状况下学习3D人体姿式的方法。咱们的方法能够预测单个图像中2D关节位置的3D姿态。咱们的系统基于生成的敌对网络,网络以无监督的方式进行训练。咱们的主要想法是,若是网络能够正确预测3D人体姿态,则投射到2D平面上的3D姿态即便垂直旋转也不该该塌陷。咱们使用Human3.6M和MPII数据集评估了咱们方法的性能,结果代表咱们的网络能够很好地预测3D姿态,即便3D数据集在训练期间不可用。

arXiv:https://arxiv.org/abs/1803.08244

[计算机论文速递] 2018-03-23

[4]《PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model》

Abstract:咱们提出了一个无盒自下而上的方法,用于使用高效的单次模型对多人图像中的人进行姿态估计和实例分割。建议的PersonLab模型使用基于部件的建模来处理语义层推理和对象部分关联。咱们的模型采用了卷积网络,能够学习检测各个关键点并预测它们的相对位移,从而使咱们可以将关键点分组为人物姿式实例。此外,咱们提出了一个部分诱导的几何嵌入描述符,它容许咱们将语义人像素与其相应的人员实例相关联,从而提供实例级别的人员分段。咱们的系统基于彻底卷积体系结构,能够进行高效的推理,运行时间基本上与场景中出现的人数无关。仅依靠COCO数据训练,咱们的系统经过单尺度推理得到了0.665的COCO测试 - 开发关键点平均精度,使用多尺度推理实现了0.687的COCO测试 - 开发关键点平均精度,明显优于全部之前的自下而上的姿式估计系统。咱们也是第一种自下而上的自下而上方法来报告COCO实例细分任务中人员类别的竞争结果,实现人类分类平均精度为0.417。

arXiv:https://arxiv.org/abs/1803.08225

[计算机论文速递] 2018-03-23

[5]《Deep Pose Consensus Networks》

Abstract:在本文中,咱们解决了从单个图像估计三维人体姿态的问题,这很重要但很难解决,缘由不少,如遮挡,外观变化以及二维3D估计的固有模糊性线索。这些困难使这个问题不适当,这已经变得愈来愈复杂的估计人员须要提升绩效。另外一方面,大多数现有的方法都是基于单个复杂的估计器来处理这个问题,这可能不是很好的解决方案。在本文中,为了解决这个问题,咱们提出了一个基于多部分假设的框架,用于从单个图像估计3D人体姿态的问题,能够以端到端的方式进行微调。咱们首先使用所提出的采样方案从人类关节模型中选择几个关节组,并基于深度神经网络分别估计每一个关节组的三维姿态。以后,使用建议的鲁棒优化公式来聚合它们以得到最终的3D姿式。整个过程能够以端到端的方式进行微调,从而得到更好的性能。在实验中,所提出的框架显示了在流行的基准数据集上的最新性能,即Human3.6M和HumanEva,它们证实了所提出的框架的有效性。

arXiv:https://arxiv.org/abs/1803.08190

[计算机论文速递] 2018-03-23

[6]《A Unified Framework for Multi-View Multi-Class Object Pose Estimation》

Abstract:对象姿态估计的一个核心挑战是确保在复杂的背景杂波中为大量不一样的前景对象提供精确和稳健的性能。在这项工做中,咱们提出了一个可扩展的框架,能够为单个或多个视图中的大量对象类准确推断六个自由度(6-DoF)姿态。为了学习辨别性姿态特征,咱们将三种新功能集成到深度卷积神经网络(CNN)中:一种推理方案,它基于SE(3)的统一曲面细分将分类和姿态回归相结合,将先前类别融入训练经过平铺的类地图进行处理,以及使用深度监视和对象蒙版的附加正则化。此外,制定了一个有效的多视图框架来解决单视图模糊。咱们证实这一向地改善了单视图网络的性能。咱们在三个大型基准测试中评估咱们的方法:YCB-Video,JHUScene-50和ObjectNet-3D。咱们的方法比目前最早进的方法实现了竞争力或卓越的性能。

arXiv:https://arxiv.org/abs/1803.08103

[计算机论文速递] 2018-03-23

GAN

[7]《Branched Generative Adversarial Networks for Multi-Scale Image Manifold Learning》

Submitted to ECCV 2018

Abstract:咱们引入了BranchGAN,一种新颖的训练方法,使无条件的生成对抗网络(GAN)可以学习多尺度的图像流形。 BranchGAN的独特之处在于它在多个分支进行了培训,随着培训图像分辨率的增长,逐渐覆盖网络的广度和深度,以显示更精细的特征。具体而言,做为输入到发生器网络的每一个噪声向量被明确地分红几个子向量,每一个子向量对应于而且被训练以学习特定尺度的图像表示。在训练过程当中,咱们逐步“逐步”解冻子矢量,由于一组新的高分辨率图像被用于训练,而且添加了更多的网络层。这种明确的子矢量指定的结果是咱们能够直接操纵甚至组合与特定特征尺度关联的潜在(子矢量)代码。实验证实了咱们的训练方法在图像流形和合成的多尺度,解体学习中的有效性,没有任何额外的标签,而且不会损害合成的高分辨率图像的质量。咱们进一步演示了BranchGAN启用的两个新应用程序。

arXiv:https://arxiv.org/abs/1803.08467

[计算机论文速递] 2018-03-23

[计算机论文速递] 2018-03-23

行为识别

[8]《Towards Universal Representation for Unseen Action Recognition》

Accepted at CVPR 2018

Abstract:看不见的行为识别(UAR)旨在识别新的行为类别,没有训练的例子。 虽然之前的方法专一于内部数据集看到/看不见的分裂,但本文提出了一种使用大规模训练源来实现通用表示(UR)的流水线,该泛化表示可推广到更现实的跨数据集UAR(CD-UAR)场景。 咱们首先将UAR称为广义多实例学习(GMIL)问题,并使用分布式内核从大规模ActivityNet数据集中发现“构建块”。 必要的视觉和语义组件被保存在一个共享空间中,以实现能够高效地推广到新数据集的UR。 经过简单的语义适应能够改进预测的UR范例,而后在测试过程当中使用UR能够直接识别出看不见的动做。 在没有进一步培训的状况下,普遍的实验显示出UCF101和HMDB51基准测试的显著改进。

arXiv:https://arxiv.org/abs/1803.08460

[计算机论文速递] 2018-03-23

SLAM

[9]《PlaneMatch: Patch Coplanarity Prediction for Robust RGB-D Reconstruction》

Abstract:咱们引入了一种新颖的RGB-D patch描述符,设计用于在SLAM重建中检测共面曲面。 咱们方法的核心是一个深卷积神经网络,它接收图像中平面斑点的RGB,深度和正常信息,并输出可用于从其余图像找到共面斑点的描述符。咱们训练网络10 百万三平面共面和非共面面片,并评估由商品RGB-D扫描产生的新共面性基准。 实验代表,咱们的学习描述符赛过了为这个新任务扩展的备选方案,并且效果明显。 此外,咱们证实了在一个稳健的RGBD重建公式中共面性匹配的好处。咱们发现用咱们的方法检测到的共面性约束足以得到与大多数场景中最早进的框架相媲美的重建结果,但优于其余方法 在与简单的关键点方法相结合的标准基准测试中。

arXiv:https://arxiv.org/abs/1803.08407

[计算机论文速递] 2018-03-23

优化

[10]《Group Normalization》

Abstract:批量标准化(BN)是深度学习发展中的一项里程碑式技术,可以让各类网络进行培训。可是,沿着批量维度进行归一化会带来一些问题---批量统计估算不许确致使批量变小时,BN的偏差会迅速增长。这限制了BN用于培训更大型号的功能,并将功能转移到计算机视觉任务,包括检测,分割和视频,这些任务都须要小批量的内存消耗。在本文中,咱们提出组标准化(GN)做为BN的简单替代方案。 GN将通道分红组,并在每组内计算标准化的均值和方差。 GN的计算与批量大小无关,而且其准确度在各类批量大小下都很稳定。在ImageNet上训练的ResNet-50上,GN使用批量大小为2时的错误率比BN对手低10.6%;当使用典型的批量时,GN与BN至关,而且优于其余标准化变量。并且,GN能够天然地从预培训转向微调。 GN能够赛过其竞争对手,或者与其在国阵的对手进行COCO中的目标检测和分割以及Kinetics中的视频分类竞争,代表GN能够在各类任务中有效地取代强大的BN。 GN能够经过现代库中的几行代码轻松实现。

注:Yuxin Wu和何凯明的大做啊!!!Facebook AI出品,必属精品,期待论文复现的童鞋好好表现!

arXiv:https://arxiv.org/abs/1803.08494

[计算机论文速递] 2018-03-23

[计算机论文速递] 2018-03-23
[计算机论文速递] 2018-03-23

综述

[11]《A Comprehensive Analysis of Deep Regression》

submitted to TPAMI

Abstract:深度学习使数据科学发生了革命性的变化,最近它的受欢迎程度呈指数级增加,使用深度网络的论文数量也呈指数增加。诸如人体姿式估计等视觉任务并无摆脱这种方法上的改变。大量的深层架构致使过多的方法在不一样的实验协议下评估。此外,网络体系结构或数据预处理过程当中的微小变化以及优化方法的随机性致使了显着不一样的结果,使得筛选出明显优于其余方法的方法变得很是困难。所以,当提出回归算法时,从业者能够经过反复试验来进行。这种状况激发了目前的研究,咱们对香草深层回归的性能进行了系统评估和统计分析 - 对于具备线性回归顶层的卷积神经网络来讲,这是一个缩写。据咱们所知,这是对深度回归技术的首次综合分析。咱们对三个视觉问题进行实验,并报告中值性能的置信区间以及结果的统计显着性(若是有的话)。使人惊讶的是,因为不一样的数据预处理程序引发的变化性一般掩盖了因为网络体系结构中的修改而致使的变化性。

注:硬梆梆的文章!介绍并分析了VGGG-1六、ResNet-50网络,AdaGrad、RMSProp、AdaDelta、Adam等优化器,Batch size、Batch Normalization和Dropout的做用。

arXiv:https://arxiv.org/abs/1803.08450

[计算机论文速递] 2018-03-23

其它

[12]《Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings》

Abstract:咱们提出一种从天然语言生成彩色3D形状的方法。 为此,咱们首先学习自由文本描述和彩色3D形状的联合嵌入。 咱们的模型结合并扩展了经过关联和度量学习方法进行的学习,以学习隐式的跨模态链接,并产生了一个联合表示,它捕捉语言和3D形状的物理属性(如颜色和形状)之间的多对多关系。 为了评估咱们的方法,咱们收集ShapeNet数据集中物理3D对象的天然语言描述的大型数据集。 经过这种学习的联合嵌入,咱们展现了比基线方法更好的文本到形状检索。 使用咱们的带有新颖条件Wasserstein GAN框架的嵌入,咱们从文本生成彩色3D形状。 咱们的方法是第一个将天然语言文本与真实的3D对象链接起来,呈现丰富的颜色,纹理和形状细节变化。

注:太硬的文章!!!

arXiv:https://arxiv.org/abs/1803.08495

[计算机论文速递] 2018-03-23

[13]《Group Sparsity Residual with Non-Local Samples for Image Denoising》

Abstract:受到基于群组的稀疏编码的启发,最近提出的群体稀疏残差(GSR)方案在图像处理中表现出优越的性能。 然而,GSR中的一个挑战是经过使用基于组的稀疏编码(GSC)的适当参考来估计残差,但愿尽量接近真实。 之前的研究利用了其余算法(即GMM或BM3D)的估计,这些算法不许确或太慢。 在本文中,咱们建议使用非局部样本(NLS)做为GSR机制中的图像去噪的参考,所以称为GSR-NLS。 更具体地说,咱们首先经过图像非局部自类似性得到组稀疏系数的良好估计,而后经过有效的迭代收缩算法求解GSR模型。 实验结果代表,所提出的GSR-NLS不只赛过许多最早进的方法,并且还提供了速度的竞争优点。

arXiv:https://arxiv.org/abs/1803.08412

[计算机论文速递] 2018-03-23

[14]《Densely Connected Pyramid Dehazing Network》

CVPR 2018

Abstract:咱们提出了一种称为密集链接金字塔除雾网络(DCPDN)的新型端到端单图像去雾方法,它能够共同窗习透射图,大气光和去雾。端到端学习是经过将大气散射模型直接嵌入到网络中来实现的,从而确保所提出的方法严格遵循物理驱动的散射模型。受密集网络的启发,能够最大限度地利用不一样层次特征的信息流,咱们提出了一种新的边缘保持密集链接的编码器 - 解码器结构,其中包含用于估计传输图的多层金字塔池模块。该网络使用新引入的边缘保留损失函数进行了优化。为了进一步在估计的传输图和去抖动结果之间结合相互结构信息,咱们提出了一种基于生成对抗网络框架的联合鉴别器,以肯定相应的去雾图像和估计的传输图是真实的仍是假的。进行消融研究以证实在估计的传输图和去除颤动结果时评估的每一个模块的有效性。大量的实验证实,所提出的方法比现有技术的方法有显着的改进。

arXiv:https://arxiv.org/abs/1803.08396

github:https://github.com/hezhangsprinter/DCPDN

[计算机论文速递] 2018-03-23

[15]《Deep Learning using Rectified Linear Units (ReLU)》

Abstract:咱们引入修正线性单元(ReLU)做为深度神经网络(DNN)中的分类函数。 传统上,ReLU被用做DNN中的激活功能,其中Softmax功能做为其分类功能。 可是,有几项关于使用除Softmax之外的分类功能的研究,本研究是对这些研究的补充。 咱们经过在神经网络中激活倒数第二层hn-1,而后将其乘以权重参数θ来得到原始分数oi。 以后,咱们将原始分数oi设为0,即f(o)= max(0,oi),其中f(o)是ReLU函数。 咱们经过argmax函数,即argmax f(x)提供类别预测y ^。

注:Amazing!!!ReLU直接作分类函数了!来,双击666666

arXiv:https://arxiv.org/abs/1803.08375

[计算机论文速递] 2018-03-23[计算机论文速递] 2018-03-23

相关文章
相关标签/搜索