通知:这篇推文有13篇论文速递信息,涉及图像分割、SLAM、显著性、深度估计、车辆计数等方向前端
往期回顾git
[计算机视觉] 入门学习资料github
[计算机视觉论文速递] 2018-03-18算法
[计算机视觉论文速递] 2018-03-16api
图像分割网络
[1]《Training of Convolutional Networks on Multiple Heterogeneous Datasets for Street Scene Semantic Segmentation》架构
Abstract:咱们提出了一种具备分层分类器的卷积网络,用于每像素语义分割,可以在多个异构数据集上训练并利用其语义层次结构。 咱们的网络是第一个同时训练来自智能车辆领域的三个不一样数据集,即Cityscapes,GTSDB和Mapillary Vistas,而且可以处理不一样的语义细节层次,类别不平衡和不一样的注释类型,即密集的 每像素和稀疏边界框标签。 咱们经过比较平面非分层分类器评估咱们的分层方法,而且咱们显示Cityscapes类的平均像素精度为13.0%,Vistas类为2.4%,GTSDB类为32.3%。 咱们的实如今GPU上运行108个类的分辨率为520 x 706时可实现17 fps的推导速率。app
arXiv:https://arxiv.org/abs/1803.05675框架
[2]《An application of cascaded 3D fully convolutional networks for medical image segmentation》dom
Abstract:3D全卷积网络(FCN)的最新进展已经使得生成体积图像的密集体素预测成为可能。在这项工做中,咱们展现了一个多级三维FCN训练手动标记的几个解剖结构(从大型器官到薄血管)的CT扫描能够实现竞争性分割结果,同时避免手工制做功能或培训课程的须要,具体型号。
为此,咱们提出了一个两阶段的,从粗到精的方法,它将首先使用3D FCN粗略定义候选区域,而后将其用做第二个3D FCN的输入。这减小了第二个FCN必须分类的体素数量至〜10%,并容许它将重点放在更详细的器官和血管分割上。
咱们利用由331个临床CT影像组成的训练和验证集合,并对包含150次CT扫描的不一样医院采集的彻底不可见的数据集进行测试,针对三个解剖器官(肝脏,脾脏和胰腺)。在胰腺等具备挑战性的器官中,咱们的级联方法将骰子平均得分从68.5提升到82.2%,实现了此数据集报告的最高平均得分。咱们在240个CT扫描的18个类别的独立数据集上比较2D FCN方法,并在小器官和血管中实现显着更高的性能。此外,咱们探索微调咱们的模型到不一样的数据集。
咱们的实验说明了当前基于三维FCN的医学图像语义分割的前景和稳健性,实现了最早进的结果。咱们的代码和训练有素的模型可供下载:https://github.com/holgerroth/3Dunet_abdomen_cascade
arXiv:https://arxiv.org/abs/1803.05431
github:https://github.com/holgerroth/3Dunet_abdomen_cascade
SLAM
[3]《Vision-Aided Absolute Trajectory Estimation Using an Unsupervised Deep Network with Online Error Correction》
IROS 2018
Abstract:咱们提出了一种无监督的深度神经网络方法来融合RGB-D图像与惯性测量的绝对轨迹估计。 咱们的网络被称为Visual-Inertial-Odometry Learner(VIOLearner),它学习在没有惯性测量单元(IMU)固有参数(对应于陀螺仪和加速度计误差或白噪声)或者外部校准之间执行视觉惯性测距法(VIO) IMU和相机。 网络学习整合IMU测量结果并生成假设轨迹,而后根据相对于像素坐标的空间网格的缩放图像投影偏差的雅可比行为在线校订假设轨迹。 咱们根据最早进的(SOA)视觉惯性测距法,视觉测距法以及KITTI Odometry数据集上的视觉同时定位和映射(VSLAM)方法评估咱们的网络,并展现竞争性测距性能。
arXiv:https://arxiv.org/abs/1803.05850
显著性
[4]《Salient Region Segmentation》
Abstract:显著性预测在计算机视觉中是一个研究得很好的问题。早期显著性模型是基于从神经科学和心理物理学中得到的看法中得到的低级别手工特征。在深度学习突破以后,基于神经网络架构提出了一个新的模型队列,在全部度量标准上容许比先前的浅层模型有更高的注视预测。
然而,大多数模型将显著性预测视为\ textit {regression}问题,而且高维数据的准确回归已知是一个难题。此外,还不清楚显着程度的中间水平(即既很是高也非很是低)是有意义的:某些事情要么是显著的,要么是显著的,或者不是显著的。
从这两个观察得出,咱们将显著性预测问题从新描述为显著区域\ textit {分割}问题。咱们证实重构容许比经典回归问题更快的收敛性,而性能能够与最早进的技术相媲美。
咱们还可视化模型学到的通常特征,这些特征与心理物理学的看法一致。
arXiv:https://arxiv.org/abs/1803.05759
[5]《What Catches the Eye? Visualizing and Understanding Deep Saliency Models》
Abstract:深卷积神经网络近年来在固视预测中表现出了很高的性能。然而,他们如何实现这一目标却没有多少探索,他们仍然是黑匣子模型。在这里,咱们试图揭示深度显著性模型的内部结构,并研究它们提取的固定预测的特征。具体来讲,咱们使用一个简单但功能强大的架构,仅包含一个CNN和一个分辨率输入,并结合一个新的丢失函数,用于自由观看天然场景期间的像素式固定预测。咱们代表,咱们的简单方法与最早进的复杂显著性模型相比甚至更好。此外,咱们提出了一种与显著性模型评估指标相关的方法,以便对固定预测的深度模型进行可视化。咱们的方法揭示了用于固定预测的深层模型的内部表示,并提供证据代表,人类所经历的显著性除了低级感知线索以外可能涉及高级语义知识。咱们的结果能够用来衡量当前显著性模型和人类观察者间模型之间的差距,并创建新的模型来缩小差距。
arXiv:https://arxiv.org/abs/1803.05753
[6]《VEGAC: Visual Saliency-based Age, Gender, and Facial Expression Classification Using Convolutional Neural Networks》
Submitted to CVPR 2018
Abstract:本文探讨了使用视觉显著性来分类面部图像的年龄,性别和面部表情。 对于多任务分类,咱们提出了基于视觉显著性的VEGAC方法。 使用Deep Multi-level Network [17]和现成的人脸检测器[2],咱们提出的方法首先检测测试图像中的人脸,并提取裁剪人脸上的CNN预测。 VEGAC的CNN在来自不一样基准的收集数据集上进行了微调。 咱们的卷积神经网络(CNN)使用VGG-16架构[3],并在ImageNet上预先训练用于图像分类。 咱们证实了咱们的方法在年龄估计,性别分类和面部表情分类中的有用性。 咱们代表,咱们在选定的基准上使用咱们的方法得到了竞争结果。 咱们全部的型号和代码都将公开发布。
注:期待源码!!!
arXiv:https://arxiv.org/abs/1803.05719
深度估计
[7]《Self-Supervised Monocular Image Depth Learning and Confidence Estimation》
Abstract:卷积神经网络(CNN)须要大量的具备地面真实注释的数据,这是一个具备挑战性的问题,它限制了许多计算机视觉任务的CNNs的开发和快速部署。 咱们提出了一种新颖的基于单目图像的深度估计框架,而且具备相应的自我监督方式的信心。 基于零均值归一化互相关(ZNCC)提出了一种全差分基于块的成本函数,该算法将多尺度贴片做为匹配策略。 这种方法大大提升了深度学习的准确性和鲁棒性。 此外,所提出的基于补丁的成本函数能够提供0到1的置信度,而后用它来监督并行网络的训练以进行置信度学习和估计。 对KITTI数据集的评估代表,咱们的方法赛过了最早进的结果。
arXiv:https://arxiv.org/abs/1803.05530
其它
[8]《DeepN-JPEG: A Deep Neural Network Favorable JPEG-based Image Compression Framework》
DAC 2018
Abstract:做为最引人入胜的机器学习技术之一,深度神经网络(DNN)在诸如图像分类等各类智能任务中表现出优异的性能。 DNN在很大程度上经过对大量训练数据进行昂贵的培训来实现这种性能。为了减小智能资源受限物联网(IoT)系统中的数据存储和传输开销,在传输实时生成的数据集以进行培训或分类以前,有效的数据压缩是“必备”功能。虽然有许多着名的图像压缩方法(如JPEG),但咱们首次发现基于人类视觉的图像压缩方法(如JPEG压缩)不是DNN系统的优化解决方案,特别是在高压缩比。为此,咱们开发了一个专为DNN应用而定制的图像压缩框架,名为“DeepN-JPEG”,以支持DNN体系结构的深层级信息处理机制的性质。基于具备各类最早进的DNN的“ImageNet”数据集进行的大量实验代表,“DeepN-JPEG”的压缩率比流行的JPEG解决方案高出约3.5倍,同时保持图像识别的相同精度水平,展现其在基于DNN的智能物联网系统设计中具备巨大的存储和电源效率潜力。
注:这也太硬了吧!DeepN-JPEG真是666666
arXiv:https://arxiv.org/abs/1803.05788
[9]《Feature Distillation: DNN-Oriented JPEG Compression Against Adversarial Examples》
Abstract:深度神经网络(DNN)在众多实际应用中取得了卓越的性能。然而,最近的研究代表,训练有素的DNN很容易被敌对的例子(AE)误导 - 经过引入小的不可察觉的输入扰动来恶意制做输入。诸如对抗训练和防护性蒸馏之类的现有缓解解决方案受到昂贵的再培训成本的限制,而且针对CW家族对抗性例子等最早进的***显示出边际鲁棒性的提升。在这项工做中,咱们提出了一种新的低成本“特征升华”策略,经过从新设计流行的图像压缩框架“JPEG”来净化AE的敌对输入扰动。所提出的“特征蒸馏”明智地最大化图像压缩期间AE干扰的恶意特征损失,同时抑制对于高精确DNN分类相当重要的良性特征的失真。实验结果代表,咱们的方法能够大幅下降CIFAR-10和ImageNet基准测试平均约60%的各类尖端AE***的成功率,而不会下降测试精度,优于现有的解决方案,如默认的JPEG压缩和“功能挤压”。
注:这篇paper和上篇paper第一做者是同一人
arXiv:https://arxiv.org/abs/1803.05787
[10]《Exploring Linear Relationship in Feature Map Subspace for ConvNets Compression》
Abstract:虽然卷积神经网络(CNN)的研究进展很快,但这些模型的实际部署每每受计算资源和内存限制的限制。在本文中,咱们经过提出一种新颖的滤波器修剪方法来压缩和加速CNN来解决这个问题。咱们的工做基于经过可视化特征映射在不一样特征映射子空间中标识的线性关系。这种线性关系意味着CNN中的信息是多余的。咱们的方法经过将子空间聚类应用于特征映射来消除卷积滤波器中的冗余。这样,网络中的大多数表明性信息均可以保留在每一个群集中。所以,咱们的方法提供了一个有效的解决方案来筛选修剪,大多数现有方法都是基于简单的启发式直接删除过滤器。所提出的方法独立于网络结构,所以它能够被任何现成的深度学习库采用。在不一样的网络和任务上进行的实验代表,咱们的方法在微调以前赛过现有的技术,并在微调以后达到最新的结果。
arXiv:https://arxiv.org/abs/1803.05729
[11]《LEGO: Learning Edge with Geometry all at Once by Watching Videos》
Accepted to CVPR 2018 as spotlight
Abstract:学习经过深卷积网络观察未标记的视频来估计单个图像中的3D几何形状正引发重大关注。在本文中,咱们在管线内引入了一种“3D尽量平滑(3D-ASAP)”的技术,该技术可实现对边缘和三维场景的联合估计,从而得到精细细致结构精度显着提升的结果。具体来讲,咱们先定义3D-ASAP,若是没有提供其余线索,则要求从3D图像恢复的任何两点都应位于现有平面上。咱们设计了一个无人监督框架,一次完成学习边缘和几何(深度,正常)(LEGO)。预测边被嵌入到深度和表面法线平滑项中,其中没有边之间的像素被约束以知足先验。在咱们的框架中,预测的深度,法线和边缘被迫始终保持一致。咱们在KITTI上进行实验以评估咱们估计的几何图形和城市景观以执行边缘评估。咱们展现了在全部任务中,即深度,正常和边缘,咱们的算法大大优于其余最早进的(SOTA)算法,证实了咱们方法的好处。
arXiv:https://arxiv.org/abs/1803.05648
[12]《Fast End-to-End Trainable Guided Filter》
Accepted by CVPR 2018
Abstract:经过利用深度学习的功能,图像处理和像素密集预测获得了进一步发展。深度学习的一个中心问题是处理联合上采样(upsampling)的能力有限。咱们为联合上采样提供了一个深度学习构建模块,即引导滤波层。该层旨在高效地生成高分辨率输出,并给出相应的低分辨率输出和高分辨率制导图。所提出的层由导向滤波器组成,该滤波器被从新配置为彻底可微分块。为此,咱们证实了一个引导滤波器能够表示为一组空间变化的线性变换矩阵。该层能够与卷积神经网络(CNN)集成并经过端到端训练进行联合优化。为了进一步利用端到端培训,咱们插入了一个可训练的转换函数,能够生成特定于任务的指导图。经过整合CNN和提出的层,咱们造成深度导向滤波网络。拟议的网络在五个高级图像处理任务上进行评估。 MIT-Adobe FiveK数据集上的实验代表,所提出的方法运行速度提升了10-100倍,并达到了最早进的性能。咱们还代表,提出的引导过滤层有助于提升多个像素密集预测任务的性能。该代码可在此https://github.com/wuhuikai/DeepGuidedFilter中找到
arXiv:https://arxiv.org/abs/1803.05619
homepage:http://wuhuikai.me/DeepGuidedFilterProject/
github:https://github.com/wuhuikai/DeepGuidedFilter
[13]《Improving Object Counting with Heatmap Regulation》
Abstract:在本文中,咱们提出了一种简单而有效的方法来改善从图像中进行物体计数的单外观回归模型。咱们使用类激活地图可视化来讲明学习计数任务的纯粹一看回归模型的缺点。基于这些看法,咱们经过调整来自网络最终卷积层的激活图与简单点注释生成的粗糙地面真实激活图来加强单看回归计数模型。咱们将这种策略称为热图调节(HR)。咱们代表,这种简单的加强有效地抑制了由相应的一眼基线模型生成的错误检测,而且还改善了假阴性方面的性能。在四个不一样的计数数据集上进行评估 - 两个用于汽车计数(CARPK,PUCPR +),一个用于人群计数(WorldExpo),另外一个用于生物细胞计数(VGG-Cells)。与简单的单一基准模型相比,将HR添加到简单的VGG前端能够提升全部这些基准测试的性能,并为汽车计数带来最早进的性能。
arXiv:https://arxiv.org/abs/1803.05494