【今日CV 计算机视觉论文速览第128期】Mon, 10 Jun 2019

时间 2019-11-07

原文原文链接

今日CS.CV 计算机视觉论文速览
Mon, 10 Jun 2019
Totally 38 papers
👉上期速览 ✈更多精彩请移步主页ios

Interesting:

📚遮挡区域语义分割, 研究人员将语义分割模型拓展到了看不见的区域上，为遮挡物体也提出了有效的语义分割。将前景和背景分开，按照分组的方式进行分割，在不增长网络尺寸的状况下能够经过改造的交叉熵来实现有效分割。(from 阿德莱德大学澳大利亚)
通常语义分割与分组语义分割，能够将遮挡的部分背景有效分解出来：

分组语义分割的例子：

在标准语义分割的基础上增长了2（M+1）个分组（M 为分组数，N为类别数）：

结果以下所示，能够看到不一样组别的分类和每一组内各自的分类：

ref：https://github.com/shurans/SUNCGtoolbox
https://shurans.github.io/
dataset:SUNCG

git

📚无人机用于环境和场景检测, UAV和多种相机结合实现对于不一样做物的检测能够实现分类、计数、检测、产量预测、病虫害防治等，这篇文章总结了无人机在各个方面的应用和研究，将为智能农场提供新的思路。(from Kingston University， UK)github

基于UAV的做物分类：

基于UAV的生产预测：

种植面积和害虫检测：

养分和病害检测：

web

📚 coherent point drift networks，CPD-Net用于非刚体的配准网络, 传统的点云配准方法须要搜索一个集合变换来将源于目标配准，但十分耗时。这篇论文提出乐意一种非监督学习的方法能够将实现非刚体点集的实时变换配准，它能够从训练数据中学习到一个位移场函数来估计几何变换，并可以预测位置物体间配准的几何变换。并可以适用于任意函数来对不一样复杂度的物体进行几何变换与配准，并能够保证连续位移矢量函数来进行配准。(from 纽约大学)

学习描述子 & 学习位移量：

一些实验结果：

code:https://github.com/Lingjing324/CPD-Net
dataset:4.1. Experimental Dataset算法

📚AutoGrow, 自动深度探索拓展的网络，从浅层架构开始不断根据模型表现拓展架构，经过通用增加和中止策略来最小化人类的介入，能够发现发现有效的网络深度并实现最优的效果。能够有效减小计算和搜索时间，局小于深度发现效率，能够拓展到大规模数据集上。(from 杜克大学)
随着训练不断增加的网络模型：

code:https://github.com/wenwei202/autogrow

数据库

📚基于点标记的细胞分割方法，弱监督方法, (from Lunit Inc., Seoul, South Korea)

api

📚自动驾驶汽车重点技术综述, (from https://www.webofknowledge.com)

安全

📚多模态端到端自动驾驶, (from Univ. Autonoma de Barcelona (UAB).)

网络架构：

网络

📚多主体检测与跟踪方法, (from University of Leicester, United Kingdom)

架构

Daily Computer Vision Papers

Evolving Losses for Unlabeled Video Representation Learning
Authors AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo
咱们提出了一种从未标记数据中学习视频表示的新方法。给定大规模未标记的视频数据，目标是经过学习能够直接用于新任务（例如零次射击学习）的通用且可转移的表示空间来从这样的数据中受益。咱们将无监督表示学习表示为多模态，多任务学习问题，其中表示也经过蒸馏在不一样模态中共享。此外，咱们还介绍了使用进化算法找到更好的损失函数来训练这样的多任务多模态表示空间的概念，咱们的方法自动搜索捕获多个自监督任务和模态的损失函数的不一样组合。咱们的公式容许将音频，光流和时间信息提高到单个基于RGB的卷积神经网络中。咱们还比较了使用其余未标记视频数据的效果，并评估了咱们在标准公共视频数据集上的表示学习。

**Extracting Visual Knowledge from the Internet: Making Sense of Image Data
Authors Yazhou Yao, Jian Zhang, Xiansheng Hua, Fumin Shen, Zhenmin Tang
最近在视觉识别方面的成功主要归功于特征表示，学习算法以及标记的训练数据的不断增长的大小。对前两个问题进行了普遍的研究，但对第三个问题的关注却少得多。因为手动标签的高成本，ImageNet等近期工做的规模在平常应用方面仍然相对较小。在这项工做中，咱们主要关注如何大规模自动生成给定视觉概念的识别图像数据。利用生成的图像数据，咱们能够为给定的概念训练强大的识别模型。咱们在基准Pascal VOC 2007数据集上评估了提议的webly监督方法，结果证实了咱们提出的方法在图像数据收集中的优越性。

****Multimodal End-to-End Autonomous Driving
Authors Yi Xiao, Felipe Codevilla, Akhil Gurram, Onay Urfalioglu, Antonio M. L pez
自动驾驶汽车AV是将来智能移动的关键。 AV的一个关键组成部分是人工智能AI可以驱动到所需的目的地。今天，有不一样的范例来解决AI驱动程序的开发问题。一方面，咱们发现模块化管道，将驱动任务划分为子任务，如感知对象检测，语义分割，深度估计，跟踪和机动控制局部路径规划和控制。另外一方面，咱们发现端到端驾驶方法试图学习从输入原始传感器数据到车辆控制信号的转向角度的直接映射。后者的研究相对较少，但因为它们在传感器数据注释方面要求较低，所以愈来愈受欢迎。本文重点介绍端到端的自动驾驶。到目前为止，大多数依赖于此范例的提案都假设RGB图像做为输入传感器数据。然而，AV不只仅配备摄像机，并且还配备有源传感器，提供传统LiDAR或新固态激光器的精确深度信息。所以，本文分析RGB和深度数据RGBD数据是否实际上能够做为多模式端到端驱动方法中的补充信息，从而产生更好的AI驱动程序。使用CARLA模拟器功能，标准基准测试和条件模仿学习CIL，咱们将展现RGBD是如何产生更成功的端到端AI驱动程序的。咱们将经过早期，中期和晚期融合方案比较RGBD信息的使用，包括多感受和单传感器单眼深度估计设置。

Ego-Pose Estimation and Forecasting as Real-Time PD Control
Authors Ye Yuan, Kris Kitani
咱们建议使用经过强化学习RL学习的基于比例导数PD控制的策略来估计和预测来自自我中心视频的3D人体姿式。该方法直接从未分段的自我中心视频和由各类复杂的人体运动组成的运动捕捉数据中学习，例如蹲伏，跳跃，弯曲和运动过渡。咱们提出了一种视频条件反复控制技术来预测任意长度的物理有效和稳定的将来运动。咱们还介绍了一种基于值函数的故障安全机制，它使咱们的方法可以做为单通道算法运行在视频数据上。受控和野外数据的实验代表，咱们的方法在定量度量和运动的视觉质量方面都优于现有技术，而且足够强大，能够直接转移到现实世界的场景。此外，咱们的时间分析代表，咱们的姿式估计和预测的组合使用能够在30 FPS下运行，使其适用于实时应用。

HPILN: A feature learning framework for cross-modality person re-identification
Authors Jian Wu Lin, Hao Li
大多数视频监控系统都使用RGB和红外摄像机，这使得它成为从新识别穿越RGB和红外模式的人的重要技术。因为RGB和红外中的异构图像引发的交叉模态变化以及由异构人体姿式，相机视图，光亮度等引发的内部模态变化，这项任务可能具备挑战性。为了应对这些挑战，新的特征学习框架，HPILN，提出。在该框架中，修改现有的单模态从新识别模型以适应交叉模态场景，以后使用特别设计的硬五重峰丢失和同一性损失来改进修改的交叉模态从新识别模型的性能。基于SYSU MM01数据集的基准，进行了大量实验，代表所提出的方法在累积匹配特征曲线CMC和平均平均精度MAP方面优于全部现有方法。

Context-driven Active and Incremental Activity Recognition
Authors Gabriele Civitarese, Riccardo Presotto, Claudio Bettini
多年来，基于移动设备传感器数据的人类活动识别一直是移动和普适计算领域的活跃研究领域。虽然所提出的大多数技术基于监督学习，但正在考虑半监督方法以显着减少初始化识别模型所需的训练集的大小。这些方法一般采用自我训练或主动学习来逐步完善模型，但其有效性彷佛仅限于一组有限的身体活动。咱们声称围绕用户的上下文，例如语义位置，与运输路线的接近度，一天中的时间以及关于该上下文与人类活动之间的关系的常识，能够有效地显着增长已识别的活动集合，包括那些难以区分仅考虑惯性传感器，以及高度依赖于环境的传感器。在本文中，咱们提出了CAVIAR，一种用于实时活动识别的新型混合半监督和基于知识的系统。咱们的方法将语义推理应用于上下文数据以细化半监督分类器的预测。上下文细化的预测被用做新的标记样本以更新结合自我训练和主动学习技术的分类器。从26个受试者得到的真实数据集上的结果显示了情境感知方法对识别率和由主动学习模块生成的对象的查询数量的有效性。为了评估上下文推理的影响，咱们还将CAVIAR与纯统计版本进行比较，考虑在上下文数据上计算的特征做为机器学习过程的一部分。

Visual Person Understanding through Multi-Task and Multi-Dataset Learning
Authors Kilian Pfeiffer, Alexander Hermans, Istv n S r ndi, Mark Weber, Bastian Leibe
咱们解决了学习用于人物识别，属性分类，身体部位分割和姿式估计的单个模型的问题。经过对这些任务的预测，咱们能够更全面地了解人，这对许多应用都颇有价值。这是一个经典的多任务学习问题。可是，不存在能够共同窗习这些任务的数据集。所以，在训练期间须要组合几个数据集，这在其余状况下常常致使过去的性能下降。咱们普遍评估不一样任务和数据集如何相互影响，以及任务之间不一样程度的参数共享如何影响性能。咱们的最终模型匹配或优于其单一任务对应物，而不会产生显着的计算开销，使其对于资源受限的场景（如移动机器人）很是有趣。

An Artificial Intelligence-Based System for Nutrient Intake Assessment of Hospitalised Patients
Authors Ya Lu, Thomai Stathopoulou, Maria F. Vasiloglou, Stergios Christodoulidis, Beat Blum, Thomas Walser, Vinzenz Meier, Zeno Stanga, Stavroula G. Mougiakakou
住院患者的按期养分摄入监测在下降与疾病相关的养分不良DRM的风险中起着关键做用。虽然已经开发了几种估算养分素摄入量的方法，但仍然须要更可靠和全自动化的技术，由于这能够提升数据准确性并减小参与者的负担和健康成本。在本文中，咱们提出了一种基于人工智能的新系统，经过简单处理餐前消费先后捕获的RGB深度图像对，准确估计养分摄入量。为了开发和评估系统，咱们组装了一个专门的新的322餐图像和食谱数据库，并使用创新策略与数据注释相结合。利用该数据库，开发了一种采用新型多任务神经网络和3D表面构造算法的系统。这容许顺序语义食物分割和消耗食物量的估计，并容许每种食物类型的养分物摄入的全自动估计具备15估计偏差。

Learning Classifier Synthesis for Generalized Few-Shot Learning
Authors Han Jia Ye, Hexiang Hu, De Chuan Zhan, Fei Sha
现实世界中的视觉识别须要处理长尾甚至开放式数据。视觉系统的实用性是可靠地识别填充的头部视觉概念，同时了解少数实例的尾部类别。经过学习人口密集类别的强分类器或尾部类别的少数镜头分类器，课程平衡了许多镜头学习和少许镜头学习解决了这个具备挑战性的问题的一方。在本文中，咱们研究了广义少数射击学习的问题，其中头部和尾部的识别是联合进行的。咱们提出了一种基于神经词典的ClAssifier SynThesis LEarning CASTLE方法，除了多类头分类器以外，还合成校准的尾分类器，同时在全局识别框架中识别头部和尾部视觉类别。在两个标准基准数据集MiniImageNet和TieredImageNet上，CASTLE在不一样的学习场景中表现出了卓越的性能，即许多镜头学习，少许镜头学习和广泛的少许镜头学习。

**PseudoEdgeNet: Nuclei Segmentation only with Point Annotations
Authors Inwan Yoo, Donggeun Yoo, Kyunghyun Paeng
细胞核分割是数字病理学中整个载玻片图像分析的重要任务之一。随着深度学习的急剧发展，最近的深度网络已经证实了核分割任务的成功表现。然而，实现良好性能的主要瓶颈是注释成本。大型网络须要大量的分段掩码，这个注释任务是给病理学家而不是公众。在本文中，咱们提出了一种弱监督的核分割方法，它只须要点注释进行训练。该方法能够扩展到大的训练集，由于标记核的点比精细分割掩模便宜得多。为此，咱们引入了一种名为PseudoEdgeNet的新型辅助网络，它引导分割网络即便没有边缘注释也能识别核边缘。咱们使用两个公共数据集评估咱们的方法，结果代表该方法始终优于其余弱监督方法。

**Conditional Neural Style Transfer with Peer-Regularized Feature Transform
Authors Jan Svoboda, Asha Anoosheh, Christian Osendorfer, Jonathan Masci
本文介绍了一种神经风格转移模型，它仅使用描述所需风格的一组示例来有条件地生成风格化图像。即便在零镜头设置中，所提出的解决方案也能产生高质量的图像，而且容许更改内容几何形状的更大自由度。这要归功于一种新颖的同行规则化层的引入，该层经过自定义图形卷积层在潜在空间中重构风格，旨在分离风格和内容。与绝大多数现有解决方案相反，咱们的模型不须要任何预先训练的网络来计算感知损失，而且能够经过一组新的循环损失进行端到端的全面训练，这些循环损失直接在潜在的状况下运行

NICO: A Dataset Towards Non-I.I.D. Image Classification
Authors Yue He, Zheyan Shen, Peng Cui
I.I.D.训练数据和测试数据之间的假设是大量图像分类方法的基础。在非IID性很常见的实际状况下，很难保证这种性质，致使这些模型的性能不稳定。然而，在文献中，非I.I.D.图像分类问题在很大程度上未获得充分研究。一个关键缘由是缺少精心设计的数据集来支持相关研究。在本文中，咱们构建并发布了非I.I.D.名为NICO的图像数据集，它利用上下文有意识地建立非IID。扩展的实验结果和分析证实，NICO数据集能够很好地支持从头开始训练ConvNet模型，而且NICO能够支持各类非I.I.D.与其余数据集相比具备足够灵活性的状况。

***Seeing Behind Things: Extending Semantic Segmentation to Occluded Regions
Authors Pulak Purkait, Christopher Zach, Ian Reid
因为深度神经网络DNN的出现，近年来语义分割和实例级分割取得了实质性进展。提出了许多具备卷积神经网络CNN的深层架构，它们大大超越了传统的机器学习方法。这些体系结构经过优化交叉熵损失来预测每一个像素的直接可观察语义类别。在这项工做中，咱们将语义分割的极限推向预测直接可见以及被遮挡的对象或对象部分的语义标签，其中网络的输入是单个深度图像。咱们将语义类别分组为一个背景和多个前景对象组，而且咱们建议修改标准交叉熵损失以应对设置。在咱们的实验中，咱们证实经过最小化所提出的损失而训练的CNN可以预测可见和被遮挡的对象部分的语义类别，而不须要与标准分割任务相比增长网络大小。结果在从SUNCG数据集增长的新生成的数据集上进行验证。

Deep Spherical Quantization for Image Search
Authors Sepehr Eghbali, Ladan Tahvildari
利用紧凑离散码编码高维图像的哈希方法已被普遍应用于加强大规模图像检索。在本文中，咱们提出了深度球形量化DSQ，这是一种新的方法，使深度卷积神经网络生成有监督和紧凑的二进制代码，以实现高效的图像搜索。咱们的方法同时学习将输入图像变换为低维度判别空间的映射，并使用多码本量化来量化变换后的数据点。为了消除范数方差对码本学习的负面影响，咱们强制网络L 2对提取的特征进行归一化，而后使用专门针对位于单位超球面上的点设计的新的监督量化技术来量化所获得的矢量。此外，咱们引入了一种易于实现的量化技术扩展，能够强化码本的稀疏性。大量实验证实，DSQ及其稀疏变体能够生成语义上可分离的紧凑二进制代码，其在三个基准上优于许多现有技术的图像检索方法。

Risky Action Recognition in Lane Change Video Clips using Deep Spatiotemporal Networks with Segmentation Mask Transfer
Authors Ekim Yurtsever, Yongkang Liu, Jacob Lambert, Chiyomi Miyajima, Eijiro Takeuchi, Kazuya Takeda, John H. L. Hansen
先进的驾驶员辅助和自动驾驶系统依靠风险评估模块来预测和避免危险状况。当前的方法使用昂贵的传感器设置和复杂的处理流程，限制了它们的可用性和稳健性。为了解决这些问题，咱们引入了一种新颖的基于深度学习的动做识别框架，用于对单眼摄像机捕获的短视频片断中的危险车道变换行为进行分类。咱们设计了一个深度时空分类网络，该网络使用预先训练的最新实例分割网络Mask R CNN做为此任务的空间特征提取器。所提出方法的长短时间记忆LSTM和较浅的最终分类层在具备注释风险标签的半天然变道车道变化数据集上进行训练。对最早进的特征提取器进行了全面比较，以找到最佳的网络布局和培训策略。使用所提出的网络得到了具备0.937 AUC分数的最佳结果。咱们的代码和训练有素的模型是开源的。

Does Generative Face Completion Help Face Recognition?
Authors Joe Mathai, Iacopo Masi, Wael AbdAlmageed
面部遮挡，覆盖面部的大多数或有辨别力的部分，能够打破面部感知并致使信息的急剧损失。诸如最近的深度面部识别模型之类的生物识别系统不能免受覆盖面部部分的障碍物或其余物体的影响。虽然大多数当前的面部识别方法未被优化以处理遮挡，可是已经有一些尝试直接在训练阶段中提升鲁棒性。与那些不一样，咱们建议研究生成面部完成对识别的影响。咱们提供了一个面部完成编码器解码器，它基于一个带有门控机制的卷积算子，训练有大量的面部遮挡。为了系统地评估真实遮挡对识别的影响，咱们建议玩遮挡游戏，咱们将3D对象渲染到不一样的面部，提供有效去除这些遮挡的影响的宝贵知识。野生LFW中标记面的普遍实验及其更难以改变的LFW BLUFR，证实面部完成可以部分恢复机器视觉系统中的面部感知以提升识别率。

Recognizing American Sign Language Manual Signs from RGB-D Videos
Authors Longlong Jing, Elahe Vahdani, Matt Huenerfauth, Yingli Tian
在本文中，咱们提出了一种基于3D卷积神经网络3DCNN的多流框架来识别美国手语ASL手动标志，包括手的动做，以及在某些状况下从RGB D视频实时非手动面部动做，融合多模态功能，包括手势，面部表情和来自多通道RGB，深度，运动和骨架关节的身体姿式。为了学习视频中的总体时间动态，经过为每一个视频选择帧的子集来生成代理视频，而后将其用于训练所提出的3DCNN模型。咱们收集了一个新的ASL数据集ASL 100 RGBD，其中包含由Microsoft Kinect V2摄像头捕获的42个RGB D视频，每一个100个ASL手动标志，包括RGB通道，深度图，骨架关节，面部特征和HDface。对于每一个语义区域，即人类签名者执行的每一个单词的持续时间，数据集被彻底注释。咱们提出的方法在咱们新收集的ASL 100 RGBD数据集中识别100个ASL单词时达到92.88准确度。咱们的框架识别来自RGB D视频的手势的有效性在Chalearn IsoGD数据集上获得了进一步证实，而且经过仅使用5个通道而不是12个通道，在平均融合方面达到了比现有技术工做高5.51的精度。在之前的工做中。

**Figure Captioning with Reasoning and Sequence-Level Training
Authors Charles Chen, Ruiyi Zhang, Eunyee Koh, Sungchul Kim, Scott Cohen, Tong Yu, Ryan Rossi, Razvan Bunescu
条形图，饼图和线图等数字被普遍用于以简洁的格式传达重要信息。它们一般是人性化的，但计算机很难自动处理。在这项工做中，咱们研究了图形字幕的问题，其目标是自动生成图形的天然语言描述。虽然已经普遍研究了天然图像字幕，可是字幕字幕已经受到相对较少的关注而且仍然是一个具备挑战性的问题。首先，咱们基于FigureQA为图形字幕引入了一个新的数据集FigCAP。其次，咱们提出了两种新颖的注意机制。为了在图中准确生成标签，咱们建议标签图注意。为了模拟图形标签之间的关系，咱们提出了关系图注意。第三，咱们使用强化学习的序列级训练，以直接优化评估指标，从而减轻暴露误差问题，并进一步改进生成长字幕的模型。大量实验代表，所提出的方法优于基线，从而证实了大量数据库自动标题的巨大潜力。

Multi-scale guided attention for medical image segmentation
Authors Ashish Sinha, Jose Dolz
尽管卷积神经网络CNN正在推进医学图像分割的进步，但标准模型仍然存在一些缺点。首先，使用多尺度方法，即编码器解码器架构，致使信息的冗余使用，其中相似的低级特征在多个尺度上被屡次提取。其次，长距离特征依赖性未被有效建模，致使与每一个语义类相关联的非最佳判别特征表示。在本文中，咱们尝试经过基于引导自我关注机制的使用捕获更丰富的上下文依赖性来克服提出的体系结构的这些限制。该方法可以将局部特征与其对应的全局依赖性集成，而且以自适应方式突出显示相互依赖的信道映射。此外，不一样模块之间的额外损失引导注意机制去除噪声并经过强调相关特征关联来关注图像的更多判别区域。咱们在磁共振成像MRI的腹部器官分割的背景下评估所提出的模型。一系列消融实验支持这些注意模块在所提出的架构中的重要性。此外，与其余最早进的分割网络相比，咱们的模型能够产生更好的分割性能，提升预测的准确性，同时下降标准误差。这证实了咱们生成精确可靠的医学图像自动分割方法的效率。咱们的代码和训练有素的模型在公开发布

How to make a pizza: Learning a compositional layer-based GAN model
Authors Dim P. Papadopoulos, Youssef Tamaazousti, Ferda Ofli, Ingmar Weber, Antonio Torralba
食谱是用于准备特定菜肴的有序指令集。从视觉角度来看，每一个指示步骤可被视为经过添加额外物体（例如，添加成分或改变现有物品的外观，例如烹饪菜肴）来改变菜肴的视觉外观的方式。在本文中，咱们的目标是经过构建一个反映这一步骤程序的生成模型来教一台机器如何制做披萨。为此，咱们学习了可组合模块操做，能够添加或删除特定成分。每一个运营商都被设计为Generative Adversarial Network GAN。仅给出弱图像级监督，操做员被训练以生成须要添加到现有图像或从现有图像移除的视觉层。所提出的模型可以经过以正确的顺序顺序地应用相应的移除模块将图像分解成有序的层序列。合成和真实披萨图像的实验结果代表，咱们提出的模型可以以弱监督的方式对披萨配料进行分割，2经过揭示它们下面的遮挡物即去除它们，即修复，而且3推断出浇头的排序而没有任何深度订购监督。代码，数据和模型可在线获取。

**Detection and Tracking of Multiple Mice Using Part Proposal Networks
Authors Zheheng Jiang, Zhihua Liu, Long Chen, Lei Tong, Xiangrong Zhang, Xiangyuan Lan, Danny Crookes, Ming Hsuan Yang, Huiyu Zhou
小鼠社会行为的研究愈来愈多地在神经科学研究中进行。然而，从相互做用小鼠的视频中自动量化小鼠行为仍然是一个具备挑战性的问题，其中物体跟踪在将小鼠定位在其生活空间中起关键做用。人工标记一般用于多个小鼠跟踪，这些小鼠是侵入性的并所以干扰动态环境中小鼠的运动。在本文中，咱们提出了一种新的方法来连续跟踪几个鼠标和单个部分，而无需任何特定的标记。首先，咱们提出了一种有效且稳健的基于深度学习的鼠标部分检测方案，以生成部分候选。随后，咱们提出了一种新颖的贝叶斯整数线性规划模型，该模型联合地将具备必要几何约束的候选零件分配给各个目标，同时在检测到的零件之间创建成对关联。研究界没有公开的数据集，为多个小鼠的部件检测和跟踪提供定量测试平台，咱们在这里介绍一个由复杂的行为和动做组成的新的具备挑战性的Multi Mice PartsTrack数据集。最后，咱们针对新数据集上的几个基线评估了咱们提出的方法，其结果代表咱们的方法在准确性方面优于其余最早进的方法。

Segment Integrated Gradients: Better attributions through regions
Authors Andrei Kapishnikov, Tolga Bolukbasi, Fernanda Vi gas, Michael Terry
显着性方法能够帮助理解深度神经网络。近年来，显着性方法获得了许多改进，以及评估它们的新方法。在本文中，咱们提出了一种新的基于区域的归因方法，即Segment Integrated Gradients SIG，它创建在Sundararajan等人的综合梯度上。 2017年，2介绍了用于凭经验评估基于图像质量图的质量的评估方法。性能信息曲线PICs和3为归因方法提供了基于公理的健全性检查。经过实证明验和实例结果，咱们证实SIG比普通模型和ImageNet数据集的其余显着性方法产生更好的结果。

Iterative Self-Learning: Semi-Supervised Improvement to Dataset Volumes and Model Accuracy
Authors Robert Dupre, Jiri Fajtl, Vasileios Argyriou, Paolo Remagnin
基于简单的迭代学习循环以及学习的阈值技术和集合决策支持系统，引入了一种新颖的半监督学习技术。经过在训练深刻学习的分类模型时使用未标记的数据，展现了最新的模型性能和增长的训练数据量。当评估半监督学习技术以及许多更具挑战性的图像分类数据集CIFAR 100和ImageNet的200类子集时，对经常使用数据集执行所提出的方法的评估。

***Scene and Environment Monitoring Using Aerial Imagery and Deep Learning
Authors Mahdi Maktabdar Oghaz, Manzoor Razaak, Hamideh Kerdegari, Vasileios Argyriou, Paolo Remagnino
无人驾驶飞行器无人机是用于智能农业相关应用的有前途的技术。利用无人机对农业农场进行空中监测，能够进行与做物监测有关的关键决策。深度学习技术的进步进一步提升了基于航空影像的分析的精确性和可靠性。在无人机上安装各类传感器RGB，光谱相机的功能容许远程做物分析应用，例如植被分类和分割，做物计数，产量监测和预测，做物绘图，杂草检测，疾病和养分缺少检测等。在为智能农业应用探索无人机的文献中发现了大量研究。本文综述了深度学习智能农业无人机图像的研究。根据应用，咱们将这些研究分为五大类，包括植被识别，分类和分割，做物计数和产量预测，做物绘图，杂草检测和做物病害以及养分缺少检测。提供了对每项研究的深刻批判性分析。

Attention is all you need for Videos: Self-attention based Video Summarization using Universal Transformers
Authors Manjot Bilkhu, Siyang Wang, Tushar Dobhal
视频字幕和摘要近年来因为序列建模的进步而变得很是流行，随着长短时间存储器网络LSTM的复苏和门控循环单元GRU的引入。现有体系结构使用CNN提取空间时间特征，并利用GRU或LSTM来模拟与软关注层的依赖关系。这些注意力层确实有助于注意最突出的特征并改进复发单元，然而，这些模型具备复发单元自己的固有缺点。 Transformer模型的引入推进了Sequence Modeling领域的新方向。在这个项目中，咱们实现了一个基于变压器的视频字幕模型，利用C3N和两个流I3D等3D CNN架构进行视频提取。咱们还应用某些降维技术，以便将模型的总体尺寸保持在限制范围内。咱们最终分别在MSVD和ActivityNet数据集上显示单个和密集视频字幕任务的结果。

***Benchmarking 6D Object Pose Estimation for Robotics
Authors Antti Hietanen, Jyrki Latokartano, Alessandro Foi, Roel Pieters, Ville Kyrki, Minna Lanz, Joni Kristian K m r inen
对机器人技术进行基准6D物体姿态估计的基准并不简单，由于足够的精度取决于许多因素，例如，所选择的抓取器，尺寸，物体的重量和材料，抓握点以及机器人任务自己。咱们将问题表述为成功掌握，即对于影响任务的一组固定因素，给定姿式估计是否足以完成任务。经过在姿式偏差空间中采样并执行任务并自动检测成功或失败，在几率框架中建模成功的掌握。在给定姿式残差的状况下，采样小时数和数千个样本用于构建成功掌握的非参数几率。该框架经过实验对象和装配任务进行实验验证，并比较几种基于现有技术的点云基于3D姿态估计方法。

A deep learning approach for automated detection of geographic atrophy from color fundus photographs
Authors Tiarnan D. Keenan, Shazia Dharssi, Yifan Peng, Qingyu Chen, Elvira Agr n, Wai T. Wong, Zhiyong Lu, Emily Y. Chew
目的评估深度学习在彩色眼底照片检测地理萎缩GA中的效用，旨在探索检测中心GA CGA的潜在用途。设计开发了一种深度学习模型来检测彩色眼底照片中GA的存在，以及另外两种在不一样状况下检测CGA的模型。参与者从AREDS数据集中的4,582名参与者的纵向随访中拍摄了59,812张彩色眼底照片。金标准标签来自使用标准化协议的人类专家阅读中心评分员。方法训练深度学习模型以使用彩色眼底照片来预测从没有AMD的眼睛到晚期AMD的眼睛的GA存在。训练第二个模型以预测来自相同群体的CGA存在。训练第三个模型以用GA预测来自眼睛子集的CGA存在。对于训练和测试，使用5倍交叉验证。为了与人类临床医生的表现进行比较，将模型表现与88名视网膜专家的模型表现进行了比较。结果深度学习模型GA检测，全部眼睛的CGA检测和GA眼中心检测的AUC分别为0.933 0.976,0.939 0.976和0.827 0.888。 GA检测模型的准确度，灵敏度，特异性和精密度分别为0.965,0.692,0.978和0.584。 CGA检测模型具备0.966,0.763,0.971和0.394的等效值。中心检测模型的等效值为0.762,0.782,0.729和0.799。结论深度学习模型证实了GA自动检测的高精度。 AUC不逊于人类视网膜专家。深度学习方法也能够应用于CGA的识别。代码和预训练模型可在如下公开得到

***Coherent Point Drift Networks: Unsupervised Learning of Non-Rigid Point Set Registration
Authors Lingjing Wang, Yi Fang
给定新的源和目标点集对，标准点集注册方法一般重复进行所需几何变换的独立迭代搜索，以使源点集与目标点对齐。这限制了它们在应用程序中的使用，以处理使用大容量数据集的实时点集注册。本文提出了一种新的方法，称为相干点漂移网络CPD网络，用于无监督学习几何变换到实时非刚性点集注册。与先前的努力相反，例如相干点漂移，CPD Net能够学习位移场函数以估计来自训练数据集的几何变换，从而预测用于先前未见对的对齐的指望几何变换，而无需任何额外的迭代优化过程。此外，CPD Net利用深度神经网络的功能来拟合任意函数，该函数自适应地适应所需几何变换的不一样复杂程度。特别是，CPD Net被证实具备理论上的保证，能够学习连续位移矢量函数，这能够进一步避免像之前的工做那样施加额外的参数平滑约束。咱们的实验验证了CPD Net在各类2D 3D数据集上非刚性点集配准的出色表现，即便存在明显的位移噪声，异常值和缺失点。咱们的代码是可用的

A Generative Framework for Zero-Shot Learning with Adversarial Domain Adaptation
Authors Varun Khare, Divyat Mahajan, Homanga Bharadhwaj, Vinay Verma, Piyush Rai
在本文中，咱们提出了一个基于领域适应的零射击学习生成框架。咱们明确地针对零镜头学习ZSL中看到和看不见的类分布之间的域转移问题，并经过开发生成模型并经过对抗域适应来训练它来寻求最小化它。咱们的方法基于端到端学习所见类和未见类的类分布。为了使模型可以学习看不见的类的类分布，咱们根据类属性信息对这些类分布进行参数化，这些信息可用于看不见的类和看不见的类。这提供了一种很是简单的方法来学习任何看不见的类的类分布，仅给出其类属性信息，而且没有标记的训练数据。经过对抗域适应来训练该模型提供了对来自已见和未见类的数据之间的分布不匹配的鲁棒性。经过一系列全面的实验，咱们代表，与各类先进的ZSL模型相比，咱们的模型在各类基准数据集上都能提供更高的精度。

Deep Angular Embedding and Feature Correlation Attention for Breast MRI Cancer Analysis
Authors Luyang Luo, Hao Chen, Xi Wang, Qi Dou, Huangjin Lin, Juan Zhou, Gongjie Li, Pheng Ann Heng
乳腺MRI的准确和自动分析在乳腺癌的早期诊断和成功治疗计划中起着重要做用。因为异质性，肿瘤的准确诊断仍然是一项具备挑战性的任务。在本文中，咱们建议经过深度学习DL的余弦边缘Sigmoid Loss CMSL在MRI中识别乳腺肿瘤，并基于所学习的特征经过COrrelation Attention Map COAM定位可能的癌症病变。 CMSL将肿瘤特征嵌入到超球面，并经过余弦约束施加决策余量。经过这种方式，DL模型能够在角度空间中学习更多可分离的类间特征和更紧凑的类内特征。此外，咱们利用特征向量之间的相关性来生成注意力图，该注意力图能够仅用图像级别标签准确地定位癌症候选者。咱们创建了最大的乳腺癌数据集，涉及10,290个DCE MRI扫描量，用于开发和评估所提出的方法。由CMSL驱动的模型在测试集上实现了0.855的分类准确度和0.902的AUC，灵敏度和特异性分别为0.857和0.852，整体上优于其余竞争方法。此外，与其余现有技术的弱监督定位方法相比，所提出的COAM实现了癌症中心的更准肯定位。

**Deep Learning based Cephalometric Landmark Identification using Landmark-dependent Multi-scale Patches
Authors Chonho Lee, Chihiro Tanikawa, Jae Yeon Lim, Takashi Yamashiro
提出了一种基于深度神经网络的头影测量界标识别模型。两个神经网络，称为贴片分类和点估计，经过从日本年轻患者的935个头影图裁剪的多尺度图像块进行训练，其尺寸和方向根据正畸医生检查的界标依赖标准而变化。所提出的模型识别22个硬组织和11个软组织标志。为了评估所提出的模型，计算真实值和估计值之间的欧几里德距离偏差的界标估计精度，以及使用置信椭圆估计的界标位于相应范数内的成功率。所提出的模型成功识别出1.32±3.5mm的偏差范围内的硬组织界标，平均成功率为96.4，软组织界标的偏差范围为1.16 4.37 mm，平均成功率为75.2。咱们验证，考虑贴片的尺寸依赖性尺寸和方向有助于提升估计精度。

Selfie: Self-supervised Pretraining for Image Embedding
Authors Trieu H. Trinh, Minh Thang Luong, Quoc V. Le
咱们介绍一种称为Selfie的预训练技术，它表明SELF监督的图像嵌入。 Selfie将掩盖语言建模的概念归纳为连续数据，例如图像。给定输入图像中的蒙版补丁，咱们的方法学会选择正确的补丁，以及从同一图像采样的其余干扰物补丁，以填充掩蔽的位置。该分类目标避免了预测目标补丁的精确像素值的须要。预训练架构包括卷积块网络，用于处理补丁，而后是注意力集中网络，以在预测掩码补丁以前汇总未掩码补丁的内容。在微调期间，咱们重复使用预训练找到的卷积权重。咱们在三个基准CIFAR 10，ImageNet 32 x 32和ImageNet 224 x 224上评估咱们的方法，其中包含5到100个训练集的不一样标记数据量。与同一网络的标准监督培训相比，咱们的预训练方法可在全部设置中对ResNet 50进行一致的改进。值得注意的是，在ImageNet 224 x 224上，每类5个例子60个，咱们的方法将ResNet 50的平均精度从35.6提升到46.7，绝对精度提升了11.1个点。咱们的预训练方法还经过显着下降数据集中测试精度的标准误差，提升了ResNet 50的训练稳定性，特别是在低数据状态下。

**Key Ingredients of Self-Driving Cars
Authors Rui Fan, Jianhao Jiao, Haoyang Ye, Yang Yu, Ioannis Pitas, Ming Liu
在过去的十年中，许多研究文章已经发表在自动驾驶领域。然而，它们中的大多数仅关注于特定的技术领域，例如视觉环境感知，车辆控制等。此外，因为自动驾驶汽车技术的快速发展，这些物品变得很是快速地过期。在本文中，咱们简要但全面地概述了自动驾驶汽车AC的关键成分，包括驾驶自动化水平，交流传感器，交流软件，开源数据集，行业领导者，交流应用和现有挑战。

**EVDodge: Embodied AI For High-Speed Dodging On A Quadrotor Using Event Cameras
Authors Nitin J. Sanket, Chethan M. Parameshwara, Chahat Deep Singh, Ashwin V. Kuruttukulam, Cornelia Ferm ller, Davide Scaramuzza, Yiannis Aloimonos
人类着迷于了解像鸟类和蜜蜂这样的超高效敏捷飞行生物已推进了数十年的研究，试图解决微型空中机器人避障问题。然而，大多数先前的研究都集中在静态避障上。这是因为缺少高速视觉传感器和可扩展的视觉算法。在过去的十年中，神经形态传感器的指数增加受到天然界的启发，并有可能成为视觉运动估计问题的事实标准。

***AutoGrow: Automatic Layer Growing in Deep Convolutional Networks
Authors Wei Wen, Feng Yan, Hai Li
咱们建议AutoGrow从浅层种子架构开始自动深度神经网络DNN中的深度发现，若是增加提升准确性，AutoGrow会增长新层，不然增加中止并发现网络深度。残差和普通块用做增加子模块，用于研究带有和不带有快捷方式的DNN。咱们提出了通用的增加和中止策略，以尽可能减小人们在最佳深度搜索上花费的精力咱们的实验代表，经过将相同的策略应用于不一样的任务，AutoGrow能够始终有效地发现网络深度，并在MNIST，FashionMNIST，SVHN，CIFAR10，CIFAR100和ImageNet的各类数据集上实现最早进的精确度。与一般设计巨大搜索空间并消耗巨大资源的神经架构搜索NAS相比，AutoGrow位于研究范围的另外一端，专一于有效深度发现，并将增加和搜索时间缩短到与训练类似的水平。单DNN。所以，AutoGrow可以扩展到大型数据集，如ImageNet。咱们的研究还代表，先前的网络态射对于增长层深度是次优的。最后，咱们证实AutoGrow能够培训更深层次的普通网络，即便使用批量标准化也存在问题。

Decompose-and-Integrate Learning for Multi-class Segmentation in Medical Images
Authors Yizhe Zhang, Michael T. C. Ying, Danny Z. Chen
由医学专家注释的医学图像的分割图包含丰富的空间信息。在本文中，咱们建议分解注释图，以学习医学图像中的分割问题的解缠结和更丰富的特征变换。咱们的新计划包括两个主要阶段的分解和整合。经过注释图分解进行分解，将原始分割问题分解为多个分割子问题，这些新的分割子问题经过训练多个深度学习模块来建模，每一个模块都有本身的一组特征变换。集成过程总结了前一阶段中模块的解决方案，而后为原始分段问题造成最终解决方案。提出了多种注释图分解方法，并开发了一种新的端到端可训练的K到1深度网络框架，用于实现咱们提出的分解和集成学习方案。在实验中，咱们使用现有技术的彻底卷积网络（例如3D中的DenseVoxNet和2D中的CUMedNet）来证实咱们的分解和整合分割，改善了多个3D和2D数据集上的分割性能。消融研究证明了咱们提出的医学图像学习方案的有效性。

Visually Grounded Neural Syntax Acquisition
Authors Haoyue Shi, Jiayuan Mao, Kevin Gimpel, Karen Livescu
咱们提出了视觉接地神经语法学习者VG NSL，这是一种在没有任何明确监督的状况下学习句法表征和结构的方法。该模型经过查看天然图像和阅读成对的字幕来学习。 VG NSL生成文本的选区解析树，递归地组成成分的表示，并将它们与图像匹配。咱们经过与图像的匹配分数来定义成分的具体性，并使用它来指导文本的解析。在MSCOCO数据集上的实验代表，就针对金解析树的F1分数而言，VG NSL优于不使用视觉基础的各类无监督解析方法。咱们发现VGNSL在随机初始化的选择和训练数据量方面更加稳定。咱们还发现VG NSL得到的具体性与语言学家定义的相似度量相关。最后，咱们还在Multi30K数据集中将VG NSL应用于多种语言，代表咱们的模型始终优于先前的无监督方法。

V-NAS: Neural Architecture Search for Volumetric Medical Image Segmentation
Authors Zhuotun Zhu, Chenxi Liu, Dong Yang, Alan Yuille, Daguang Xu
深度学习算法，特别是2D和3D彻底卷积神经网络FCN，已迅速成为体积医学图像分割的主流方法。然而，2D卷积不能充分利用沿第三轴的丰富空间信息，而3D卷积遭受要求苛刻的计算和高GPU内存消耗。在本文中，咱们建议自动搜索网络架构定制到体积医学图像分割问题。具体地说，咱们将结构学习公式化为可微分神经结构搜索，让网络自己在每层选择2D，3D或Pseudo 3D P3D卷积。咱们在3个公共数据集上评估咱们的方法，即NIH Pancreas数据集，来自Medical Segmentation Decathlon MSD Challenge的Lung and Pancreas数据集。咱们的方法，名为V NAS，在正常器官NIH胰腺和异常器官MSD肺肿瘤和MSD胰腺肿瘤的分割任务方面始终优于其余现有技术，这显示了所选结构的力量。此外，一个数据集上的搜索结构能够很好地推广到其余数据集，这证实了咱们提出的方法的鲁棒性和实际应用。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

【今日CV 计算机视觉论文速览 第128期】Mon, 10 Jun 2019

Interesting:

Daily Computer Vision Papers

【今日CV 计算机视觉论文速览第128期】Mon, 10 Jun 2019