今日CS.CV 计算机视觉论文速览
Tue, 18 Jun 2019
Totally 64 papers
👉上期速览✈更多精彩请移步主页html
📚****MMDetection, 一个目标检测模型工具箱和代码库,包含了常见的目标检测模型,标准模块和高效的实现。能够为研究人员提供高效灵活的目标检测实现工具。还包含了多GPU的分布式训练实现。(from 港中文、浙大、悉尼大学、商汤、微软亚研、北理理工、南大、华中科技、北大、港科技、中山大学、西北大学(us)、南洋理工)
工具箱支持的模型库与其余代码库比较:
通用的架构和训练流程:
code:https://github.com/open-mmlab/mmdetection
git
📚****Image-based 3D Object Reconstruction基于图像的三维重建深度学习实现综述, 从输入数据类型、输出表示、网络架构和训练过程对整个基于图像的三维重建进行了深刻的分析,并对100多个模型进行了分析和比较。是一篇较好的单图像三维重建综述文章。(from 天津大学)
github
📚基于对抗网络的水下图像加强算法, 首先提出了U45水下数据集,同时设计了针对图像和特征的融合特征的损失函数。实现的模型参数较少,速度较快效果较好。(from 南京信息工程大学)
u45 dataset:https://github.com/IPNUISTlegal/underwater-test-dataset-U45-
rar:https://github.com/IPNUISTlegal/underwater-test-dataset-U45-/blob/master/U45.rar
web
MMDetection: Open MMLab Detection Toolbox and Benchmark Authors Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jiarui Xu, Zheng Zhang, Dazhi Cheng, Chenchen Zhu, Tianheng Cheng, Qijie Zhao, Buyu Li, Xin Lu, Rui Zhu, Yue Wu, Jifeng Dai, Jingdong Wang, Jianping Shi, Wanli Ouyang, Chen Change Loy, Dahua Lin 咱们提供MMDetection,这是一个对象检测工具箱,包含丰富的对象检测和实例分割方法以及相关的组件和模块。该工具箱从MMDet团队的代码库开始,他们赢得了COCO Challenge 2018的检测轨道。它逐渐演变成一个统一的平台,涵盖了许多流行的检测方法和现代模块。它不只包括训练和推理代码,还为200多种网络模型提供权重。咱们相信这个工具箱是迄今为止最完整的检测工具箱。在本文中,咱们将介绍此工具箱的各类功能。此外,咱们还对不一样的方法,组件及其超参数进行了基准研究。咱们但愿工具箱和基准能够经过提供灵活的工具包来从新实现现有方法并开发本身的新探测器,从而为不断增加的研究社区服务。代码和型号可在如下网站得到 |
Machine-Assisted Map Editing Authors Favyen Bastani, Songtao He, Sofiane Abbar, Mohammad Alizadeh, Hari Balakrishnan, Sanjay Chawla, Sam Madden 今天制定道路网络是劳动密集型的。所以,许多国家的路线图在城市中心之外的覆盖率很低。已经提出了从航空图像和GPS轨迹自动推断道路网络图的系统,以改善道路地图的覆盖范围。可是,因为错误率很高,映射社区还没有采用这些系统。咱们提出机器辅助地图编辑,其中自动地图推理被集成到现有的,以人为中心的地图编辑工做流程中。为了实现这一点,咱们构建了机器辅助iD MAiD,咱们使用机器辅助功能扩展了基于Web的OpenStreetMap编辑器iD。咱们用一种新颖的方法来补充MAiD,该方法用于从航拍图像推断道路拓扑,其结合了先前分割方法的速度和先前迭代图形构造方法的准确性。咱们设计MAiD来解决在现有地图覆盖率较差的地区增长主要干道,以及在已经绘制主要道路的地区逐步改善覆盖范围。咱们进行了两项用户研究,发现当参与者得到固定时间绘制道路时,他们可使用MAiD增长多达3.5倍的道路。 |
Particle Swarm Optimization for Great Enhancement in Semi-Supervised Retinal Vessel Segmentation with Generative Adversarial Networks Authors Qiang Huo 基于深度学习的视网膜血管分割须要大量手动标记数据。这是耗时,费力和专业的。更糟糕的是,获取丰富的眼底图像很困难。因为存在异常,血管的大小和形状不一样,不均匀的照射和解剖学变化,这些问题更加严重。在本文中,咱们提出了一个数据有效的半监督学习框架,它有效地结合了现有的深度学习网络与GAN和自我培训的想法。针对半监督学习超参数调整的难度,提出了一种基于粒子群优化算法的超参数选择方法。据咱们所知,这项工做是第一次将智能优化与半监督学习相结合以实现最佳性能的演示。在对抗性学习,自我训练和PSO的协做下,选择最佳超参数,咱们得到的视网膜血管分割的性能接近或甚至优于表明性的监督学习,仅使用来自DRIVE的标记数据的十分之一。 |
Boosting Supervision with Self-Supervision for Few-shot Learning Authors Jong Chyi Su, Subhransu Maji, Bharath Hariharan 咱们提出了一种技术,经过引入自监督任务做为辅助损失函数来提升在小标记数据集上学习的深度表示的可转移性。虽然最近的自我监督学习方法已经显示了对大型未标记数据集进行培训的好处,但咱们发现即便在小型数据集上以及与强有力的监督相结合时,也能够改进泛化。具备自我监督损失的学习表示在几个镜头学习基准上下降了现有技术元学习者的相对错误率,而且在从头开始训练时下降了标准分类任务的现成深度网络。咱们发现自我监督的好处随着任务的难度而增长。咱们的方法利用数据集中的图像来构建自我监督的损失,所以是学习可转移表示的有效方式,而不依赖于任何外部训练数据。 |
Exemplar Guided Face Image Super-Resolution without Facial Landmarks Authors Berk Dogan, Shuhang Gu, Radu Timofte 现在,因为无处不在的视觉媒体,存在大量已经可用的高分辨率HR脸部图像。所以,为了超分辨人的给定的很是低分辨率的LR面部图像,极可能找到可用于指导该过程的同一人的另外一个HR面部图像。在本文中,咱们提出了一种基于卷积神经网络CNN的解决方案,即GWAInet,它将超分辨率SR应用于由同一我的的另外一个无约束HR面部图像引导的面部图像上,可能在年龄,表情,姿式或尺寸。 GWAInet以对抗性生成方式进行训练,以产生所需的高质量感知图像结果。 HR引导图像的利用经过使用将其内容与输入图像对齐的整经器子网络以及对来自弯曲引导图像和输入图像的提取特征的特征融合链的使用来实现。在训练中,身份丢失进一步有助于经过最小化SR和HR地面真实图像的嵌入向量之间的距离来保持身份相关特征。与面部超分辨率的现有技术水平相反,咱们的方法不须要用于其训练的面部标志点,这有助于其稳健性而且容许其以均匀的方式为周围的面部区域产生精细的细节。咱们的方法GWAInet以升序因子8x产生照片逼真图像,而且在数量和感知质量方面优于现有技术水平。 |
Towards Real-Time Action Recognition on Mobile Devices Using Deep Models Authors Chen Lin Zhang, Xin Xin Liu, Jianxin Wu 动做识别是计算机视觉中的一项重要任务,而且开发了许多方法以将其推向极限。然而,当前的动做识别模型具备巨大的计算成本,其不能部署到移动设备上的现实世界任务中。在本文中,咱们首先说明实时动做识别的设置,这与当前动做识别推理设置不一样。在新的推理设置下,咱们根据经验研究了Kinetics数据集上的最新动做识别模型。咱们的结果代表,设计高效的实时动做识别模型不一样于设计高效的ImageNet模型,尤为是在权重初始化中。咱们展现了ImageNet上通过预先训练的权重能够提升实时动做识别设置下的准确性。最后,咱们使用手势识别任务做为案例研究来评估咱们在移动电话上的实际应用中的紧凑实时动做识别模型。结果代表,咱们的动做识别模型速度提升了6倍,而且具备与现有技术类似的精度,能够大体知足移动设备的实时要求。据咱们所知,这是第一篇在移动设备上部署当前深度学习动做识别模型的论文。 |
Semi-Supervised Semantic Mapping through Label Propagation with Semantic Texture Meshes Authors Radu Alexandru Rosu, Jan Quenzel, Sven Behnke 场景理解是机器人在非结构化环境中行动的重要能力。虽然大多数SLAM方法提供场景的几何表示,但语义地图对于与周围环境的更复杂的交互是必要的。当前的方法将语义映射视为几何的一部分,这限制了可伸缩性和准确性。咱们建议将语义地图表示为几何网格和以独立分辨率耦合的语义纹理。关键的想法是,在许多环境中,几何形状能够大大简化而不会失去保真度,而语义信息能够以更高的分辨率存储,而与网格无关。咱们从深度传感器构造网格以表示场景几何,并将信息融合到来自场景的各个RGB视图的分段的语义纹理中。使语义在全局网格中持久化使咱们可以强制执行各个视图预测的时间和空间一致性。为此,咱们提出了一种经过迭代地从新训练语义分割与存储在地图内的信息并使用从新训练的分割来从新融合语义来在各个分割之间创建共识的有效方法。咱们经过重建来自NYUv2的场景的语义地图和跨越大型建筑物的场景来展现咱们的方法的准确性和可扩展性。 |
Trimmed Action Recognition, Dense-Captioning Events in Videos, and Spatio-temporal Action Localization with Focus on ActivityNet Challenge 2019 Authors Zhaofan Qiu, Dong Li, Yehao Li, Qi Cai, Yingwei Pan, Ting Yao 本笔记本文件介绍了咱们为ActivityNet Challenge 2019修剪动做识别,视频中的密集字幕事件和时空动做本地化中的如下三个任务而设计的系统的概述和比较分析。 |
Hallucinated Adversarial Learning for Robust Visual Tracking Authors Qiangqiang Wu, Zhihui Chen, Lin Cheng, Yan Yan, Bo Li, Hanzi Wang 人类能够从一个单一的范例中轻松地学习新的概念,这主要是由于他们具备非凡的想象力或幻觉可以在不一样环境中看不见的样本。结合这种对被跟踪实例的各类新样本产生幻觉的能力能够帮助跟踪器减轻低数据跟踪状态中的过分拟合问题。为实现这一目标,咱们提出了一种有效的对抗方法,表示为对抗性幻觉AH,用于稳健的视觉跟踪。所提出的AH被设计为首先在一对相同的身份实例之间学习可转移的非线性变形,而后将这些变形应用于看不见的跟踪实例,以便生成不一样的正训练样本。经过经过检测框架将AH结合到在线跟踪中,咱们提出了幻觉对抗跟踪器HAT,其以端对端方式联合优化AH与在线分类器,例如MDNet。此外,提出了一种新颖的选择性变形转移SDT方法,以更好地选择更适合转移的变形。对3个流行基准测试的普遍实验代表,咱们的HAT实现了最早进的性能。 |
Multi-Scale Convolutions for Learning Context Aware Feature Representations Authors Nikolai Ufer, Kam To Lui, Katja Schwarz, Paul Warkentin, Bj rn Ommer 寻找语义对应是一个具备挑战性的问题。随着CNN的突破,更强的功能可用于分类等任务,但不是专门针对语义匹配的要求。在下文中,咱们提出了一种弱监督的度量学习方法,经过编码比之前的方法更多的上下文来生成更强的特征。首先,咱们使用几何通知的对应挖掘方法生成更合适的训练数据,该方法不太容易进行虚假匹配,而且仅须要图像类别标签做为监督。其次,咱们引入了一个新的卷积层,它是不一样步幅卷积的学习混合,容许网络隐式编码更多上下文,同时保持匹配精度。特征方面的强几何编码使咱们可以学习语义流网络,该网络比基于参数变换的模型生成更天然的变形,而且可以同时联合预测前景区域。咱们的语义流网络在几个语义匹配基准测试中优于当前的技术水平,而且学习的特征在简单的最近邻居匹配方面表现出惊人的性能。 |
EnlightenGAN: Deep Light Enhancement without Paired Supervision Authors Yifan Jiang, Xinyu Gong, Ding Liu, Yu Cheng, Chen Fang, Xiaohui Shen, Jianchao Yang, Pan Zhou, Zhangyang Wang 基于深度学习的方法在图像恢复和加强方面取得了显着的成功,可是当缺少配对的训练数据时它们仍然具备竞争力。做为一个这样的例子,本文探讨了低光图像加强问题,在实践中它极具挑战性同时拍摄同一视觉场景的低光和普通光照。咱们提出了一种高效的无监督生成对抗网络,称为EnlightenGAN,能够在没有低正常光图像对的状况下进行训练,但证实能够很好地归纳各类真实世界的测试图像。咱们建议使用从输入自己提取的信息来规范非配对训练,并对低光图像加强问题进行基准测试,包括全局局部鉴别器结构,自我正则化,而不是使用地面实况数据来监督学习。感知损失融合和注意机制。经过大量实验,咱们提出的方法在视觉质量和主观用户研究方面优于各类指标下的近期方法。因为非配对培训带来了极大的灵活性,EnlightenGAN能够很容易地适应各类领域的现实世界图像。该代码可在网址获取 |
Noisy-As-Clean: Learning Unsupervised Denoising from the Corrupted Image Authors Jun Xu, Yuan Huang, Li Liu, Fan Zhu, Xingsong Hou, Ling Shao 在过去几年中,监督网络在图像去噪方面取得了很好的成绩。这些方法从大量嘈杂和干净的图像中学习图像先验和合成噪声统计。最近,仅使用外部噪声图像进行训练,提出了几种无监督的去噪网络。然而,从外部数据学习的网络固有地受到域间隙困境的影响,即,训练数据和损坏的测试图像之间的图像先验和噪声统计很是不一样。在处理真实照片中依赖于信号的真实噪声时,这种困境变得更加清晰。在这项工做中,咱们提供了一个统计上有用的结论,能够仅使用损坏的图像来学习无监督网络,近似于使用成对的噪声和干净图像学习的监督网络的最佳参数。这是经过提出一种嘈杂的清洁策略来实现的,该策略将损坏的图像做为清洁目标,而且基于损坏的图像做为输入的模拟噪声图像。大量实验代表,采用咱们的Noisy As Clean策略学习的无监督去噪网络在去除几种典型的合成噪声和逼真噪声方面使人惊讶地优于之前的监督网络。该代码将公开发布。 |
Multi-task Learning For Detecting and Segmenting Manipulated Facial Images and Videos Authors Huy H. Nguyen, Fuming Fang, Junichi Yamagishi, Isao Echizen 检测被操纵的图像和视频是数字媒体取证中的一个重要主题。大多数检测方法使用二进制分类来肯定查询被操纵的几率。另外一个重要的主题是定位操纵区域,即执行分割,其主要由三种经常使用的攻击移除,复制移动和拼接建立。咱们设计了一个卷积神经网络,它使用多任务学习方法同时检测被操纵的图像和视频,并为每一个查询定位操纵区域。经过执行一项任务得到的信息与另外一项任务共享,从而提升两项任务的性能。半监督学习方法用于改善网络的可生成性。该网络包括编码器和Y形解码器。编码特征的激活用于二进制分类。解码器的一个分支的输出用于分割操纵区域,而另外一个分支的输出用于重建输入,这有助于提升总体性能。使用FaceForensics和FaceForensics数据库的实验证实了网络对面部重演攻击和面部交换攻击的有效性,以及它处理先前看到的攻击的不匹配条件的能力。此外,仅使用少许数据进行微调就可使网络处理看不见的攻击。 |
Hierarchical Back Projection Network for Image Super-Resolution Authors Zhi Song Liu, Li Wen Wang, Chu Tak Li, Wan Chi Siu 基于深度学习的单图像超分辨率方法使用大量的训练数据集,而且最近在数量和质量上都取得了很好的质量进展。大多数深度网络都专一于经过残差学习从低分辨率输入到高分辨率输出的非线性映射,而无需探索特征抽象和分析。咱们提出了一种分层反向投影网络HBPN,它将多个HourGlass HG模块级联到全部尺度的自下而上和自上而下的过程特征,以捕获各类空间相关性,而后整合最佳的重建表示。咱们在咱们提出的网络中采用反投影块来提供偏差相关的上下采样过程,以取代简单的反卷积和合并过程,以便更好地进行估计。基于Softmax的新加权重建WR过程用于组合HG模块的输出,以进一步提升超分辨率。包括真实图像超分辨率挑战的验证数据集NTIRE2019在内的各类数据集的实验结果代表,咱们提出的方法能够实现并改善不一样比例因子的现有技术方法的性能。 |
NLH: A Blind Pixel-level Non-local Method for Real-world Image Denoising Authors Yingkun Hou, Jun Xu, Mingxia Liu, Guanghai Liu, Li Liu, Fan Zhu, Ling Shao 非局部自类似性NSS是用于图像去噪的天然图像的强大先验。大多数现有的去噪方法使用相似的补丁,这是补丁级NSS先验。在本文中,咱们经过引入像素级NSS先前向前迈出一步,即在非局部区域上搜索类似像素。这是由于发现密切类似的像素比天然图像中的相似斑块更可行,这能够用于加强图像去噪性能。利用引入的像素级NSS先验,咱们提出了一种精确的噪声水平估计方法,而后开发了基于提高Haar变换和Wiener滤波技术的盲图像去噪方法。对基准数据集的实验代表,所提出的方法在现实世界图像去噪方面比现有技术方法得到了更好的性能。代码将被释放。 |
Spatio-Temporal Fusion Networks for Action Recognition Authors Sangwoo Cho, Hassan Foroosh 基于视频的CNN工做集中于融合外观和运动网络的有效方式,但它们一般缺少利用视频帧上的时间信息。在这项工做中,咱们提出了一个新颖的时空融合网络STFN,它集成了整个视频的外观和运动信息的时间动态。而后聚合捕获的时间动态信息以得到更好的视频级表示并经过端到端训练学习。时空融合网络由两组残余初始块组成,它们提取时间动态和外观和运动特征的融合链接。 STFN的优点在于它能够捕获互补数据的本地和全球时间动态,以学习视频普遍的信息,而且它适用于任何视频分类网络以提升性能。咱们探索了STFN的各类设计选择,并验证了消融研究如何改变网络性能。咱们在两个具备挑战性的人类活动数据集UCF101和HMDB51上进行实验,并经过最佳网络实现最早进的结果。 |
A Fusion Adversarial Network for Underwater Image Enhancement Authors Jingjing Li, Hanyu Li 水下图像加强算法在水下视觉任务中引发了普遍关注。然而,这些算法主要在不一样的数据集和不一样的度量上进行评估。在本文中,咱们创建了一个有效的公共水下测试数据集U45,包括水降低水效果的低色度,低对比度和雾霾效应,并提出了一个融合对抗网络来加强水下图像。同时,设计了包括Lgt损失和Lfe损失在内的对抗性损失,分别关注地面实况的图像特征和融合加强方法加强的图像特征。所提出的网络有效地校订了色偏,而且用更少的参数拥有更快的测试时间。 U45数据集的实验结果代表,所提出的方法在定性和定量评估方面实现了比其余现有技术方法更好或至关的性能。此外,消融研究证实了每一个组件的贡献,而且应用测试进一步显示了加强图像的有效性。 |
A Temporal Sequence Learning for Action Recognition and Prediction Authors Sangwoo Cho, Hassan Foroosh 在这项工做脚注中这项工做部分由国家科学基金会资助IIS 1212948支持。咱们提出了一种方法来表示具备一系列单词的视频,并学习这些单词的时间顺序做为预测和预测的关键信息。认识到人类行为。咱们利用句子分类中使用的天然语言处理NLP文献中的核心概念来解决动做预测和动做识别的问题。使用Bag of Visual Words BoW编码方法将每一个帧转换为表示为向量的单词。而后将这些单词组合成一个句子来表示视频,做为一个句子。使用简单但有效的时间卷积神经网络CNN来学习不一样动做中的单词序列,其捕获视频句子中的信息的时间顺序。咱们证实了所提出方法的一个关键特征是其低延迟,即其用部分序列句准确预测动做的能力。对两个数据集(textit UCF101和textit HMDB51)的实验代表,该方法在视频帧的一半内平均达到95的精度。结果还代表,除了动做预测以外,咱们的方法在动做识别中即在句子完成时实现了兼容的现有技术性能。 |
Three-Dimensional Fourier Scattering Transform and Classification of Hyperspectral Images Authors Ilya Kavalerov, Weilin Li, Wojciech Czaja, Rama Chellappa 最近的研究已经产生了许多新技术,可以捕获高光谱图像分析的高光谱数据的特殊属性,高光谱图像分类是最活跃的任务之一。时频方法将光谱分解为多光谱带,而诸如神经网络的分层方法结合了尺度上的空间信息而且模拟光谱特征之间的多个依赖性水平。傅立叶散射变换是时间频率表示与神经网络架构的融合,最近已经证实这二者在频谱空间分类方面提供了显着的进步。咱们在四个标准高光谱数据集上测试所提出的三维傅里叶散射方法,而且呈现的结果代表,与其余现有技术的光谱空间分类方法相比,傅立叶散射变换在表示光谱数据方面很是有效。 |
Panoptic Image Annotation with a Collaborative Assistant Authors Jasper R. R. Uijlings, Mykhaylo Andriluka, Vittorio Ferrari 本文旨在减小为全景分割任务注释图像的时间,这须要为全部对象实例和填充区域添加分段掩码和类标签。咱们将咱们的方法制定为注释器和自动化助理代理之间的协做过程,后者轮流使用预约义的段池共同注释图像。注释器执行的动做充当强大的上下文信号。助手经过预测注释器的将来动做来智能地响应该信号,而后注释器本身执行。这减小了注释器所需的工做量。在COCO全景数据集Caesar18cvpr,Kirillov18arxiv,Lin14eccv上的实验代表,咱们的方法比最近的Andriluka18acmmm机器辅助界面快17 27。与传统的手动多边形绘图Russel08ijcv相比,这至关于加速了4倍。 |
Back-Projection based Fidelity Term for Ill-Posed Linear Inverse Problems Authors Tom Tirer, Raja Giryes 在许多图像处理应用中出现了病态的线性逆问题,例如去模糊,超分辨率和压缩感知。许多恢复策略涉及最小化成本函数,其由保真度和先前项组成,由正则化参数平衡。虽然大量研究都集中在不一样的先验模型上,但保真度项几乎老是被选择为最小二乘LS目标,这鼓励将线性变换的优化变量拟合到观察中。在这项工做中,咱们研究了一个不一样的保真度项,最近提出的迭代去噪和后向投影IDBP框架已经隐含地使用了这个术语。该术语鼓励优化变量的投影到线性算子的行空间和应用于观察的线性算子反投影的伪逆之间的一致。咱们分析地检验了Tikhonov正则化的两个保真度项之间的差别,并肯定了新术语优于标准LS术语的状况。此外,咱们在经验上证实了复杂凸和非凸先验的两个诱导成本函数的行为,例如总变差,BM3D和深度生成模型,与所得到的理论分析相关。 |
Floors are Flat: Leveraging Semantics for Real-Time Surface Normal Prediction Authors Steven Hickson, Karthik Raveendran, Alireza Fathi, Kevin Murphy, Irfan Essa 咱们提出了4个有助于显着改善深度学习模型性能的看法,这些模型能够从单个RGB图像中预测表面法线和语义标签。这些看法是训练集中的地面真实表面法线的1个去噪,以确保与实际和合成数据的混合上同时训练的语义标签2的一致性,而不是在实际3上预处理合成和微调,使用a来共同预测法线和语义。共享模型,但只有具备有效训练标签的像素的反向传播错误4使模型变细并使用灰度而不是颜色输入。尽管这些步骤很是简单,但咱们使用在标准手机上以12 fps运行的模型,在几个数据集上展现了持续改进的结果。 |
On the Self-Similarity of Natural Stochastic Textures Authors Samah Khawaled, Yehoshua Y. Zeevi 自类似性是分形图像的本质,所以,表征天然随机纹理。本文关注的是在包含随机纹理和结构主要肯定性信息的彻底纹理图像的状况下统计意义上的自类似性。咱们首先将纹理图像分解为与其纹理和结构相对应的两层,而且代表表示随机纹理的层的特征在于均匀分布的随机相位,而不是相干的结构化信息的相位。经过使用合适的假设检验框架来验证随机相的均匀分布。咱们继续提出两种评估自类似性的方法。第一种是基于互补信息的补丁计算,而第二种是衡量跨尺度存在的互信息。经过互信息量化自类似程度对于在医学成像,地质学,农业和计算机视觉算法中遇到的天然随机纹理的分析是相当重要的,所述天然随机纹理被设计用于在彻底纹理图像上应用。 |
Defending Against Adversarial Attacks Using Random Forests Authors Yifan Ding, Liqiang Wang, Huan Zhang, Jinfeng Yi, Deliang Fan, Boqing Gong 随着深度神经网络DNN变得愈来愈重要和流行,DNN的稳健性是互联网和物理世界安全的关键。不幸的是,最近的一些研究代表,难以与实际例子区别开来的对抗性例子很容易欺骗DNN并操纵他们的预测。在观察到对抗性示例主要是经过基于梯度的方法生成时,在本文中,咱们首先提出使用一种简单但很是有效的非可微混合模型,该模型结合了DNN和随机森林,而不是隐藏攻击者的渐变,以抵御攻击。咱们的实验代表,咱们的模型能够成功地彻底抵御白盒攻击,具备较低的可转移性,而且对三种表明性的黑盒攻击类型具备很强的抵抗力,同时,咱们的模型实现了与原始DNN相似的分类精度。最后,咱们调查并建议一个标准来定义在DNN中种植随机森林的位置。 |
Deep Recurrent Quantization for Generating Sequential Binary Codes Authors Jingkuan Song, Xiaosu Zhu, Lianli Gao, Xin Shun Xu, Wu Liu, Heng Tao Shen 量化因为其高精度和快速搜索速度,已成为ANN近似最近邻搜索中的有效技术。为了知足不一样应用的要求,在检索精度和速度之间老是存在折衷,这反映在可变代码长度上。可是,要将数据集编码为不一样的代码长度,现有方法须要训练多个模型,其中每一个模型只能生成特定的代码长度。这致使至关大的训练时间成本,而且在很大程度上下降了在实际应用中部署的量化方法的灵活性。为了解决这个问题,咱们提出了一种深度递归量化DRQ架构,它能够生成顺序二进制码。最后,当训练模型时,能够生成一系列二进制代码,而且能够经过调整循环迭代次数来容易地控制代码长度。共享码本和标量因子被设计为深度递归量化块中的可学习权重,而且能够以端到端方式训练整个框架。据咱们所知,这是第一种能够训练一次并生成顺序二进制代码的量化方法。基准数据集上的实验结果代表,与图像检索的现有技术相比,咱们的模型实现了可比较的甚至更好的性能。但它须要的参数和训练时间明显减小。咱们的代码在线发布 |
Beyond Product Quantization: Deep Progressive Quantization for Image Retrieval Authors Lianli Gao, Xiaosu Zhu, Jingkuan Song, Zhou Zhao, Heng Tao Shen 产品量化PQ长期以来一直是以很是低的内存时间成本生成指数级大型码本的主流。尽管PQ成功,但对于高维向量空间的分解仍然很棘手,而且当代码长度改变时,模型的从新训练一般是不可避免的。在这项工做中,咱们提出了深度渐进量化DPQ模型,做为PQ的替代,用于大规模图像检索。 DPQ顺序学习量化代码并逐步逼近原始特征空间。所以,咱们能够同时训练具备不一样码长的量化码。具体而言,咱们首先利用标签信息来指导视觉特征的学习,而后应用几个量化块逐步接近视觉特征。每一个量化块被设计为卷积神经网络的一层,而且整个框架能够以端到端的方式进行训练。基准数据集上的实验结果代表,咱们的模型明显优于图像检索的最新技术水平。咱们的模型针对不一样的代码长度进行一次训练,所以须要较少的计算时间额外的消融研究证实了咱们提出的模型的每一个组成部分的效果。咱们的代码发布于 |
On training deep networks for satellite image super-resolution Authors Michal Kawulok, Szymon Piechaczek, Krzysztof Hrynczenko, Pawel Benecki, Daniel Kostrzewa, Jakub Nalepa 近来,经过使用深度卷积神经网络,显着改善了用于加强图像空间分辨率的超分辨率重建SRR技术的能力。一般,这种网络是使用由原始图像组成的大型训练集以及它们的低分辨率对应物来学习的,这些训练集经过双三次下采样得到。在本文中,咱们研究了SRR性能如何受到得到这种低分辨率训练数据的方式的影响,这种数据还没有被研究过。咱们普遍的实验研究代表,训练数据特征对重建精度有很大影响,普遍采用的方法对于处理卫星图像并非最有效的。总的来讲,咱们认为开发更好的培训数据准备程序多是使SRR适合现实世界应用的关键。 |
Learning Part Generation and Assembly for Structure-aware Shape Synthesis Authors Jun Li, Chengjie Niu, Kai Xu 学习用于3D形状合成的深度生成模型在很大程度上受到难以生成具备正确拓扑和合理几何形状的合理形状的限制。实际上,即便在相同的形状类别中,考虑到3D物体的显着拓扑变化,学习彷佛合理的3D形状的分布对于大多数现有的,结构遗忘形状表示来讲彷佛是艰巨的任务。基于三维形状分析的共识,形状结构被定义为零件组成和零件之间的相互关系,咱们建议使用深度生成网络(部分意识和关系意识)对3D形状变化进行建模,命名为PARANet。网络由每一个部分的VAE GAN阵列组成,生成构成完整形状的语义部分,而后是部件组装模块,其估计每一个部件的变换以将它们关联并组装成合理的结构。经过将零件组成和零件关系的生成分红单独的网络,大大减小了对三维形状的结构变化进行建模的难度。咱们经过大量实验证实,PARANet生成具备合理,多样和详细结构的3D形状,并展现了两种原型应用的语义形状分割和形状集演化。 |
STAR: A Structure and Texture Aware Retinex Model Authors Jun Xu, Mengyang Yu, Li Liu, Fan Zhu, Dongwei Ren, Yingkun Hou, Haoqian Wang, Ling Shao Retinex理论主要是经过分析局部图像导数将图像分解为光照和反射份量。在该理论中,较大的导数归因于分段恒定反射率的变化,而较小的导数出如今平滑照明中。在本文中,咱们建议利用带有观测图像的指数伽马的指数导数,当用γ1放大时产生结构图,当用γ1收缩时产生纹理图。为此,咱们设计了局部导数的指数滤波器,并展现了它们提取精确结构和纹理图的能力,受到局部导数上指数γ选择的影响。提取的结构和纹理图用于调整Retinex分解中的照明和反射份量。还提出了一种新颖的结构和纹理感知Retinex STAR模型,用于单个图像的照射和反射分解。咱们以交替最小化的方式解决STAR模型。每一个子问题都转换为带有闭合形式解的矢量化最小二乘回归。综合实验代表,与先前的竞争方法相比,所提出的STAR模型在照明和反射率估计,低光图像加强和颜色校订方面产生更好的定量和定性性能。该代码将公开发布。 |
Mixture separability loss in a deep convolutional network for image classification Authors Trung Dung Do, Cheng Bin Jin, Hakil Kim, Van Huan Nguyen 在机器学习中,成本函数相当重要,由于它衡量系统的好坏。在图像分类中,众所周知的网络仅考虑修改网络结构并在网络末端应用交叉熵损失。然而,仅使用交叉熵损失致使网络在全部训练图像被正确分类时中止更新权重。这是早期饱和的问题。本文提出了一种新的成本函数,称为混合分离性损失MSL,即便在大多数训练图像被准确预测时,它也会更新网络的权重。 MSL由班级和班级损失组成。在类丢失之间最大化类间图像之间的差别,而在类丢失内最小化类内图像之间的类似性。咱们设计了所提出的损失函数以附加到网络中的不一样卷积层,以便利用中间特征映射。实验代表,具备MSL的网络加深了学习过程,并经过一些公共数据集得到了有但愿的结果,例如Street View House Number SVHN,加拿大高级研究CIFAR研究所和咱们本身收集的Inha计算机视觉实验室ICVL性别数据集。 |
Image Captioning with Integrated Bottom-Up and Multi-level Residual Top-Down Attention for Game Scene Understanding Authors Jian Zheng, Sudha Krishnamurthy, Ruxin Chen, Min Hung Chen, Zhenhao Ge, Xiaohua Li 近年来,图像字幕引发了至关多的关注。然而,对于具备一些独特特征和要求的游戏图像字幕的工做不多。在这项工做中,咱们提出了一种新颖的游戏图像字幕模型,它将自下而上的注意力与新的多级残留自上而下的注意机制相结合。首先,将较低级别的残留自上而下注意网络添加到基于快速R CNN的自下而上注意网络,以解决后者在提取区域特征时可能丢失重要空间信息的问题。其次,在字幕生成网络中实现上层残留自上而下注意网络,以更好地融合所提取的区域特征以用于后续字幕预测。咱们建立了两个游戏数据集来评估所提出的模型。大量实验代表,咱们提出的模型优于现有的基线模型。 |
Uncovering Why Deep Neural Networks Lack Robustness: Representation Metrics that Link to Adversarial Attacks Authors Danilo Vasconcellos Vargas, Shashank Kotyan, Moe Matsuki 神经网络已被证实易受对抗样本的影响。略微扰动的输入图像可以改变准确模型的分类,代表所学习的表示不如之前好 |
REMAP: Multi-layer entropy-guided pooling of dense CNN features for image retrieval Authors Syed Sameed Husain, Miroslaw Bober 本文讨论了大规模图像检索的问题,着重于提升其准确性和鲁棒性。咱们将搜索的加强稳健性定位到诸如照明变化,对象外观和比例,部分遮挡以及杂乱背景等因素,这些因素在具备显着可变性的很是大的数据集上执行搜索时尤其重要。咱们提出了一种新的基于CNN的全局描述符,称为REMAP,它学习并聚合来自多个CNN层的深层特征的层次结构,而且以三元组丢失进行端到端训练。 REMAP明确地学习了在视觉抽象的各类语义层面上相互支持和互补的判别特征。在聚合成单个图像级别描述符以前,这些密集的局部特征在多层重叠区域内的每一层在空间上最大地聚集。为了识别用于检索的语义上有用的区域和层,咱们建议使用KL散度来测量每一个区域和层的信息增益。咱们的系统在培训期间有效地学习各类区域和层的有用性并相应地加权。咱们证实这种相对熵引导的聚合优于由SGD控制的经典的基于CNN的聚合。整个框架以端到端的方式进行培训,优于最新的最新技术成果。在图像检索数据集Holidays,Oxford和MPEG上,REMAP描述符分别达到95.5,91.5和80.1的mAP,优于迄今发布的任何结果。 REMAP还成为了Kaggle Google Landmark Retrieval Challenge的获奖提交的核心。 |
DeepMOT: A Differentiable Framework for Training Multiple Object Trackers Authors Yihong Xu, Yutong Ban, Xavier Alameda Pineda, Radu Horaud 多目标跟踪精度和精度MOTA和MOTP是评估多个目标跟踪器质量的两个标准和普遍使用的指标。它们专门用于编码跟踪多个对象的挑战和困难。基于MOTA和MOTP直接优化跟踪器是很困难的,由于这两个指标都很是依赖匈牙利算法,这是不可微分的。咱们为MOTA和MOTP提出了一个可微分的代理,从而容许经过直接优化标准MOT度量的代理来训练深度多目标跟踪器。所提出的近似是基于双向递归网络,其将对象输入到假设距离矩阵并将最优假设输出到对象关联,从而模拟匈牙利算法。在可微分模块以后,估计的关联用于计算MOTA和MOTP。实验研究证实了这种可区分框架对两个最近的深度跟踪器相对于MOT17数据集的好处。此外,该代码可从公开得到 |
IMP: Instance Mask Projection for High Accuracy Semantic Segmentation of Things Authors Cheng Yang Fu, Tamara L. Berg, Alexander C. Berg 在这项工做中,咱们提出了一个名为Instance Mask Projection IMP的新算子,它将预测的实例分割做为语义分割的新特征。它还支持反向传播,所以能够端到端训练。咱们的实验显示了IMP对具备复杂分层,大变形和非凸对象的服装解析以及具备许多重叠实例和小对象的街道场景分割的有效性。在各类服装解析数据集VCP上,咱们展现了实例掩模投影能够经过最早进的Panoptic FPN分割方法在mIOU上提升3个点。在ModaNet服装解析数据集上,与现有的基线语义分割结果相比,咱们显示出绝对的20.4的显着改进。此外,实例蒙版投影算子在其余非服装数据集上运行良好,在城市景观的Thing类上提供了3个点的改进,这是一种自驱动数据集,基于最早进的方法。 |
EXTD: Extremely Tiny Face Detector via Iterative Filter Reuse Authors YoungJoon Yoo, Dongyoon Han, Sangdoo Yun 在本文中,咱们提出了一种新的多尺度人脸检测器,它具备极少数参数EXTD,小于10万,而且具备与深重探测器至关的性能。虽然现有的多尺度人脸检测器从单个骨干网络中提取具备不一样尺度的特征图,可是咱们的方法经过迭代地重用共享的轻量级和浅层骨干网来生成特征图。骨干网络的这种迭代共享显着减小了参数的数量,而且还提供了从网络层的较高级捕获到较低级别的特征映射的抽象图像语义。所提出的想法被各类模型架构采用并经过大量实验进行评估。经过WIDER FACE数据集的实验,咱们证实了所提出的人脸探测器能够处理具备不一样尺度和条件的面,而且实现了与更大质量的面部探测器至关的性能,这些探测器在模型尺寸和浮点操做中重量只有几百倍和几十倍。 |
Single Image Super-resolution via Dense Blended Attention Generative Adversarial Network for Clinical Diagnosis Authors Kewen Liu, Yuan Ma, Hongxia Xiong, Zejun Yan, Zhijun Zhou, Chaoyang Liu, Panpan Fang, Xiaojun Li, Yalei Chen 在临床诊断中,医生可以在高分辨率HR医学图像的帮助下更清晰地看到生物组织和早期病变,这对提升诊断准确性相当重要。为了解决医学图像因为缺少高频细节而致使严重模糊的问题,本文经过密集神经网络和混合注意机制开发了一种新的图像超分辨率SR算法SR DBAN。具体地,提出了一种新的混合注意块并将其引入到密集神经网络DenseNet中,使得神经网络能够自适应地将更多的注意力集中在具备足够高频细节的区域和信道上。在SR DBAN的框架中,原始DenseNet中的批量标准化层被移除以免高频纹理细节的丢失,最终的HR图像经过网络的最末端的解卷积得到。此外,受生成对抗网络使人印象深入的表现的启发,本文经过密集的混合注意生成对抗网络开发了一种名为SR DBAGAN的新型图像SR算法。 SR DBAGAN包括一个生成器和一个鉴别器,生成器使用咱们提出的SR DBAN生成HR图像并试图欺骗鉴别器,同时基于Wasserstein GAN WGAN设计鉴别器来区分。咱们在模糊的前列腺MRI图像上部署了咱们的算法,实验结果代表,与主流插值相比,咱们提出的算法产生了至关大的清晰度和纹理细节,而且分别在峰值信噪比PSNR和结构类似性指数SSIM上有显着改善。基于深度学习的图像SR算法,充分证实了咱们提出的算法的有效性和优越性。 |
Mask Based Unsupervised Content Transfer Authors Ron Mokady, Sagie Benaim, Lior Wolf, Amit Bermano 咱们考虑以无人监督的方式在两个域之间进行翻译的问题,其中一个域包含一些与另外一个相比的附加信息。所提出的方法解开了这些域的共同和独立部分,而且经过生成掩模,将底层网络的注意力集中在指望的加强上,而不会浪费地重建整个目标。这经过普遍的定量和定性评估显示了现有技术的质量和各类内容翻译。此外,基于掩模的新颖公式和正则化足够精确以在弱监督分割领域中实现现有技术性能,其中仅给出类别标签。据咱们所知,这是第一个解决域解除问题和弱监督分割问题的报告。咱们的代码是公开的 |
Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era Authors Xian Feng Han, Hamid Laga, Mohammed Bennamoun 3D重建是一个长期存在的不良问题,数十年来一直由计算机视觉,计算机图形学和机器学习社区进行探索。自2015年以来,使用卷积神经网络CNN的基于图像的3D重建已引发愈来愈多的关注而且表现出使人印象深入的性能。鉴于这个快速发展的新时代,本文对该领域的最新发展进行了全面的调查。咱们专一于使用深度学习技术从单个或多个RGB图像估计通用对象的3D形状的工做。咱们根据形状表示,网络架构和他们使用的培训机制组织文献。虽然本调查旨在用于重建通用对象的方法,但咱们还回顾了一些最近的工做,这些工做主要关注特定的对象类,如人体形状和面部。咱们对一些重要论文的表现进行了分析和比较,总结了该领域的一些开放性问题,并讨论了将来研究的有但愿的方向。 |
MV-C3D: A Spatial Correlated Multi-View 3D Convolutional Neural Networks Authors Qi Xuan, Fuxian Li, Yi Liu, Yun Xiang 随着深度神经网络的发展,3D对象识别在计算机视觉领域愈来愈受欢迎。提出了许多基于多视图的方法来提升类别识别准确度。这些方法主要依赖于以整个圆周渲染的多视图图像。然而,在现实世界的应用中,3D对象主要是在较小范围内的部分视点中观察到的。所以,咱们提出了一种基于多视图的3D卷积神经网络,其仅将连续多视图图像的一部分做为输入而且仍然能够保持高精度。此外,咱们的模型将这些视图图像做为联合变量,以使用3D卷积和3D最大池化层更好地学习空间相关特征。 ModelNet10和ModelNet40数据集上的实验结果代表,咱们的MV C3D技术能够在多视图图像中实现出色的性能,这些图像是从具备较小范围的部分角度捕获的。 3D旋转真实图像数据集MIRO的结果进一步证实了MV C3D在现实世界场景中更具适应性。随着观看图像数量的增长,能够进一步提升分类精度。 |
Delving into 3D Action Anticipation from Streaming Videos Authors Hongsong Wang, Jiashi Feng 旨在经过部分观察来识别行动的行动预期因为普遍的应用而变得愈来愈流行。在本文中,咱们研究了流媒体视频中3D动做预期的问题,目的是了解解决此问题的最佳实践。咱们首先介绍几种互补的评估指标,并提出基于框架动做分类的基本模型。为了得到更好的性能,咱们接着研究了两个重要因素,即训练剪辑的长度和剪辑采样方法。咱们还经过从完整动做表示和类不可知动做标签两个方面合并辅助信息来探索多任务学习策略。咱们的综合实验揭示了3D动做预测的最佳实践,所以咱们提出了一种具备多任务丢失的新方法。所提出的方法明显优于最近的方法,而且在标准基准上展现了现有技术的性能。 |
VRED: A Position-Velocity Recurrent Encoder-Decoder for Human Motion Prediction Authors Hongsong Wang, Jiashi Feng 人体运动预测,旨在预测过去姿式的将来人体姿式,最近看到了更多的兴趣。许多最近的方法基于递归神经网络RNN,其使用指数图来模拟人类姿式。这些方法忽略了姿式速度以及不一样姿式的时间关系,并倾向于收敛到平均姿式或者不能产生天然的姿式。所以,咱们提出了一种用于人体运动预测的新型位置速度递归编码器解码器PVRED,其充分利用姿式速度和时间位置信息。提出了一种时间位置嵌入方法,并提出了位置速度RNN PVRNN。咱们还强调姿式的四元数参数化的好处,并设计了一个新的可训练的四元数变换QT层,它与训练期间的鲁棒损失函数相结合。对两我的体运动预测基准的实验代表,咱们的方法明显优于短时间预测和长期预测的现有技术方法。特别是,咱们提出的方法能够在4000毫秒内预测将来的人类喜欢和有意义的姿式。 |
Improving temporal action proposal generation by using high performance computing Authors Tian Wang, Shiye Lei, Youyou Jiang, Zihang Deng, Xin Su, Hichem Snoussi, Chang Choi 提出时间行动建议是计算机视觉中一个重要且具备挑战性的问题。该任务面临的最大挑战是生成具备精确时间边界的提案。为了解决这些困难,咱们改进了基于边界敏感网络的算法。今天流行的时间卷积网络忽略了单个视频特征向量的原始含义。咱们提出了一种新的时间卷积网络,称为Multipath Temporal ConvNet MTN,它由两部分组成,即Multipath DenseNet和SE ConvNet,能够从视频数据库中提取更多有用的信息。此外,为了响应大容量存储和大量视频,咱们放弃了传统的参数服务器并行体系结构,并将高性能计算引入到时间动做提议生成中。为实现这一目标,咱们经过按摩传递接口MPI实现环形并行架构,做用于咱们的方法。与参数服务器架构相比,咱们的并行架构在具备多个GPU的时间动做检测任务上具备更高的效率,这对于处理大规模视频数据库具备重要意义。咱们在ActivityNet 1.3和THUMOS14上进行实验,其中咱们的方法优于其余具备高召回率和高时间精度的现有技术时间动做检测方法。 |
RECAL: Reuse of Established CNN classifer Apropos unsupervised Learning paradigm Authors Jayasree Saha, Jayanta Mukhopadhyay 最近,深度网络框架聚类引发了计算机视觉界的一些研究人员的关注。深度框架因其对大规模和高维数据的效率和可扩展性而受到普遍关注。在本文中,咱们将监督的CNN分类器架构转换为无监督的聚类模型,称为RECAL,它共同窗习判别嵌入子空间和聚类标签。 RECAL由卷积的特征提取层组成,接着是彻底链接的无监督分类器层。在分类器层之上堆叠的多项逻辑回归函数softmax。咱们使用随机梯度降低SGD优化器训练此网络。然而,咱们模型的成功实施围绕着损失函数的设计。咱们的损失函数使用启发式算法,假设类分布没有严重误差,真正的分区须要较低的熵。这是偏态分布和低熵的状况之间的权衡。为了解决这个问题,咱们提出了分类熵和类熵,它们是咱们损失函数的两个组成部分。在这种方法中,小批量的大小应该保持很高。实验结果代表咱们的模型用于聚类众所周知的数字,多视角对象和面部数据集的一致和竞争行为。更重要的是,咱们使用该模型为多光谱LISS IV图像生成无监督的斑块分割。咱们观察到它可以将建筑区域,湿地,植被和水体与下面的场景区分开来。 |
***Efficient Neural Network Approaches for Leather Defect Classification Authors Sze Teng Liong, Y.S. Gan, Kun Hong Liu, Tran Quang Binh, Cong Tue Le, Chien An Wu, Cheng Yan Yang, Yen Chang Huang 真皮,如牛,鳄鱼,蜥蜴和山羊的皮革一般含有自然和人工缺陷,如洞,叮咬,蜱痕,纹理,割伤,皱纹等。识别缺陷的传统解决方案是经过手动缺陷检查,其涉及熟练的专家。这是耗时的而且可能致使高错误率并致使低生产率。本文提出了一系列自动图像处理过程,经过采用深度学习方法对皮革缺陷进行分类。特别地,皮革图像首先被划分为小块,而后它经历预处理技术,即Canny边缘检测以加强缺陷可视化。接下来,采用人工神经网络ANN和卷积神经网络CNN来提取丰富的图像特征。得到的最佳分类结果是80.3,在由2000个样本组成的数据集上进行评估。此外,报告了诸如混淆矩阵和接收器操做特性ROC的性能度量以证实所提出的方法的效率。 |
Detecting Bias with Generative Counterfactual Face Attribute Augmentation Authors Emily Denton, Ben Hutchinson, Margaret Mitchell, Timnit Gebru 咱们引入了一个简单的框架来识别微笑属性分类器的误差。咱们的方法提出了形式的反事实问题,若是这个面部特征不一样,预测会如何变化咱们利用生成对抗网络的最新进展来构建面部图像的真实生成模型,其提供对特定图像特征的受控操纵。咱们引入了一组度量,用于衡量操做图像的特定属性对训练分类器输出的影响。根据经验,咱们肯定了几种不一样的变异因素,这些因素会影响在CelebA训练的微笑分类器的预测。 |
Fixing the train-test resolution discrepancy Authors Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Herv J gou 数据加强是用于图像分类的神经网络训练的关键。本文首先代表,现有的加强会致使分类器在列车和测试时看到的物体的典型尺寸之间存在显着差别。咱们经过实验验证,对于目标测试分辨率,使用较低的列车分辨率可在测试时提供更好的分类。 |
Instance Segmentation with Point Supervision Authors Issam H. Laradji, Negar Rostamzadeh, Pedro O. Pinheiro, David Vazquez, Mark Schmidt 实例分割方法一般须要昂贵的每像素标签。咱们提出了一种只须要点级注释的方法。在训练期间,模型只能访问每一个对象的单个像素标签,但任务是输出完整的分割蒙版。为了应对这一挑战,咱们构建了一个具备两个分支的网络1,一个预测每一个对象位置的定位网络L Net和一个嵌入网络E Net,用于学习同一个对象的像素接近的嵌入空间。经过对具备类似嵌入的像素进行分组来得到所定位对象的分割掩模。在训练时,虽然L Net仅须要点级注释,但E Net使用由类不可知对象提议方法生成的伪标签。咱们评估了咱们对PASCAL VOC,COCO,KITTI和CityScapes数据集的方法。实验代表,在某些情景中,与彻底监督方法相比,咱们的方法1得到了竞争结果.2具备固定注释预算的彻底和弱监督方法,3是具备点级监督的实例分割的第一强基线。 |
Realistic Speech-Driven Facial Animation with GANs Authors Konstantinos Vougioukas, Stavros Petridis, Maja Pantic 语音驱动的面部动画是基于语音信号自动合成说话人物的过程。此域中的大多数工做都会建立从音频功能到视觉功能的映射。这种方法一般须要使用计算机图形技术进行后处理,以产生尽管依赖于主体的现实结果。咱们提出了一种端到端系统,它只使用人的静止图像和包含语音的音频剪辑生成会话头的视频,而不依赖于手工制做的中间特征。咱们的方法生成的视频具备与音频同步的唇部动做和b天然的面部表情,例如眨眼和眉毛动做。咱们的时间GAN使用3个鉴别器,专一于实现详细的帧,视听同步和逼真的表达。咱们使用消融研究量化了咱们模型中每一个组件的贡献,而且咱们提供了对模型潜在表示的看法。生成的视频基于清晰度,重建质量,唇读精度,同步以及它们产生天然眨眼的能力来评估。 |
DeepTemporalSeg: Temporally Consistent Semantic Segmentation of 3D LiDAR Scans Authors Ayush Dewan, Wolfram Burgard 了解环境的语义特征是自主机器人操做的关键推进因素。在本文中,咱们提出了一种深度卷积神经网络DCNN,用于将LiDAR扫描的语义分段分类为汽车,行人或骑车人。该架构基于密集块并有效地利用深度可分离卷积来限制参数的数量,同时仍保持最早进的性能。为了使DCNN的预测在时间上一致,咱们提出了一种基于贝叶斯滤波器的方法。该方法使用来自神经网络的预测来递归地估计扫描中的点的当前语义状态。该递归估计使用从先前扫描得到的知识,从而使得预测在时间上一致而且对于孤立的错误预测是鲁棒的。咱们将咱们提出的架构的性能与其余最早进的神经网络架构进行比较,并报告实质性的改进。对于建议的贝叶斯滤波器方法,咱们在KITTI跟踪基准测试中显示各类序列的结果。 |
Improving Black-box Adversarial Attacks with a Transfer-based Prior Authors Shuyu Cheng, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu 咱们考虑黑匣子对抗性设置,其中对手必须产生对抗性扰动而无需访问目标模型来计算梯度。之前的方法试图经过使用代理白盒模型的转移梯度或基于查询反馈来近似梯度。然而,这些方法常常遭受低攻击成功率或低查询效率,由于用有限信息估计高维空间中的梯度是很是重要的。为了解决这些问题,咱们提出了一种先验引导的随机梯度自由P RGF方法来改进黑盒对抗性攻击,它同时利用了基于传递的先验和查询信息的优点。由替代模型的梯度给出的基于先验的转移经过理论分析导出的最优系数适当地整合到咱们的算法中。大量实验代表,与替代的现有技术方法相比,咱们的方法须要更少的查询来攻击具备更高成功率的黑盒模型。 |
Differentiated Backprojection Domain Deep Learning for Conebeam Artifact Removal Authors Yoseob Han, Junyoung Kim, Jong Chul Ye 使用圆形轨迹的Conebeam CT因为其相对简单的几何形状而常常用于各类应用。对于锥束几何,Feldkamp,Davis和Kress算法被认为是标准重建方法,可是随着锥角增长,该算法遭受所谓的锥束伪影。已经开发了各类基于模型的迭代重建方法来减小锥束伪影,可是这些算法一般须要计算昂贵的前向和后向投影的多种应用。在本文中,咱们开发了一种新颖的深度学习方法,用于精确的锥束伪影去除。特别地,咱们在差分反投影域上设计的深度网络执行与希尔伯特变换相关的病态反卷积问题的数据驱动反演。而后使用光谱混合技术将沿冠状和矢状方向的重建结果组合以最小化光谱泄漏。实验结果代表,尽管运行时复杂度显着下降,但咱们的方法优于现有的迭代方法。 |
Sample-Efficient Neural Architecture Search by Learning Action Space Authors Linnan Wang, Saining Xie, Teng Li, Rodrigo Fonseca, Yuandong Tian 神经架构搜索NAS已经成为一种有前途的自动神经网络设计技术。然而,现有的NAS方法一般利用手动设计的动做空间,其与要优化的性能度量(例如,准确性)不直接相关。所以,使用手动设计的动做空间来执行NAS一般会致使样本低效的体系结构探索,所以多是次优的。为了提升样本效率,本文提出潜在行为神经架构搜索LaNAS,其学习动做空间以递归地将架构搜索空间划分为区域,每一个区域具备集中的性能度量,即低方差。在搜索阶段,因为不一样的体系结构搜索动做序列致使不一样性能的区域,所以经过偏向具备良好性能的区域能够显着提升搜索效率。在最大的NAS数据集NasBench 101上,咱们的实验结果代表,LaNAS分别比随机搜索,正则化演化和蒙特卡罗树搜索MCTS的样本效率高22倍,14.6倍和12.4倍。当应用于开放域时,LaNAS发现一种体系结构,在仅探索6,000种体系结构后,在ImageNet移动设置上实现了CIFAR 10上的SoTA 98.0准确度和75.0 top1准确度。 |
***Stacked Capsule Autoencoders Authors Adam R. Kosiorek, Sara Sabour, Yee Whye Teh, Geoffrey E. Hinton 能够将对象看做几何组织的相互关联的部分。明确使用这些几何关系来识别物体的系统对于视点的变化应该是天然稳健的,由于内在的几何关系是视点不变的。咱们描述了一种无监督的胶囊网络版本,其中一个神经编码器,用于查看全部部分,用于推断物体胶囊的存在和姿式。编码器经过反向传播经过解码器进行训练,该解码器使用姿式预测的混合来预测每一个已经发现的部分的姿式。经过使用神经编码器以相似的方式直接从图像中发现这些部分,所述神经编码器推断出部分及其仿射变换。相应的解码器将每一个图像像素建模为由仿射变换部分作出的预测的混合。咱们在未标记的数据上学习对象及其部分胶囊,而后汇集对象胶囊存在的向量。当告诉这些星团的名称时,咱们在MNHN 98.5上对SVHN 55和近现有技术的无监督分类实现了最早进的结果。 |
Providentia -- A Large Scale Sensing System for the Assistance of Autonomous Vehicles Authors Annkathrin Kr mmer, Christoph Sch ller, Dhiraj Gulati, Alois Knoll 自动驾驶车辆的环境感知不只受到物理传感器范围和算法性能的限制,并且遮挡也会下降他们对当前交通情况的理解。这对安全构成了巨大的威胁,限制了他们的行驶速度,而且可能致使不方便的操做,从而下降他们的接受度。智能交通系统能够帮助缓解这些问题。经过以本身的世界的数字模型(即数字双胞胎)的形式向自动驾驶车辆提供关于当前交通的附加详细信息,智能交通系统能够填补车辆感知的空白并加强其视野。然而,详细描述这种系统的实现和工做原型证实其可行性是稀缺的。在这项工做中,咱们提出了一个硬件和软件架构来构建这样一个可靠的智能交通系统。咱们已经在现实世界中实现了这个系统,并代表它可以建立一个精确的数字双胞胎,延伸的公路伸展。此外,咱们将这款数字双胞胎提供给自动驾驶汽车,并展现它如何将车辆的感知扩展到其车载传感器的极限以外。 |
A tunable multiresolution smoother for scattered data with application to particle filtering Authors Gregor A. Robinson, Ian G. Grooms 提出了一种平滑算法,其能够减小在空间扩展域中的分散位置处观察到的数据的小规模内容。更平滑的工做方式是经过造成输入数据的高斯插值,而后将插值与格林函数的多分辨率高斯近似卷积到差分算子,差分算子的频谱能够针对特定问题考虑进行调整。这种更平滑的方法是针对其在粒子滤波中的潜在应用而开发的,粒子滤波一般涉及散布在空间域上的数据,由于使用更平滑的预处理观察减小了避免粒子滤波器坍塌所需的总体尺寸。一个关于气象数据的例子证明咱们的平滑器能够改善粒子滤波器重量的平衡。 |
Model Compression by Entropy Penalized Reparameterization Authors Deniz Oktay, Johannes Ball , Saurabh Singh, Abhinav Shrivastava 咱们描述了端到端神经网络权重压缩方法,该方法从最近的潜在可变数据压缩方法中汲取灵感。网络参数权重和误差在潜在空间中表示,至关于从新参数化。该空间配备有学习几率模型,其用于在训练期间对参数表示施加熵惩罚,而且在训练以后使用算术编码来压缩表示。所以,咱们以端到端的方式联合最大化准确性和模型压缩性,其中由超参数指定的速率偏差权衡。咱们经过在MNIST,CIFAR 10和ImageNet分类基准上压缩六种不一样的模型架构来评估咱们的方法。咱们的方法在VGG 16,LeNet300 100和几种ResNet架构上实现了最早进的压缩,而且在LeNet 5上具备竞争力。 |
Joint Visual-Textual Embedding for Multimodal Style Search Authors Gil Sadeh, Lior Fritz, Gabi Shalev, Eduard Oks 咱们介绍了一种用于时装的多模式视觉文本搜索细化方法。现有搜索引擎不能基于特定产品的属性实现检索结果的直观,交互,细化。咱们提出了一种基于查询项目图像和文本细化属性来检索相似项目的方法。咱们相信这种方法能够用来解决许多现实生活中的客户场景,其中须要不一样颜色,图案,长度或样式的相似项目。咱们采用联合嵌入式培训方案,其中产品图像及其目录文本元数据在共享空间中紧密映射。这种联合视觉文本嵌入空间使得可以基于文本细化要求在语义上操纵目录图像。咱们提出了一种新的训练目标函数,迷你批量匹配检索,并证实其优于经常使用的三联体损失。此外,咱们展现了添加属性提取模块的可行性,该模块在相同的目录数据上进行了培训,并演示了如何将其集成到多模式搜索中以提升其性能。咱们引入了一个带有相关基准的评估协议,并比较了几种方法。 |
Generating Diverse and Informative Natural Language Fashion Feedback Authors Gil Sadeh, Lior Fritz, Gabi Shalev, Eduard Oks 多模态视觉和语言任务的最新进展使一组新的应用成为可能。在本文中,咱们考虑在装备图像上生成天然语言时尚反馈的任务。咱们收集一个独特的数据集,其中包含装备图像和相应的积极和建设性的时尚反馈。咱们分别处理每种反馈类型,并用视觉注意训练深度生成编码器解码器模型,相似于标准图像字幕管道。按照这种方法,生成的句子每每过于笼统并且没有信息。咱们提出了一种基于最大互信息目标函数的替代解码技术,该技术能够产生更多样化和详细的响应。咱们使用通用语言指标评估咱们的模型,并显示人类评估结果。这项技术应用于Alexa,我如何看待Echo Look设备中公开提供的功能。 |
4D X-Ray CT Reconstruction using Multi-Slice Fusion Authors Soumendu Majee, Thilo Balke, Craig A. J. Kemp, Gregery T. Buzzard, Charles A. Bouman 愈来愈须要在对应于空间,时间和其余独立参数的四维或更多维中重建对象。最好的4D重建算法使用正则化迭代重建方法,例如基于模型的迭代重建MBIR,其主要取决于先前建模的质量。最近,已经证实即插即用方法是使用设计用于去除加性高斯白噪声AWGN的现有技术去噪算法来结合先进的先前模型的有效方式。然而,诸如BM4D和深度卷积神经网络CNN的现有技术去噪算法主要可用于2D和有时3D图像。特别地,CNN在四维或更多维中实现是困难且计算上昂贵的,而且若是没有相关联的高维训练数据则训练多是不可能的。 |
***A Statistical View on Synthetic Aperture Imaging for Occlusion Removal Authors Indrajit Kurmi, David C. Schedl, Oliver Bimber 合成孔径可用于许多领域,例如雷达,射电望远镜,显微镜,声纳,超声波,激光雷达和光学成像。它们接近单个假想的宽孔径传感器的信号,该传感器具备静态小孔径传感器阵列或单个移动小孔径传感器。合成孔径采样中的常识是须要在宽孔径内的密集采样图案来重建清晰信号。在本文中,咱们代表合成孔径尺寸和应用遮挡去除的样品数量都存在实际限制。这致使了解如何以最佳和实用有效的方式设计合成孔径采样模式和传感器。咱们将咱们的发现应用于机载光学切片,该切片使用相机无人机和合成孔径成像来计算地去除遮挡植被或树木以检查地面。 |
Speeding up VP9 Intra Encoder with Hierarchical Deep Learning Based Partition Prediction Authors Somdyuti Paul, Andrey Norkin, Alan C. Bovik 在VP9视频编解码器中,经过使用速率失真优化RDO递归地划分64次64个超级块来在编码期间肯定块的大小。因为超级块的可能分区的组合搜索空间,该过程是计算密集的。在这里,咱们提出了一种基于深度学习的替代框架,使用分层彻底卷积网络H FCN以四级分区树的形式预测帧内模式超级块分区。咱们建立了一个大型的VP9超级块数据库和相应的分区来训练H FCN模型,该模型随后与VP9编码器集成以减小帧内模式编码时间。实验结果代表,咱们的方法平均加速帧内模式编码69.7,代价是Bjontegaard Delta比特率BD率增长1.71。虽然VP9提供了几种内置速度级别,旨在以下降速率失真性能为代价提供更快的编码,但咱们发现咱们的模型可以赛过参考VP9编码器的最快建议速度级别,以实现高质量的帧内编码配置,就加速和BD率而言。 |
Multi-Adversarial Variational Autoencoder Networks Authors Abdullah Al Zubaer Imran, Demetri Terzopoulos GAN和VAE的无监督训练使他们可以生成模拟真实世界分布的真实图像,并执行基于图像的无监督聚类或半监督分类。结合这两种生成模型的强大功能,咱们引入了多对抗变化自动编码器网络MAVEN,这是一种新颖的网络架构,在VAE GAN网络中集成了一组鉴别器,同时具备对抗性学习和变分推理。咱们将MAVEN应用于合成图像的生成,并提出一种新的分布测量来量化生成的图像的质量。咱们使用来自计算机视觉和医学成像领域的数据集的实验结果街景房号,CIFAR 10和胸部X射线数据集证实了在图像生成和分类任务中对现有技术的半监督模型的竞争性能。 |
***Time warping invariants of multidimensional time series Authors Joscha Diehl, Kurusch Ebrahimi Fard, Nikolas Tapia 在数据科学中,人们常常面对表明某些兴趣量的测量的时间序列。一般,在第一步中,须要提取时间序列的特征。这些数字量旨在简洁地描述数据并抑制噪声的影响。在某些应用程序中,还须要这些功能来知足某些不变性属性。在本文中,咱们专一于时间扭曲不变量。咱们证实了这些对应于时间序列增量的某个迭代和的一族,在数学文献中称为准坐标函数。咱们在代数框架中呈现这些不变特征,而且咱们开发了它们的一些基本属性。 |
Chinese Abs From Machine Translation |
更多精彩请移步主页数据库
tips:
cvpr sisr2019
stereoSR -> PASSRnetapi