【今日CV 计算机视觉论文速览 第101期】Wed, 17 Apr 2019

今日CS.CV 计算机视觉论文速览
Wed, 17 Apr 2019
Totally 65 papers
👉上期速览更多精彩请移步主页
ios

在这里插入图片描述

Interesting:

📚Pyramid-context ENcoder Network (PEN-Net)基于金字塔编码器的高质量图像修复, 利用Unet结构经过编码图像内容信息并解码,训练了具备高层级语义特征图注意力的编码器,并可将这些注意力转移到低层级特征图上,能够将缺失的部分特征从深层向浅层转移,并在视觉和语义上修复缺失部分。最后经过金字塔损失和对抗损失训练解码器实现快速训练和有效infer。(from 中山大学 微软亚研)
在这里插入图片描述
一些结果:
在这里插入图片描述
code:https://github.com/researchmm/PEN-Net-for-Inpainting

git

📚超分辨综述,基于结构不一样来进行算法解构,并基于参数量、算法设置和训练细节、结构创新等来分析了模型的各方面能力。并在6个公开数据集上进行了公开评测。将来可能的研究方向:与先验(场景、传感器、拍摄条件等)结合、目标函数和度量、通用解决方案、非监督、高/任意SR比例,真实/仿真的退化过程。 (from CSIRO, Australia)
在这里插入图片描述
各类模型架构:
在这里插入图片描述
六个公开数据集:
在这里插入图片描述
计算量参数量的影响:
在这里插入图片描述
各类属性总结:
在这里插入图片描述

github

📚RIDNet基于特征注意力的真实图像去噪, 深度图像去噪在真实非均匀噪声上表现不佳,须要多级神经网络处理。研究人员利用残差单元促进了低频信息的流动,并应用特征注意力来探索了通道依赖性,实现了单阶段的真实图像去噪模型。(from 澳大利亚国立)
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
相关方法:NLM [11] and BM3D [16], SADCT [24], SAPCA [18], NLB [34], and INLM [26]

web

📚Objects as Points基于中心点检测的高效CenterNet, 在先前的目标检测工做中模型几乎会遍历每一个可能的位置给出边界框并分类,浪费了大量的算力。CenterNet则使用了单个点为物体建模,基于关键点估计来获取中心点,并基于中心点回归出框大小、3D位置和位姿以及方向等属性。研究人员还基于相同的方法估计了3Dbbox和人体位姿。实现了很高的mAP(from 德克萨斯奥斯丁)
基于中心的检测方法和一些结果:
在这里插入图片描述在这里插入图片描述
不一样检测任务:
在这里插入图片描述
速度和表现:
在这里插入图片描述在这里插入图片描述
与其余方法比较:
在这里插入图片描述
位姿估计和3Dbbox:
在这里插入图片描述
code:https://github.com/xingyizhou/CenterNet

算法


📚音视频分离,经过从视频中分离类似物体的声音,同时为每个训练对产生精确的视频级音频,解耦了视频和音频间的关系,并最终实现了视觉引导的音频分离和去噪。(from 德克萨斯奥斯丁)
在这里插入图片描述
训练过程:
在这里插入图片描述
dataset:MUSIC, AudioSet, and AV-Bench datasets

chrome

📚低功耗视觉综述, Low-Power Image Recognition Challenge (LPIRC) 挑战赛,综述。基于TFlite在移动端实现、coffe2在tx2上实现、线上实现。(from 普渡)
在这里插入图片描述

数据库

📚Total Denoising无监督三维点云去噪, 在流型空间上进行去噪,将不合符随机分布的点云噪声进行总体考虑。(from 德国乌尔姆大学)
在这里插入图片描述
点云流型和点云非结构化编解码:
在这里插入图片描述

编程

📚RS-CNN相关形状CNN用于点云分析, 主要集中于学习点之间的几何拓扑相关性,并基于几何先验学习出高层级的相关性。局部准确的空间布局能够被精确表示。(from 中科院自动化所)
在这里插入图片描述
用于分类和分割的不一样配置,分割包含了长程连接:
在这里插入图片描述

跨域

📚Complexer-YOLO语义点云实时3D识别追踪, 提出告终合三维检测和语义分割的联合模型,利用语义分割辅助了三维点云检测和追踪。并利用规模化旋转变化SRTs提升了推理速度。(from valeo.com )
架构图和效果图:
在这里插入图片描述
在这里插入图片描述

网络

📚Fashion-AttGAN基于多主体GAN的时尚元素编辑, AttGAN能够用于时尚元素的编辑和生成,经过隐空间编辑可保持其余属性不变的状况下改变服饰的样式,并提出了包含22属性的14221个图像的数据集。(from VIPSHOP US Inc惟品会美国)
重建的一些结果,3-6列改变袖子,后面改变颜色:
在这里插入图片描述
code and dataset:https://github.com/ChanningPing/Fashion_Attribute_Editing

📚基于贝叶斯的图像先验, 在先前深度图像先验Deep Image prior的基础上研究人员将高斯过程引入了图像修复、重建和去噪的任务中,研究发现深度图像先验在每一层通道趋于无穷时将渐近高斯过程,并能获得对应的高斯核。研究人员在infer过程当中引入了贝叶斯方法,经过随机梯度郎之万动力学实现后验推理避免了过早中止,并改善了重建和去噪的结果。(from 麻省大学)
在这里插入图片描述
一些实验结果及不肯定性图:
在这里插入图片描述在这里插入图片描述
project:https://people.cs.umass.edu/~zezhoucheng/gp-dip/
code:https://github.com/ZezhouCheng/GP-DIP

📚人群运动估计, 经过监控信息估计人群的流动方向,将有效避免群体拥堵和事故的发生。(from Indian Institute of Technology Bhubaneswar)
人群建模和提出的网络结构:
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
分割与抽取:
在这里插入图片描述
在这里插入图片描述

📚防瞌睡数据集和方法, 用于检测瞌睡早期迹象,给出了数据集和基于层级多尺度长短时神经网络HM-LSTM的方法。 (from 德克萨斯阿灵顿)
数据集/判断指标和提出的HM-LSTM方法:
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
RLDD dataset: sites.google.com/view/utarldd/home
code:https://github.com/rezaghoddoosian

📚Focus Is All You Need事件相机的损失函数,用一系列运动补偿函数为事件相机更好的应用。提出了聚焦损失函数用于事件对齐,可用于旋转移动、深度和光流估计。 (from 苏黎世大学)
在这里插入图片描述


Daily Computer Vision Papers

Matrix and tensor decompositions for training binary neural networks
Authors Adrian Bulat, Jean Kossaifi, Georgios Tzimiropoulos, Maja Pantic
本文是关于改进二元神经网络的训练,其中激活和权重都是二元的。虽然用于神经网络二值化的现有方法独立地对每一个滤波器进行二值化,可是咱们建议使用矩阵或张量分解来参数化每一个层的权重张量。而后经过量化函数,例如量化函数,使用这种潜在的参数化来执行二值化处理。符号函数应用于重建的权重。咱们的方法的一个关键特征是,当重建被二值化时,潜在分解空间中的计算在真实域中完成。这具备若干优势,潜在因子分解在二值化以前强制执行滤波器的耦合,这显着提升了训练模型的准确性。 ii,在训练时,使用实值矩阵或张量分解对每一个卷积层的二进制权值进行参数化,在推理期间,咱们仅使用重构的二进制权重。所以,咱们的方法在模型压缩和加速推理方面不会牺牲二进制网络的任何优点。做为进一步的贡献,不是像在先前的工做中那样分析地计算二元权重缩放因子,而是建议经过反向传播来区别地学习它们。最后,咱们代表,当对人体姿态估计的挑战性任务进行测试时,咱们的方法明显优于现有方法,超过4项改进,而ImageNet分类最多可达5项性能提高。

Objects as Points
Authors Xingyi Zhou, Dequan Wang, Philipp Kr henb hl
检测将对象标识为图像中的轴对齐框。大多数成功的物体探测器列举了潜在物体位置的几乎详尽的列表并对每一个物体进行分类。这是浪费,低效,而且须要额外的后期处理。在本文中,咱们采起了不一样的方法。咱们将对象建模为其边界框中心点的单个点。咱们的探测器使用关键点估计来查找中心点并回归到全部其余对象属性,例如大小,3D位置,方向甚至姿式。咱们的基于中心点的方法CenterNet比相应的基于边界框的检测器端到端可微,更简单,更快速,更准确。 CenterNet实现了MS COCO数据集的最佳速度准确性折衷,其中28.1 AP为142 FPS,37.4 AP为52 FPS,45.1 AP为1.4 FPS多尺度测试。咱们使用相同的方法来估计KITTI基准中的3D边界框和COCO关键点数据集上的人体姿式。咱们的方法与复杂的多阶段方法竞争性地实时运行。

Active Adversarial Domain Adaptation
Authors Jong Chyi Su, Yi Hsuan Tsai, Kihyuk Sohn, Buyu Liu, Subhransu Maji, Manmohan Chandraker
咱们提出了一种主动学习方法,用于跨域转移表示。咱们的方法,主动对抗域适应AADA,探讨了两个相关问题之间的对偶性,对抗域对齐和重要性抽样,以适应跨域的模型。前者使用域判别模型来对齐域,然后者使用它来权衡样本以考虑分布变化。具体而言,咱们的重要性权重促进了分类和多样性与标记示例具备较大不肯定性的样本,所以可用做主动学习的样本选择方案。咱们代表,当源域有许多标记的示例而目标域没有时,这两个视图能够在一个框架中统一用于域自适应和转移学习。当两个领域密切相关时,AADA对基于微调的方法和其余抽样方法提供了重大改进。在具备挑战性的域适应任务(例如,对象检测)上的结果代表,即便在数百个示例被主动注释以后,也保留了优于基线方法的优势。

Temporal Cycle-Consistency Learning
Authors Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Pierre Sermanet, Andrew Zisserman
咱们介绍了一种基于视频之间时间对齐任务的自我监督表示学习方法。该方法使用时间周期一致性TCC训练网络,TCC是可区分的周期一致性损失,可用于在多个视频中查找跨时间的对应关系。经过使用学习的嵌入空间中的最近邻居简单地匹配帧,可使用所获得的每帧嵌入来对齐视频。

Double Transfer Learning for Breast Cancer Histopathologic Image Classification
Authors Jonathan de Matos, Alceu de S. Britto Jr., Luiz E. S. Oliveira, Alessandro L. Koerich
这项工做提出了一种乳腺癌组织病理学图像HI的分类方法,该方法使用转移学习从使用ImageNet数据集预训练的Inception v3 CNN提取HI的特征。咱们还使用转移学习在组织标记的结肠直肠癌数据集上训练支持向量机SVM分类器,目的是过滤来自乳腺癌HI的斑块并去除不相关的斑块。咱们显示在训练第二个SVM分类器以前去除不相关的补丁,提升了对乳腺癌图像上的恶性和良性肿瘤进行分类的准确性。咱们可以使用特征提取转移学习提升3.7中的分类准确度,使用不相关的补丁消除提升0.7。所提出的方法在乳腺癌数据集的四个放大因子中的三个中优于现有技术。

Visual Relationship Detection with Language prior and Softmax
Authors Jaewon Jung, Jongyoul Park
视觉关系检测是一种中间图像理解任务,它检测两个对象并对解释图像中两个对象之间关系的谓词进行分类。这三个组成部分在语言和视觉上相关,例如磨损与人和衬衫有关,而笔记本电脑与桌子有关,所以,解决方案空间很大,由于它们之间有不少可能的状况。利用语言和视觉模块,提出复杂的空间矢量。这项工做中的模型优于艺术状态,没有昂贵的语言知识从大型文本语料库中升级并构建复杂的损失函数。全部实验仅在视觉关系检测和视觉基因组数据集上进行评估。

AT-GAN: A Generative Attack Model for Adversarial Transferring on Generative Adversarial Nets
Authors Xiaosen Wang, Kun He, Chuan Guo, Kilian Q. Weinberger, John E. Hopcroft
最近的研究发现了深度神经网络DNN对于对抗性例子的脆弱性,这些例子对人类来讲是不可察觉的,但很容易欺骗DNN。用于制做对抗性示例的现有方法主要基于向原始图像添加小幅度扰动,使得所生成的对抗性示例受到小矩阵范数内的良性示例的约束。在这项工做中,咱们提出了一种名为AT GAN的新攻击方法,该方法使用生成对抗网络GAN直接从随机噪声中生成对抗性示例。关键的想法是转移预先训练的GAN以生成要攻击的目标分类器的对抗性示例。一旦模型转移进行攻击,AT GAN能够有效地生成各类对抗性示例,这有助于潜在地加速防护的对抗性训练。咱们在MNIST手写数字数据库的典型防护方法下,在半白盒和黑盒设置中评估AT GAN。与现有攻击基线的经验比较代表,AT GAN能够实现更高的攻击成功率。

The ALOS Dataset for Advert Localization in Outdoor Scenes
Authors Soumyabrata Dev, Murhaf Hossari, Matthew Nicholson, Killian McCabe, Atul Nautiyal, Clare Conran, Jian Tang, Wei Xu, Fran ois Piti
在线视频数量的快速增加为营销和广告代理商提供了充分的机会来接触他们的观众。最普遍使用的策略之一是产品放置或嵌入式营销,其中新广告无缝地集成到视频中的现有广告中。这样的策略涉及在视频编辑阶段手动地或经过使用机器学习框架准确地在图像帧中定位广告的位置。然而,这些机器学习技术和深度神经网络须要大量的数据用于训练。在本文中,咱们提出并发布了第一个在室外场景中捕获的广告牌的大型数据集。咱们还在咱们提出的数据集上对几种最早进的语义分割算法进行了基准测试。

Weakly Supervised Gaussian Networks for Action Detection
Authors Basura Fernando, Cheston Tan Yin Chet, Hakan Bilen
检测视频中人类行为的时间范围是一个具备挑战性的计算机视觉问题,须要详细的手动监督,包括帧级标签。这种昂贵的注释过程限制了在有限数量的类别上部署动做检测器。咱们提出了一种新的动做识别方法,称为WSGN,能够学习检测来自弱监督,视频级标签的动做。 WSGN学习利用视频特定和数据集范围的统计数据来预测每一个帧与动做类别的相关性。咱们代表,本地和全球渠道的结合能够在THUMOS14和Charades两个标准基准测试中取得显着进步。咱们的方法在弱监督基线上提升了超过12 mAP,优于其余弱监督的现有技术方法,仅落后于THUMOS14数据集中用于动做检测的现有技术监督方法。相似地,咱们的方法仅仅是在挑战Charades数据集进行动做定位的现有技术监督方法背后0.3 mAP。

Cryo-Electron Microscopy Image Analysis Using Multi-Frequency Vector Diffusion Maps
Authors Yifeng Fan, Zhizhen Zhao
冷冻电子显微镜EM单粒子重建是用于大分子复合物的3D结构测定的彻底通用技术。然而,由于图像是以低电子剂量拍摄的,因此很难以低对比度和高噪声水平观察单个粒子。在本文中,咱们提出了一种称为多频率矢量扩散图MFVDM的新方法,以提升低温EM 2D图像分类和去噪的效率和准确性。该框架结合了类似图像之间估计对准的不一样不可缩减表示。此外,咱们提出了一种图形滤波方案,使用MFVDM矩阵的特征值和特征向量对图像进行去噪。经过模拟和公开可用的实际数据,咱们证实了与现有技术的低温EM 2D类平均和图像恢复算法相比,咱们提出的方法对噪声有效且鲁棒。

Co-Separating Sounds of Visual Objects
Authors Ruohan Gao, Kristen Grauman
了解物体如何从视频中发出声音具备挑战性,由于它们一般在单个音频通道中重叠。目前用于视觉引导音频源分离的方法经过使用人工混合视频剪辑进行训练来回避该问题,可是这对训练数据收集提出了笨拙的限制,甚至可能妨碍学习真正混合声音的属性。咱们引入了一种共同分离训练范例,该范例容许从未标记的多源视频中学习对象级声音。咱们的新颖训练目标要求深度神经网络为类似的观察对象分离音频,使其始终可识别,同时为每一个源训练对再现精确的视频级音频轨道。咱们的方法在真实的测试视频中解开声音,即便在训练期间没有单独观察物体的状况下也是如此。咱们得到了MUSIC,AudioSet和AV Bench数据集的视觉引导音频源分离和音频去噪的最新结果。咱们的视频结果

Low-Power Computer Vision: Status, Challenges, Opportunities
Authors Sergei Alyamkin, Matthew Ardi, Alexander C. Berg, Achille Brighton, Bo Chen, Yiran Chen, Hsin Pai Cheng, Zichen Fan, Chen Feng, Bo Fu, Kent Gauen, Abhinav Goel, Alexander Goncharenko, Xuyang Guo, Soonhoi Ha, Andrew Howard, Xiao Hu, Yuanjun Huang, Donghyun Kang, Jaeyoun Kim, Jong Gook Ko, Alexander Kondratyev, Junhyeok Lee, Seungjae Lee, Suwoong Lee, Zichao Li, Zhiyu Liang, Juzheng Liu, Xin Liu, Yang Lu, Yung Hsiang Lu, Deeptanshu Malik, Hong Hanh Nguyen, Eunbyung Park, Denis Repin, Liang Shen, Tao Sheng, Fei Sun, David Svitov, George K. Thiruvathukal, Baiwu Zhang, Jingchi Zhang, Xiaopeng Zhang, Shaojie Zhuo
计算机视觉近年来取得了使人瞩目的进展。同时,手机已成为数百万人的主要计算平台。除了移动电话以外,许多自治系统依赖于可视数据来作出决策,而且这些系统中的一些具备有限的能量,例如也称为无人机和移动机器人的无人驾驶飞行器。这些系统依赖电池和能效是相当重要的。本文有两个主要目的1检查低功率解决方案的最新技术,以检测图像中的对象。自2015年以来,IEEE年度国际低功耗图像识别挑战LPIRC一直致力于识别最节能的计算机视觉解决方案。本文总结了2018年的获奖者解决方案。 2建议研究方向以及低功耗计算机视觉的机会。

Semantically Aligned Bias Reducing Zero Shot Learning
Authors Akanksha Paul, Narayanan C. Krishnan, Prateek Munjal
零镜头学习ZSL旨在经过利用已见和未见过的类之间的语义关系来识别看不见的类。 ZSL算法面临的两个主要问题是枢纽问题和对所见类的偏见。现有的ZSL方法仅关注常规和通用ZSL设置中的这些问题之一。在这项工做中,咱们提出了一种新颖的方法,即语义对齐偏置减小SABR ZSL,它专一于解决这两个问题。它经过学习潜在空间来克服集线器问题,该潜在空间在编码关于类的区分信息的同时保留标签之间的语义关系。此外,咱们还提出了经过概括设置中的简单交叉验证过程和转换设置中的新的弱传递约束来减小所看到的类的误差的方法。对三个基准数据集的大量实验代表,在传统的ZSL设置中,所提出的模型明显优于现有技术算法1.59,在广义ZSL中,对于概括和转换设置,显着优于现有技术。

LBVCNN: Local Binary Volume Convolutional Neural Network for Facial Expression Recognition from Image Sequences
Authors Sudhakar Kumawat, Manisha Verma, Shanmuganathan Raman
识别面部表情是计算机视觉中的核心问题之一。时间图像序列具备用于识别表达的有用的时空特征。在本文中,咱们提出了一种新的3D卷积神经网络CNN,能够在不使用面部标志的状况下,对时间图像序列上的面部表情识别进行端到端训练。更具体地,提出了一种新的3D卷积层,咱们称之为局部二进制卷LBV层。当LBV层与咱们新提出的LBVCNN网络一块儿使用时,与基于CK或OBC CASIA和UNBC McMaster肩部疼痛数据集的图像序列的基于地标的模型相比,得到了可比较的结果。此外,与传统的3D卷积层相比,咱们的LBV层将可训练参数的数量减小了不少。事实上,与3x3x3传统3D卷积层相比,LBV层使用的可训练参数少27倍。

SparseMask: Differentiable Connectivity Learning for Dense Image Prediction
Authors Huikai Wu, Junge Zhang, Kaiqi Huang
在本文中,咱们的目标是自动搜索有效的网络架构进行密集图像预测。特别是,咱们遵循编码器解码器风格,专一于自动设计解码器的链接结构。为实现这一目标,咱们首先设计一个密集链接的网络,其中包含名为Fully Dense Network的可学习链接,其中包含大量可能的最终链接结构。而后,咱们采用梯度降低来搜索密集链接的最佳链接。搜索过程由新的损失函数引导,该函数将每一个链接的权重推进为二进制而且链接是稀疏的。发现的连通性在两个分割数据集上实现了竞争结果,与现有技术方法相比,运行速度提升了三倍以上,所需参数不到一半。大量实验代表,所发现的连通性与各类骨干兼容,而且能够很好地推广到其余密集图像预测任务。

Total Denoising: Unsupervised Learning of 3D Point Cloud Cleaning
Authors Pedro Hermosilla, Tobias Ritschel, Timo Ropinski
咱们代表,3D点云的去噪能够无人监督地学习,直接来自嘈杂的3D点云数据。这是经过将最近的想法从学习无监督图像去噪器扩展到非结构化3D点云来实现的。无监督图像去噪器在假设噪声像素观察是围绕干净像素值的分布的随机实现的假设下操做,这容许对该分布的适当学习最终收敛到正确值。遗憾的是,这种假设对于非结构化点是无效的.3D点云受到总噪声的影响,即。例如,全部坐标的误差,没有可靠的像素网格。所以,观察能够是实现整个清洁3D点的流形,这使得无监督图像去噪器对3D点云的延伸是不切实际的。克服这个问题,咱们引入了一个空间先验项,它将转向收敛到歧管上许多可能模式中惟一最接近的项。咱们的结果证实了无监督的去噪性能相似于带有干净数据的监督学习,当给出足够的训练样例时,咱们不须要任何一对嘈杂和干净的训练数据。

Relation-Shape Convolutional Neural Network for Point Cloud Analysis
Authors Yongcheng Liu, Bin Fan, Shiming Xiang, Chunhong Pan
点云分析很是具备挑战性,由于不规则点中隐含的形状难以捕捉。在本文中,咱们提出了RS CNN,即关系形状卷积神经网络,它将规则网格CNN扩展到不规则配置以进行点云分析。 RS CNN的关键是从关系中学习,即点之间的几何拓扑约束。具体地,局部点集的卷积权重被迫从预约义的几何先验中学习来自该点集的采样点与其余点之间的高级关系表达式。经过这种方式,能够得到具备关于点的空间布局的明确推理的概括局部表示,这致使了不少形状感知和鲁棒性。经过这种卷积做为基本运算符RS CNN,能够开发分层架构以实现用于点云分析的上下文形状感知学习。针对三个任务的挑战性基准测试的普遍实验验证了RS CNN实现了现有技术水平。

Detecting the Unexpected via Image Resynthesis
Authors Krzysztof Lis, Krishna Nakka, Mathieu Salzmann, Pascal Fua
经典的语义分割方法,包括最近的深度学习方法,假设在训练期间已经看到在测试时观察到的全部类。在本文中,咱们将解决更加真实的场景,即未知类的意外对象能够在测试时出现。该领域的主要趋势是利用预测不肯定性的概念来标记低信度区域未知,或者依赖自动编码器并突出显示解码不良的区域。观察到,在这两种状况下,检测到的区域一般不对应于意外的对象,在本文中,咱们引入了一种大相径庭的策略。它依赖于网络将在描绘意外对象的区域中产生虚假标签的直觉。所以,从获得的语义图从新合成图像将产生相对于输入图像的显着外观差别。换句话说,咱们将检测未知类的问题转化为识别不良再合成图像区域的问题。咱们代表,它优于不肯定性和基于自动编码器的方法。

Patch alignment manifold matting
Authors Xuelong Li, Kang Liu, Yongsheng Dong, Dacheng Tao
图像消光一般被建模为从颜色空间到α空间的空间变换。经过估计模型的α因子,能够提取图像的前景。可是,在alpha空间中存在一些尺寸信息冗余。它一般致使前景和背景之间边界附近的一些像素的误判。在本文中,提出了一种称为Patch Alignment Manifold Matting的流形消光框架用于图像消光。特别地,咱们首先提出局部图像块中的颜色空间的部分建模。而后,咱们使用子空间重建偏差执行整个对齐优化以近似α结果。此外,咱们利用Nesterov算法来解决优化问题。最后,咱们在框架中应用了一些流形学习方法,并得到了几种图像匹配方法,如命名为ISOMAP matting及其派生的Cascade ISOMAP matting。实验结果代表,与几种有表明性的消光方法相比,歧管消光框架及其两个实例是有效的。

Long-Term Video Generation of Multiple FuturesUsing Human Poses
Authors Naoya Fushishita, Antonio Tejero de Pablos, Yusuke Mukuta, Tatsuya Harada
从输入视频预测近期是自动驾驶和机器人等应用的有用任务。虽然大多数先前的做品预测单个将来,但可能会出现具备不一样行为的多个将来。此外,若是预测的将来过短,则人类或其余系统可能没法彻底使用。在本文中,咱们提出了一种新的将来视频预测方法,可以产生多个长期期货。这使得预测更适合于实际应用。首先,从输入的人类视频中,咱们经过对抗性学习生成将来人体姿式的序列做为其身体关节的图像坐标。咱们经过输入潜在代码的生成器组合来反映各类行为以及反映各类轨迹的吸引点来生成多个将来。此外,咱们使用基于一维卷积神经网络的新方法生成长期将来人类姿式。最后,咱们根据生成的可视化姿式生成输出视频。咱们使用三个标准评估生成的将来姿式和视频,即真实性,多样性和准确性,并代表咱们提出的方法优于其余最早进的工做。

Complexer-YOLO: Real-Time 3D Object Detection and Tracking on Semantic Point Clouds
Authors Martin Simon, Karl Amende, Andrea Kraus, Jens Honer, Timo S mann, Hauke Kaulbersch, Stefan Milz, Horst Michael Gross
准确检测3D物体是计算机视觉中的基本问题,而且对自动驾驶汽车,加强的虚拟现实和机器人技术中的许多应用具备巨大影响。在这项工做中,咱们提出了基于神经网络的最早进的3D检测器和自动驾驶环境中的视觉语义分割的新颖融合。此外,咱们还引入了比例旋转平移分数SRT,这是一种快速且可高度参数化的评估指标,用于比较对象检测,从而将咱们的推理时间加速到20,并将训练时间减半。最重要的是,咱们在对象测量上应用最早进的在线多目标特征跟踪,以利用时间信息进一步提升准确性和鲁棒性。咱们在KITTI上的实验代表,咱们在全部相关类别中得到与现有技术相同的结果,同时保持性能和准确性权衡,而且仍然实时运行。此外,咱们的模型是第一个融合视觉语义与3D对象检测的模型。

Disentangling Pose from Appearance in Monochrome Hand Images
Authors Yikang Li, Chris Twigg, Yuting Ye, Lingling Tao, Xiaogang Wang
因为光照,外观和背景的变化,来自单眼2D图像的手姿式估计具备挑战性。虽然使用深度神经网络已经取得了一些成功,但它们一般须要收集大量数据集,以充分采样手部图像的全部变化轴。所以,找到手姿式的表示将是有用的,该表姿独立于图像外观,如手纹理,光照,背景,以便咱们能够经过混合姿式外观组合来合成看不见的图像。在本文中,咱们提出了一种新技术,在2D单色图像中解开姿式表示与互补外观因子。咱们使用一个网络监督这个解开过程,该网络学习使用指定的姿式外观特征生成手的图像。与之前的工做不一样,咱们不须要具备匹配姿式的图像对,咱们使用已经可用的姿式注释并引入循环一致性的新颖用途以确保因子之间的正交性。实验结果代表,咱们的自解法方案成功地将手部图像分解为姿式及其与使用配对数据的方法至关的质量的互补外观特征。另外,经过从新混合来自不一样图像的姿式和外观因素,利用具备看不见的手部外观组合的额外合成图像训练模型能够改善2D姿式估计性能。

A Deep Journey into Super-resolution: A survey
Authors Saeed Anwar, Salman Khan, Nick Barnes
基于超分辨率的深度卷积网络是一个快速增加的领域,具备许多实际应用。在本次博览会上,咱们普遍地比较了30个最早进的超分辨率卷积神经网络CNN,超过三个经典和三个最近引入的挑战性数据集,以基准单图像超分辨率。咱们引入了基于深度学习的超分辨率网络的分类法,将现有方法分为九类,包括线性,残差,多分支,递归,渐进,基于注意力和对抗性设计。咱们还在网络复杂性,内存占用,模型输入和输出,学习细节,网络损耗类型和重要架构差别(例如深度,跳过链接,过滤器)方面提供模型之间的比较。进行了普遍的评估,显示了过去几年中准确性的一致和快速增加,以及模型复杂性和大规模数据集的可用性的相应提高。还观察到,被肯定为基准的开创性方法已经明显优于当前的竞争者。尽管近年来取得了进展,但咱们发现了现有技术的一些缺点,并为解决这些开放性问题提供了将来的研究方向。

A Deep Optimization Approach for Image Deconvolution
Authors Zhijian Luo, Siyu Chen, Yuntao Qian
在盲图像去卷积中,一般利用先验来约束解空间,从而减轻不肯定性。与解卷积任务分开训练的引物每每不稳定或无效。咱们提出了高尔夫优化器,这是一种新颖但简单的网络形式,能够从具备更好传播行为的数据中学习深层原理。就像打高尔夫球同样,咱们的方法首先使用一个网络估计积极的传播朝向最优,而且反复应用残余CNN来学习先前的梯度,以便在恢复时进行精细校订。实验代表,咱们的网络在GoPro数据集上实现了竞争性能,与现有技术相比,咱们的模型很是轻巧。

Shared Predictive Cross-Modal Deep Quantization
Authors Erkun Yang, Cheng Deng, Chao Li, Wei Liu, Jie Li, Dacheng Tao
随着数据量的爆炸性增加和数据模态的不断增长的多样性,跨模态类似性搜索(其在不一样模态中进行最近邻搜索)已经引发愈来愈多的关注。本文提出了一种深度紧凑的代码学习解决方案,用于高效的跨模态类似性搜索最近的许多研究已经证实,基于量化的方法一般比基于哈希的方法在单模态类似性搜索上表现更好。在本文中,咱们提出了一种深度量化方法,这是利用深度神经网络进行基于量化的交叉模态类似性搜索的早期尝试之一。咱们的方法,称为共享预测深度量化SPDQ,明确地为不一样的模态和两个私有子空间制定共享子空间用于单个模态,而且经过将它们嵌入到再生核Hilbert空间中来同时学习共享子空间和私有子空间中的表示。能够明确地比较不一样模态分布的平均嵌入。另外,在共享子空间中,学习量化器以借助于标签对齐产生保留紧凑代码的语义。因为这种新颖的网络架构与监督量化训练相结合,SPDQ能够尽量地保持模内和模间的类似性,并大大减小量化偏差。两个流行基准测试的实验证明,咱们的方法优于最早进的方法。

End-to-End Denoising of Dark Burst Images Using Recurrent Fully Convolutional Networks
Authors Di Zhao, Lan Ma, Songnan Li, Dahai Yu
在昏暗的光线环境下拍摄照片时,因为光线进入量很小,拍摄的图像一般很是暗,噪点很大,并且颜色没法反映真实世界的颜色。在这种状况下,用于单图像去噪的传统方法老是不能有效。一个常见的想法是采用相同场景的多个帧来加强信噪比。本文提出了一种常常性的彻底卷积网络RFCN,用于处理在极低光照条件下拍摄的突发照片,并得到具备改善亮度的去噪图像。咱们的模型将原始突发图像直接映射到sRGB输出,以产生最佳图像或生成多帧去噪图像序列。事实证实,这个过程可以完成低级别的去噪任务,以及色彩校订和加强的高级任务,全部这些都是经过咱们的网络进行端到端处理。咱们的方法取得了比现有技术方法更好的结果。此外,咱们已经应用了由一种类型的相机训练的模型,而不对由不一样相机捕获的照片进行微调,而且已经得到了相似的端到端加强。

GradMask: Reduce Overfitting by Regularizing Saliency
Authors Becks Simpson, Francis Dutil, Yoshua Bengio, Joseph Paul Cohen
因为样本太少或模型参数太多,过分拟合会抑制将预测推广到新数据的能力。在医学成像中,当特征被错误地指定为重要性(例如,不一样的医院特定工件)时,这可能发生,致使来自不具备这些特征的不一样机构的新数据集的不良性能,这是不指望的。大多数正则化方法没有明确地惩罚这些特征与目标类的错误关联,所以没法解决此问题。咱们提出了一种正则化方法GradMask,当它们与病变分割不一致时,它惩罚从分类器梯度推断的显着性图。这能够防止非肿瘤相关特征有助于不健康样本的分类。咱们证实,与没有GradMask的基线相比,这种方法能够将测试精度提升到1 3之间,代表它对减小过分拟合有影响。

Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting
Authors Yanhong Zeng, Jianlong Fu, Hongyang Chao, Baining Guo
高质量的图像修复须要填充具备合理内容的损坏图像中的缺失区域。现有做品要么经过复制图像块来填充区域,要么从区域上下文生成语义连贯的块,而忽略了视觉和语义合理性都是高度需求的事实。在本文中,咱们提出了一个金字塔上下文编码器网络PEN网络,用于深度生成模型的图像修复。 PEN Net创建在U Net结构之上,它能够经过从全分辨率输入编码上下文语义来恢复图像,并将学习的语义特征解码回图像。具体地,咱们提出了金字塔上下文编码器,其经过关注从高级语义特征映射逐步学习区域亲和性,并将学习的注意力转移到先前的低级特征映射。因为缺失的内容能够经过金字塔方式从深度到浅度的注意力转移来填充,所以能够确保用于图像修复的视觉和语义一致性。咱们进一步提出了一种多尺度解码器,其具备深度监督的金字塔损失和对抗性损失。这样的设计不只致使训练中的快速收敛,并且在测试中产生更真实的结果。对各类数据集的普遍实验代表,所提出的网络具备优越的性能

Super Resolution Convolutional Neural Network Models for Enhancing Resolution of Rock Micro-CT Images
Authors Ying Da Wang, Ryan Armstrong, Peyman Mostaghimi
基于超分辨率卷积神经网络的单图像超分辨率SISR技术SRCNN应用于砂岩和碳酸盐岩的微观计算机断层扫描μCT图像。数字岩石成像受到扫描装置的能力的限制,致使分辨率和视野之间的折衷,而且在该研究中测试的超分辨率方法旨在补偿这些限制。 SRCNN型号SR Resnet,加强型深度SR EDSR和宽激活深度SR WDSR用于4x下采样图像的数字岩石超分辨率1 DRSRD1数据集,包括2000个高分辨率800x800 Bentheimer砂岩和Estaillades碳酸盐的原始微CT图像。通过训练的模型应用于数据集内的验证和测试数据,与双三次插值相比,图像质量提升了3.5 dB,全部测试模型的性能均在0.1 dB范围内。差别图表示在训练模型范围内的图像中彻底恢复边缘清晰度,仅有高频噪声相关的细节损失。咱们发现除了生成高分辨率图像以外,应用于合成降级图像的超分辨率方法的有益反作用是去除图像噪声,同时恢复有利于分割过程的边缘锐度。该模型还针对Bentheimer岩石的真实低分辨率图像进行了测试,并经过图像加强来解释天然噪声和模糊。 SRCNN方法被证实在这些状况下充当图像分割的预处理器,这天然致使未来进一步开发和训练直接分割图像的模型。 SRCNN在岩石图像上的图像恢复具备比传统方法更高的质量,而且代表SRCNN方法是数字岩石工做流程中可行的处理步骤。

Deep Neural Network Based Hyperspectral Pixel Classification With Factorized Spectral-Spatial Feature Representation
Authors Jingzhou Chen, Siyu Chen, Peilin Zhou, Yuntao Qian
深度学习因为其产生深度特征表示的能力而被普遍用于高光谱像素分类。然而,如何构建适用于高光谱数据的高效强大的网络仍在探索中。本文设计了一种新的神经网络模型,充分利用高光谱数据的光谱空间结构。首先,咱们经过具备监督预训练方案的子网从丰富但冗余的光谱带中提取基于像素的固有特征。其次,为了利用像素之间的局部空间相关性,咱们将先前的子网共享为图像块中每一个像素的光谱特征提取器,以后将片中全部像素的光谱特征组合并馈入随后的分类子网。最后,整个网络进一步微调,以提升其分类性能。特别地,谱空间分解方案应用于咱们的模型架构中,使得网络大小和参数的数量远小于用于高光谱图像分类的现有光谱空间深度网络。对高光谱数据集的实验代表,与一些现有的深度学习方法相比,咱们的方法在网络尺寸更小,参数更少的状况下实现了更好的分类结果。

Fashion-AttGAN: Attribute-Aware Fashion Editing with Multi-Objective GAN
Authors Qing Ping, Jiangbo Yuan, Bing Wu, Wanying Ding
在本文中,咱们将属性感知时尚编辑(一种新颖的任务)引入时尚领域。咱们从新定义了AttGAN的整体目标,并为这项新任务提出了Fashion AttGAN模型。为此任务构建了一个数据集,其中包含14,221和22个属性,这些属性已公开可用。实验结果代表咱们的Fashion AttGAN对原始AttGAN的时尚编辑有效。

A Bayesian Perspective on the Deep Image Prior
Authors Zezhou Cheng, Matheus Gadelha, Subhransu Maji, Daniel Sheldon
最近将深度图像先验做为天然图像的先验介绍。它将图像表示为具备随机输入的卷积网络的输出。对于推理,执行梯度降低以调整网络参数以使输出匹配观察。该方法在一系列图像重建任务中产生良好性能。咱们证实了深度图像先验渐近地等于先前的静态高斯过程,由于网络的每一层中的信道数量变为无穷大,并导出相应的内核。这通知贝叶斯方法进行推理。咱们代表,经过使用随机梯度Langevin进行后验推断,咱们避免了早期中止的须要,这是当前方法的缺点,而且改善了去噪和重绘任务的结果。咱们在许多一维和二维信号重建任务中说明了这些直觉。

Point cloud registration: matching a maximal common subset on pointclouds with noise (with 2D implementation)
Authors Jorge Arce Garro, David Jim nez L pez
咱们分析了肯定2D中的2个给定点云(具备任何不一样的基数和任意数量的异常值)是否具备可经过刚性运动匹配的相同大小的子集的问题。这个问题很重要,例如,在使用不完整数据的指纹匹配时。咱们提出了一种算法,在对噪声容限的假设下,容许找到最大可能大小的相应子云。咱们的程序优化了这样作的潜在能量函数,这首先受到静电中点电荷之间发生的潜在能量相互做用的启发。

Decoupling Localization and Classification in Single Shot Temporal Action Detection
Authors Yupan Huang, Qi Dai, Yutong Lu
视频时间动做检测旨在临时定位和识别未修剪视频中的动做。现有的一阶段方法主要集中于统一两个子任务,即行动建议的本地化和经过彻底共享的主干对每一个提议的分类。然而,在一个网络中封装两个子任务的全部组件的这种设计可能经过忽略每一个子任务的专用特性来限制训练。在本文中,咱们提出了一种新的解耦单次射击时间动做检测解耦SSAD方法,经过在一级方案中解耦定位和分类来缓解这种问题。特别地,两个单独的分支被并行设计以使每一个组件可以私下拥有表示以进行精肯定位或分类。每一个分支经过将解卷积应用于主流的特征映射来生成一组动做锚点层。每一个分支经过将解卷积应用于主流的特征映射来生成一组特征映射。所以,结合来自较深层的高级语义信息以加强特征表示。咱们对THUMOS14数据集进行了大量实验,并展现了优于现有技术方法的卓越性能。咱们的代码可在线获取。

Photofeeler-D3: A Neural Network with Voter Modeling for Dating Photo Rating
Authors Agastya Kalra, Ben Peterson
在过去的二十年中,在线约会已经得到了极大的欢迎,所以选择最好的约会档案照片比以往任什么时候候都更加剧要。为此,咱们建议Photofeeler D3成为第一个卷积神经网络,对照片的评分进行评分,以肯定该主题的智能性,可信度和吸引力。咱们将此任务命名为约会照片评级DPR。 Photofeeler D3利用Photofeeler的约会数据集PDD拥有超过100万张图像和数千万张选票,与现有的DPR在线AI平台相比,人工投票的相关性高出28倍。咱们介绍了选民建模的新概念,并用它来实现这个基准。咱们模型的吸引力输出也可用于面部美容预测FBP并实现最早进的结果。若是不对HotOrNot数据集中的单个图像进行训练,咱们能够得到比文献中任何模型高10的相关性。最后,咱们证实了Photofeeler D3与10个非标准化和未加权的人类投票达到了大体相同的相关性,使其成为DPR和FBP这两项任务的最新技术。

Shortest Paths in HSI Space for Color Texture Classification
Authors Mingxin Jin, Yongsheng Dong, Lintao Zheng, Lingfei Liang, Tianyu Wang, Hongyan zhang
颜色纹理表示是纹理分类任务中的重要步骤。最短路径用于从RGB和HSV颜色空间中提取颜色纹理特征。在本文中,咱们建议在HSI空间中使用最短路径来构建用于分类的纹理表示。特别地,两个无向图分别用于模拟H通道和S和I通道,以便表示颜色纹理图像。此外,根据纹理图像的不一样比例和方向,经过使用四对像素来构造最短路径。彩色Brodatz和USPTex数据库的实验结果代表,咱们提出的方法是有效的,Brodatz数据库中的最高分类准确率为96.93。

Single Pixel Reconstruction for One-stage Instance Segmentation
Authors Jinghan Yao, Zhou Yu, Jun Yu, Dacheng Tao
对象实例分割是计算机视觉中最基本但具备挑战性的任务之一,它须要像素级图像理解。大多数现有方法经过将掩模预测分支添加到具备区域提议网络RPN的两级对象检测器来解决该问题。虽然产生了良好的分割结果,但这两种方法的效率远远不能使人满意,限制了它们在实践中的适用性。在本文中,咱们提出了一个单阶段框架SPRNet,它经过将单个像素重建SPR分支引入现成的一级检测器来执行有效的实例分割。添加的SPR分支直接从卷积特征图中的每一个单个像素重建像素级掩模。使用相同的ResNet 50骨干网,SPRNet以更高的推理速度实现了与掩模R CNN至关的掩模AP,而且与RetinaNet相比,在每一个尺度上都得到了盒AP的全面改进。

What I See Is What You See: Joint Attention Learning for First and Third Person Video Co-analysis
Authors Huangyue Yu, Minjie Cai, Yunfei Liu, Feng Lu
近年来,经过可穿戴式相机从第一人称视角捕获愈来愈多的视频。除了传统的第三人称视频以外,这种第一人称视频提供了附加信息,所以具备普遍的应用。然而,用于分析第一人称视频的技术能够与第三人视频的技术根本不一样,而且从两个视点探索共享信息甚至更加困难。在本文中,咱们提出了一种新的第一和第三人称视频合做分析方法。咱们方法的核心是联合关注的概念,指示在不一样视点中对应于共享关注区域的可学习表示,从而连接两个视点。为此,咱们开发了一个具备三重损失的多分支深度网络,经过自我监督学习从第一和第三人视频中提取共同关注。咱们使用交叉视点视频匹配任务评估公共数据集上的方法。咱们的方法在质量和数量上都优于现有技术。咱们还经过一系列额外的实验证实了学习的联合注意力如何使各类应用受益。

Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression
Authors Xinyao Wang, Liefeng Bo, Li Fuxin
热图回归已成为局部化面部标志的主流方法之一。随着卷积神经网络CNN和递归神经网络RNN在解决计算机视觉任务中变得愈来愈流行,已经对这些架构进行了普遍的研究。然而,不多研究热图回归的损失函数。在本文中,咱们分析了面部对齐问题中热图回归的理想损失函数属性。而后咱们提出一种新的损失函数,称为自适应翼损失,它可以使其形状适应不一样类型的地面真实热图像素。这种适应性将前景像素上的损失减小到零,同时在背景像素上留下一些损失。为了解决前景像素和背景像素之间的不平衡问题,咱们还提出了加权损失图,它在前景和难以处理的背景像素上分配高权重,以帮助训练过程更多地关注对地标定位相当重要的像素。为了进一步提升面部对准精度,咱们引入边界预测和CoordConv与边界坐标。包括COFW,300W和WFLW在内的不一样基准测试的普遍实验代表,咱们的方法在各类评估指标上的表现优于现有技术水平。此外,自适应翼损也有助于其余热图回归任务。代码将公开发布。

Real Image Denoising with Feature Attention
Authors Saeed Anwar, Nick Barnes
深度卷积神经网络在包含空间不变噪声合成噪声的图像上表现更好,可是它们的性能受限于真实的噪声照片而且须要多级网络建模。为了提升去噪算法的实用性,本文提出了一种采用模块化结构的新型单级盲实时图像去噪网络RIDNet。咱们在残差结构上使用残差来减轻低频信息的流动,并应用特征注意来利用信道依赖性。此外,针对19个最早进算法的三个合成和四个真实噪声数据集的定量度量和视觉质量方面的评估证实了咱们的RIDNet的优越性。

NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection
Authors Golnaz Ghiasi, Tsung Yi Lin, Ruoming Pang, Quoc V. Le
用于物体检测的现有技术卷积架构是手动设计的。在这里,咱们的目标是为对象检测学习更好的特征金字塔网络架构。咱们采用神经架构搜索,在一个涵盖全部跨尺度链接的新型可扩展搜索空间中发现新的特征金字塔架构。这个被发现的架构名为NAS FPN,由自上而下和自下而上链接组合而成,能够跨越秤进行融合。与现有技术的对象检测模型相比,NAS FPN与RetinaNet框架中的各类骨干模型相结合,实现了更好的准确性和延迟权衡。与具备32的MobileNetV2模型的最早进的SSDLite相比,NAS FPN将移动检测精度提升了2 AP,而且实现了48.3 AP,其超过了掩模R CNN 10检测精度,而且计算时间更短。

Custom Video-Oculography Device and Its Application to Fourth Purkinje Image Detection during Saccades
Authors Evgeniy Abdulin, Lee Friedman, Oleg Komogortsev
咱们构建了一个基于自定义视频的眼动仪,将每一个视频帧保存为全分辨率图像MJPEG。能够离线处理图像以检测眼部特征,包括瞳孔和角膜反射第一浦肯野图像,P1位置。能够进行用于检测瞳孔和角膜反射的多种算法的比较。该系统提供高度灵活的刺激建立,混合图形,图像和视频刺激。咱们能够根据所需的图像质量和帧速率更换相机和红外照明器。使用该系统,咱们检测到第四浦肯野图像P4在帧中的位置。咱们代表,当咱们经过计算P1 P4来估计凝视时,信号与用DPI眼动仪估计的凝视很好地比较,DPI眼动仪本地检测并跟踪P1和P4。

Polarimetric Thermal to Visible Face Verification via Self-Attention Guided Synthesis
Authors Xing Di, Benjamin S. Riggan, Shuowen Hu, Nathaniel J. Short, Vishal M. Patel
极化热到可见面验证须要匹配包含显着域差别的两个图像。最近的几种方法试图从热图像合成可见面以进行交叉模态匹配。在本文中,咱们采用不一样的方法,而不是只关注从热面合成可见面,咱们还建议从可见面合成热面。咱们的直觉是基于这样一个事实,即热图像还包含一些关于验证人的判别信息。来自预训练的卷积神经网络CNN的深度特征从原始图像和合成图像中提取。而后融合这些特征以生成模板,而后将其用于验证。所提出的合成网络基于自我关注生成对抗网络SAGAN,其基本上容许有效的注意力引导图像合成。对ARL极化热面数据集的大量实验代表,所提出的方法实现了最早进的性能。

Characterizing the Variability in Face Recognition Accuracy Relative to Race
Authors Krishnapriya K. S, Kushal Vangara, Michael C. King, Vitor Albiero, Kevin Bowyer
最近的许多新闻标题都将人脸识别技术称为偏见或种族主义。咱们报告了对MORPH数据集的非洲裔美国人和高加索人图像群组之间人脸识别准确度差别的系统调查。咱们发现,对于所考虑的全部四个匹配者,冒名顶替者和真实分布在群组之间在统计上显着不一样。对于固定的决策阈值,非裔美国人图像群组具备较高的错误匹配率和较低的错误非匹配率。 ROC曲线以相同的错误匹配率比较验证速率,但不一样的群组在不一样的阈值处实现相同的错误匹配率。这意味着ROC比较与使用固定决策阈值的操做方案无关。咱们证实,对于ResNet匹配器,这两个队列的冒充者和真实分布大体相等。使用ICAO合规性做为图像质量的标准,咱们发现初始图像群组具备不等的高质量图像率。符合ICAO标准的原始图像群组子集显示出改进的准确性,主要效果是下降真实分布的低类似性尾部。

A Realistic Dataset and Baseline Temporal Model for Early Drowsiness Detection
Authors Reza Ghoddoosian, Marnim Galib, Vassilis Athitsos
嗜睡会使许多司机和工人的生命处于危险之中。设计实用且易于部署的真实世界系统以检测困倦的发生是很是重要的。在本文中,咱们解决了早期困倦检测,它能够提供早期警报并为受试者提供充足的反应时间。咱们提供了一个包含60个主题的大型公共真实数据集,其视频片断标记为警报,低警戒或昏昏欲睡。该数据集包含大约30小时的视频,内容范围从嗜睡的微妙迹象到更明显的。咱们还对数据集的时间模型进行基准测试,该模型具备较低的计算和存储需求。咱们提出的方法的核心是分层多尺度长短时间记忆HM LSTM网络,其由依次检测到的闪烁特征馈送。咱们的实验证实了连续眨眼特征和困倦之间的关系。在实验结果中,咱们的基线方法比人类判断产生更高的准确性。

Automatic adaptation of object detectors to new domains using self-training
Authors Aruni RoyChowdhury, Prithvijit Chakrabarty, Ashish Singh, SouYoung Jin, Huaizu Jiang, Liangliang Cao, Erik Learned Miller
该工做解决了现有对象检测器对新目标域的无监督调整问题。咱们假设此域中的大量未标记视频随时可用。咱们经过使用来自现有检测器的高置信度检测自动得到目标数据上的标签,并经过使用跟踪器利用时间线索得到的硬错误分类示例进行扩充。而后,这些自动得到的标签用于从新训练原始模型。提出了修改后的知识蒸馏损失,而且咱们研究了从目标域向训练样本分配软标签的几种方法。咱们的方法是根据挑战性的面部和行人检测任务进行经验评估,面部检测器在WIDER Face上进行训练,该面部检测器由从网络爬行的高质量图像组成,适用于大型监视数据集,行人检测器使用清晰的白天图像进行训练。 BDD 100K驾驶数据集适用于全部其余场景,以下雨,有雾,夜间。咱们的结果证实告终合从跟踪得到的硬实例,经过蒸馏损失与硬标签使用软标签的优势的有用性,而且显示出有但愿的性能做为对象检测器的无监督域自适应的简单方法,对超参数的依赖性最小。

Fast Inference in Capsule Networks Using Accumulated Routing Coefficients
Authors Zhen Zhao, Ashley Kleinhans, Gursharan Sandhu, Ishan Patel, K. P. Unnikrishnan
咱们经过利用关于连接相邻网络层之间的胶囊的路由系数的关键洞察,提出了一种用于胶囊网络封装网络中的快速推理的方法。因为路由系数负责将对象部分分配给总体,而且整个对象一般包含相似的类内和不一样的类间部分,所以路由系数倾向于为每一个对象类造成惟一的签名。为了快速推理,首先使用来自训练数据集的示例以一般的方式训练网络。以后,与训练样本相关联的路由系数被离线累积并用于建立一组主路由系数。在推理期间,使用这些主路由系数代替动态计算的路由系数。咱们的方法经过单个矩阵乘法运算有效地替换了动态路由过程当中的for循环迭代,从而显着提升了推理速度。与动态路由过程相比,快速推理下降了MNIST,背景MNIST,时尚MNIST和旋转MNIST数据集的测试精度,小于0.5,CIFAR10大约为5。

Automatic alignment of surgical videos using kinematic data
Authors H. Ismail Fawaz, G. Forestier, J. Weber, F. Petitjean, L. Idoumghar, P. Muller
在过去的一百年中,经典的教学方法是看一个,作一个,教一个已经统治了全世界的外科教育系统。随着手术室2.0的出现,在手术期间记录视频,运动学和许多其余类型的数据变得容易,所以容许人工智能系统被部署并用于外科和医疗实践。最近,外科视频已被证实可提供同伴辅导的结构,使新手学员可以经过重播这些视频向有经验的外科医生学习。然而,外科手术持续时间和执行中的高操做员间可变性使得从比较新手到专家外科手术视频的学习成为很是困难的任务。在本文中,咱们提出了一种新技术,能够根据相应的运动多变量时间序列数据的对齐来对齐多个视频。经过利用动态时间扭曲测量,咱们的算法同步一组视频,以显示以不一样速度执行的相同手势。咱们相信所提议的方法是对现有的手术学习工具的有价值的补充。

Brain Tumor Segmentation on MRI with Missing Modalities
Authors Yan Shen, Mingchen Gao
来自磁共振成像的脑肿瘤分割MRI是早期诊断的关键技术。然而,不像BraTS数据集中那样具备完整的四种模态,在临床情景中一般缺乏模态。咱们设计了一种脑肿瘤分割算法,该算法对于没有任何形态是稳健的。咱们的网络包括信道独立编码路径和特征融合解码路径。咱们经过信道丢失使用自我监督训练,并在特征地图上提出一种新的域自适应方法,以从丢失的信道中恢复信息。咱们的结果代表,分割的质量取决于缺乏哪一种形态。此外,咱们还讨论并可视化每种模态对分割结果的贡献。他们的贡献与专家筛选程序一致。

A deep learning model for early prediction of Alzheimer's disease dementia based on hippocampal MRI
Authors Hongming Li, Mohamad Habes, David A. Wolk, Yong Fan
引言在基线时,预测什么时候以及符合轻度认知障碍MCI标准的个体将最终发展为阿尔茨海默病AD痴呆症具备挑战性。方法基于2146名受试者的MRI扫描开发和验证深度学习方法803用于训练,1343用于验证以预测MCI受试者在事件分析设置中进展为AD痴呆。结果深度学习时间事件模型预测个体受试者进展为AD痴呆,其中一致性指数C指数为0.762,对439例ADNI测试MCI受试者,随访时间为6至78个月四分位数24,42,54,C指数为0.781在40名AIBL测试MCI受试者,随访时间从18 54个月四分之一18,36,54。预测的进展风险还将个体受试者汇集成亚组,其与AD痴呆的进展时间显着不一样p 0.0002。当基于深度学习的进展风险与基线临床测量相结合时,得到了用于预测AD痴呆进展C指数0.864的改进性能。结论咱们的方法提供了一种具备成本效益和准确的预后手段,并可能促进临床试验中与可能在特定时间段内进展的个体的登记。

Focus Is All You Need: Loss Functions For Event-based Vision
Authors Guillermo Gallego, Mathias Gehrig, Davide Scaramuzza
事件相机是新颖的视觉传感器,输出像素级亮度变化事件而不是传统视频帧。这些异步传感器提供了优于传统相机的若干优势,例如高时间分辨率,很是高的动态范围和无运动模糊。为了解锁这种传感器的潜力,最近提出了运动补偿方法。咱们提出了二十二个目标函数的集合和分类,以分析运动补偿方法中的事件对齐图1。咱们将它们称为焦点丢失功能,由于它们与焦点应用中传统形状中使用的功能有很强的联系。建议的损失功能容许将成熟的计算机视觉工具带到事件相机领域。咱们比较了公开数据集上全部损失函数的准确性和运行时性能,并得出结论:方差,梯度和拉普拉斯量值是最佳损失函数之一。损失函数的适用性显示在多个任务旋转运动,深度和光流估计上。建议的焦点丢失功能能够解锁事件相机的突出特性。

Estimation of Linear Motion in Dense Crowd Videos using Langevin Model
Authors Shreetam Behera, Debi Prosad Dogra, Malay Kumar Bandyopadhyay, Partha Pratim Roy
社会和文化活动中的人群聚会随着人口的增长而日新月异。经过计算机视觉和专家决策系统进行监控有助于了解大型聚会中的人群现象。了解人群现象有助于及早识别不须要的事件及其预防。运动流是重要的人群现象之一,能够有助于描述人群行为。流能够用于理解人群中的不稳定性。然而,因为人群移动中的随机性和传感设备的限制,提取运动流是一项具备挑战性的任务。此外,若是随机性很高,诸如光流的低级特征可能会产生误导。在本文中,咱们提出了一个基于Langevin方程的新模型来分析密集拥挤场景的视频中的线性主导流。咱们假设一个力模型有三个组成部分,即外力,约束漂移力和扰动力。发现这些力足以描述密集人群视频中的线性或近线性运动。与现有的流行人群分割方法相比,该方法明显更快。已经在公开可用的数据集上以及使用咱们的数据集对所提出的模型进行了评估。已经观察到,与现有技术相比,所提出的方法可以以更高的精度估计和分割密集人群中的线性流,而且计算开销显着下降。

End-to-End Robotic Reinforcement Learning without Reward Engineering
Authors Avi Singh, Larry Yang, Kristian Hartikainen, Chelsea Finn, Sergey Levine
深度神经网络模型和强化学习算法的结合使得有可能学习直接读取原始感受输入的机器人行为的策略,例如相机图像,有效地将估计和控制都包含在一个模型中。然而,强化学习的现实世界应用必须经过手动编程的奖励函数来指定任务的目标,这在实践中须要设计相同的感知管道,端到端强化学习有望避免,或者检测环境使用其余传感器来肯定任务是否已成功执行。在本文中,咱们提出了一种方法,经过使机器人从少许成功结果的示例中学习,而后主动请求查询,机器人向用户显示状态并询问,从而消除对奖励规范的手动工程的须要。用于标签以肯定该状态是否表示任务的成功完成。虽然为每一个州申请标签等于要求用户手动提供奖励信号,但咱们的方法只须要在培训期间看到的一小部分状态的标签,使其成为学习技能的有效和实用的方法,而无需手动设计奖励。咱们在现实世界的机器人操做任务上评估咱们的方法,其中观察包括由机器人的相机观察的图像。在咱们的实验中,咱们的方法有效地学习直接从图像中排列对象,放置书籍和悬垂布料,而无需任何手动指定的奖励功能,而且与现实世界仅进行了1 4小时的交互。

Unsupervised Discovery of Multimodal Links in Multi-Image, Multi-Sentence Documents
Authors Jack Hessel, Lillian Lee, David Mimno
图像和文本在网络上的任何地方都会出现,但图像和句子或其余文档内文本单元之间的显式连接一般不会被用户注释。咱们提出了成功发现图像句子关系的算法,而不依赖于任何显式的多模态注释。咱们在七个不一样难度的数据集上探索了咱们的方法的几种变体,范围从人群工做者过后标题的图像到天然发生的用户生成的多模式文档,其中插图和单个文本单元之间的对应关系可能不是一对一的。咱们发现基于识别图像和句子组合是否出如今文档中的结构化训练目标足以在测试时预测特定句子与同一文档内的特定图像之间的连接。

Persistence Curves: A canonical framework for summarizing persistence diagrams
Authors Yu Min Chung, Austin Lawson
持久性图是拓扑数据分析TDA领域的主要工具。它们包含有关数据形状的丰富信息。因为空间复杂,在持久性图空间中使用机器学习算法证实是具备挑战性的。所以,总结和矢量化这些图表是目前在TDA中研究的一个重要主题。在这项工做中,咱们提供了一个总结框架的整体框架,咱们称之为Persistence Curves PC。主要观点是所谓的持久同源的基本引理,它源于经典的老年统治。在这个框架下,某些众所周知的摘要,例如持久性Betti数和持久性格局,都是PC的特例。此外,咱们证实了对通常家庭PC的严格约束。特别是,某些PC系列在额外的假设下认可稳定性。最后,咱们将PC应用于四个众所周知的纹理数据集上的纹理分类。结果优于现有的几种TDA方法。

Three scenarios for continual learning
Authors Gido M. van de Ven, Andreas S. Tolias
标准的人工神经网络遭受众所周知的灾难性遗忘问题,使机器学习难以持续或终身学习。近年来,已经提出了许多用于连续学习的方法,可是因为评估协议的差别,难以直接比较它们的性能。为了实现更有条理的比较,咱们根据是否在测试时提供了任务标识以及是否必须推断出任务标识来描述三种持续学习方案。能够根据每一个场景执行任何明肯定义的任务序列。使用拆分和置换的MNIST任务协议,对于每一个场景,咱们对最近提出的连续学习方法进行了普遍的比较。咱们在难度和不一样方法的效率方面证实了三种情景之间的实质性差别。特别是,当必须推断出任务标识,即类增量学习时,咱们发现基于正则化的方法,例如弹性权重合并失败,而且彷佛须要重现先前经验的表示来解决该场景。

RES-PCA: A Scalable Approach to Recovering Low-rank Matrices
Authors Chong Peng, Chenglizhao Chen, Zhao Kang, Jianbo Li, Qiang Cheng
强大的主成分分析RPCA因其在恢复低秩矩阵方面的强大功能以及各类现实问题中的成功应用而备受关注。当前现有技术的算法一般须要求解大矩阵的奇异值分解,其一般至少具备二次或甚至三次复杂度。这个缺点限制了RPCA在解决现实世界问题中的应用。为了克服这个缺点,在本文中,咱们提出了一种新型的RPCA方法RES PCA,它在数据大小和维度上都具备线性效率和可扩展性。为了进行比较,AltProj是RPCA的现有可扩展方法,须要精确知道真正的等级,不然可能没法恢复低等级矩阵。相比之下,即便两种方法都有效,咱们的方法也可使用或不知道真正的等级,咱们的方法更快。已经进行了大量的实验,而且证实了所提出的方法在定量和视觉质量方面的有效性,这代表咱们的方法适合在任何应用管道中用做RPCA的轻量级,可扩展的组件。

Discriminative Regression Machine: A Classifier for High-Dimensional Data or Imbalanced Data
Authors Chong Peng, Qiang Cheng
咱们在本文中引入了一种监督分类的判别回归方法。它在考虑类之间的判别性的同时估计表示模型,从而可以准确地推导出分类信息。这种新型的回归模型经过明确地结合判别信息来扩展示有模型,例如岭,套索和组套索。做为一个特例,咱们专一于一个容许封闭形式分析解决方案的二次模型。相应的分类器称为判别回归机DRM。进一步为DRM创建了三种迭代算法,以提升实际应用的效率和可扩展性。咱们的方法和算法适用于通常类型的数据,包括图像,高维数据和不平衡数据。咱们将DRM与当前最早进的分类器进行比较。咱们普遍的实验结果代表DRM具备优越的性能,并证明了该方法的有效性。

Object-Oriented Dynamics Learning through Multi-Level Abstraction
Authors Guangxiang Zhu, Jianhao Wang, Zhizhou Ren, Chongjie Zhang
用于学习动做条件动力学的基于对象的方法已经证实了泛化和可解释性的前景。然而,现有方法遭受具备多个动态对象的常见环境的结构限制和优化困难。在本文中,咱们提出了一种新颖的自监督学习框架,称为多级抽象面向对象预测器MAOP,它采用三级学习架构,可以从原始视觉观察中进行有效的基于对象的动态学习。咱们还为MAOP设计了一种空间时间关系推理机制,以支持实例级动态学习并处理部分可观察性。咱们的研究结果代表,MAOP在样本效率方面明显优于之前的方法,而且在学习环境模型的新环境中具备普遍性。咱们还证实,学习动力学模型可以在看不见的环境中进行有效规划,与真实环境模型相比。此外,MAOP学习语义和视觉上可解释的解开的表示。

Counterfactual Visual Explanations
Authors Yash Goyal, Ziyan Wu, Jan Ernst, Dhruv Batra, Devi Parikh, Stefan Lee
反事实查询一般具备形式对于状况X,为何结果是Y而不是Z.对这种查询的反事实解释或回应的形式若是X是X,则结果将是Z而不是Y.

Suction Grasp Region Prediction using Self-supervised Learning for Object Picking in Dense Clutter
Authors Quanquan Shao, Jie Hu, Weiming Wang, Yi Fang, Wenhai Liu, Jin Qi, Jin Ma
本文重点介绍杂乱场景中的机器人拾取任务。因为姿式,堆垛类型和拣选状况下复杂背景的多样性,在抓住它们以前很难识别和估计它们的姿式。在这里,本文结合Resnet和U网结构,一个卷积神经网络CNN的特殊框架,预测采摘区域无需识别和姿态估计。它使机器人拣选系统从头开始学习拣选技巧。与此同时,咱们经过在线样本对端到端的网络进行培训。在本文的最后,进行了几个实验来证实咱们的方法的性能。

Combining RGB and Points to Predict Grasping Region for Robotic Bin-Picking
Authors Quanquan Shao, Jie Hu
本文重点介绍杂乱场景中的机器人拾取任务。因为物体的多样性和放置的杂乱,在抓握以前很难识别和估计它们的姿式。在这里,咱们使用U net,一种特殊的卷积神经网络CNN,将RGB图像和深度信息结合起来预测拾取区域,而无需识别和姿态估计。比较了网络的各类视觉输入的效率,包括RGB,RGB D和RGB点。咱们发现RGB点输入能够得到95.74的精度。

Predicting Fluid Intelligence of Children using T1-weighted MR Images and a StackNet
Authors Po Yu Kao, Angela Zhang, Michael Goebel, Jefferson W. Chen, B.S. Manjunath
在这项工做中,咱们利用T1加权MR图像和StackNet来预测青少年的流体智力。咱们的框架包括特征提取,特征标准化,特征去噪,特征选择,训练StackNet和预测流体智能。提取的特征是不一样脑分割区域中不一样脑组织的分布。拟议的StackNet由三层和11个模型组成。每一个图层都使用包含输入图层在内的全部先前图层的预测。建议的StackNet在公共基准青少年脑认知发展神经认知预测挑战2019上进行测试,并在组合训练和验证集上实现了82.42的平均绝对偏差,具备10倍交叉验证。

Exploiting Computation Power of Blockchain for Biomedical Image Segmentation
Authors Boyang Li, Changhao Chenli, Xiaowei Xu, Taeho Jung, Yiyu Shi
基于深度神经网络的生物医学图像分割DNN是一种有助于临床诊断的有前景的方法。这种方法须要巨大的计算能力,由于这些DNN模型是复杂的,而且训练数据的大小一般很是大。随着基于工做证实PoW的区块链技术被普遍使用,维持了大量的计算能力PoW共识。在本文中,咱们提出了一种设计,利用区块链矿工的计算能力进行生物医学图像分割,让矿工进行图像分割做为有用工做PoUW的证实,而不是计算使用较少的哈希值。这项工做经过解决相关其余方面的各类限制而与其余产品区别开来。如第5节所示的开销评估代表,对于U net和FCN,数字信号特性的平均开销分别为1.25秒和0.98秒,以及平均开销。网络分别为3.77秒和3.01秒。这些定量实验结果证实,数字签名和网络的开销很小,可与其余现有的PoUW设计相媲美。

Natural Language Semantics With Pictures: Some Language & Vision Datasets and Potential Uses for Computational Semantics
Authors David Schlangen
在深度学习革命的推进和推进下,近年来已经看到引入了更大的用天然语言表达注释的图像语料库。咱们经过将图像视为天然语言表达的语义标注,采用一种反映一般方向性的视角,对这些语料库进行了调查。咱们讨论能够从语料库中导出的数据集,以及能够在那些上定义的计算语义学家可能感兴趣的任务。在这里,咱们利用语料库提供的关系,即表达和图像之间的联系,以及连接到同一图像和关系的两个表达之间的关系,咱们能够在表达之间或图像之间添加类似关系。具体来讲,咱们经过这种方式代表,咱们能够建立可用于学习和评估词汇和构成基础语义的数据,而且咱们代表连接到相同的图像关系会跟踪注释器即便在没有注释器时也能识别的语义蕴涵关系。连接图像做为证据。最后,做为这种方法可能带来的好处的一个例子,咱们代表基于示例模型的暗示方法赛过一个基于某些派生数据集的简单分布空间,同时有助于解释。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


在这里插入图片描述
pic from pixels.com

相关文章
相关标签/搜索