Facebook人工智能实验室提出「全景分割」，实现实例分割和语义分割的统一

时间 2020-08-18 标签人工智能实验室提出全景分割实现实例语义统一

原文来源：arxivphp

做者：Alexander Kirillov、Kaiming He一、Ross Girshick、Carsten Rother、Piotr Dollarhtml

「雷克世界」编译：嗯~阿童木呀、KABUDA
算法

现现在，咱们提出并研究了一种新的“全景分割”（Panoramic segmentation，PS）任务。能够这样说，全景分割将传统意义上相互独立的实例分割（检测和分割每一个目标实例）和语义分割（为每一个像素分配一个类标签）任务统一块儿来了。这种统一是天然的，并在一种孤立的研究状态中呈现出一种既不存在于实例中，也不存在于语义分割中的全新的挑战。为了衡量任务执行的性能表现，咱们引入了一种全景质量（panoptic quality ，PQ）度量标准，并代表它很是简单且具备可解释性。在使用PQ的状况下，咱们在三个现有数据集上研究了人类性能表现，其中，这些数据集要有必要的PS注释，这将有助于咱们对任务和度量标准进行更好的理解。咱们还提出了一种基本的算法方法，将实例和语义分割的输出结合到全景输出中，并将其与人类的性能表现进行比较。能够这样说，在分割和视觉识别方面，PS能够做为其将来挑战的基础。咱们的目标是经过邀请社区探索所提出的全景分割任务从而推进在全新方向的研究。api

对于给定的（a）图像，咱们展现了如下任务的参照标准：（b）语义分割（每一个像素具备类标签），（c）实例分割（每一个目标具备掩码和类标签），以及（d）提出的全景分割（PS）任务（每一个像素具备类+实例标签）。全景分割泛化了语义和实例分割，并要求识别和描绘图像中的每一个可见的目标和区域。咱们但愿这个统一的分割任务可以提出新的挑战，并创造新的方法。微信

在计算机视觉发展的早期，things（事物）——诸如人、动物、工具等能够计数的物体，获得了占据主导地位的关注。在质疑这种趋势是否存在智慧性时，Adelson提升了研究系统的重要性，而这种系统可以识别出stuff（材料）——诸如草、天空、道路等相似质地或原料的非晶区域。事物和材料之间的这种二分法一直沿用至今，既反映在视觉识别任务的划分上，也体如今针对事物和材料任务开发的专用算法中。网络

学习材料的任务一般被看做是一项称之为语义分割的任务，见图1b。因为材料是无定形的、不可数的，这个任务被定义为简单地为图像中的每一个像素分配一个类别标签（注意，语义分割将事物类别视为材料）。相比之下，研究事物的任务一般被表述为目标检测或实例分割任务，其目的是检测出每一个目标，并用边界框或分割掩码对其进行描述，参见图1c。虽然这两个视觉识别任务看似相关，可是在数据集、细节和度量标准上有很大的不一样。app

分割瑕疵。图像被缩放和裁剪。顶部行（Vistas图像）：两个注释器都将目标识别为一辆汽车，然而，人将一辆汽车分红了两辆车。底行（Cityscapes图像）：分割是很是模糊的。工具

语义和实例分割之间的分裂致使了这些任务方法中出现了平行分裂。材料分类器一般创建在具备扩张的彻底卷积网络上，而目标检测器一般使用的是目标提案（object proposals），且是基于区域的。在过去的十年中，这些任务的整体算法进展是难以想象的，然而，若是将这些任务孤立起来看，就可能会忽略一些重要的内容。post

在这项研究中，咱们会问：things和stuff之间是否能够和解？是否存在这样一个简单的问题表述，可以优雅地将这两个任务涵盖在内？一个统一的视觉识别系统会是什么样子的呢？性能

分类瑕疵。图像被缩放和裁剪。顶部行（ADE20k图片）：简单的错误分类。底行（Cityscapes图像）：现场是很是困难进行分类的的，有轨电车是正确的分类。其中许多错误难以解决。

考虑到这些问题，咱们提出一个既包含things又包含stuff的新任务。咱们将所获得的任务称为全景分割（PS）。全景的定义是“一个视图中可见的一切”，在咱们的上下文中，全景视图指的是分割的统一的全局视图。PS的任务表达看似简单：图像的每一个像素都必须分配一个语义标签和一个实例ID。具备相同标签和ID的像素属于同一个目标，而对于材料标签而言，实例ID被忽略。参照标准和机器预测都必须有这种形式。见图1d的可视化。

全景分割是语义分割和实例分割的泛化，但引入了新的算法挑战。与语义分割不一样，全景分割须要区分单个目标实例; 这对彻底卷积网络提出了挑战。与实例分割不一样的是，在全景分割中目标分割中必须是非重叠的，这对独立于操做每一个目标的基于区域的方法提出了挑战。并且，这项任务须要同时识别出things和stuff。为全景分割设计一个干净的、端到端的系统是一个开放的问题，须要探索创新的算法思想。

Cityscapes（左二）和ADE20k（右三）的全景分割结果。预测是基于最早进的实例和语义分割算法的合并输出进行的。匹配部分的颜色（IoU> 0.5）（交叉阴影图案表示不匹配的区域，黑色表示未标记的区域）。最呈现的是最好的颜色和变焦。

咱们新的全景分割任务须要一个新的度量标准。咱们努力使咱们的度量标准完整、可解释、简单。或许，使人惊讶的是，对于咱们这看起来复杂的任务，存在一个知足这些性质的天然度量标准。咱们定义了全景质量（PQ）度量标准，而且代表了它能够被分解为两个可解释的术语：分割质量（SQ）和检测质量（DQ），并且还能够进一步细分精度。

因为全景分割的参照标准（ground truth）和算法输出都必须采用相同的形式，所以咱们能够在全景分割上对人类性能（human performance）进行详细的研究。这使咱们可以更详细的了解全景质量度量标准，包括检测与分割的详细分析，以及材料与事物（stuff 和things）的性能对比。而且，测量人体PQ有助于咱们理解机器的性能。这点很是重要，由于它可让咱们监测全景分割中各类数据集上的性能饱和度。

最后，咱们对全景分割的机器性能进行初步研究。为此，咱们肯定了一个简单但可能不是最优的启发式算法，该算法经过一系列后处理步骤（post-processing steps）（其实是一种非最大抑制的复杂形式）将两个独立系统的输出结合起来进行语义和实例分割。咱们的启发式算法为全景分割创建了一个基线，并为咱们提供了有关它所呈现出的主要算法挑战（main algorithmic challenges）的看法。

咱们在三个通用分割数据集上研究了人和机器的性能，这三个数据集都包含材料与事物（stuff 和 things）注释。这些数据集分别是Cityscapes、ADE20k和Mapillary Vistas。对于每一个数据集，咱们都直接从挑战组织者那里得到了最早进方法的结果。在将来，咱们将把分析工做扩展到COCO（在COCO中材料（stuff）被注释）上。咱们将这些数据集合在一块儿，为研究人类和机器在全景分割上的表现奠基了坚实的基础。

咱们的目标是经过邀请社区以探索新的全景分割任务从而推进新方向的研究。咱们认为，拟定的任务会致使预期以内和预期以外的创新。最后，咱们来探讨一下这些可能性以及咱们将来的计划。

出于简单化的目的，本文中提出的PS“算法”是基于最优执行实例和语义分割系统中输出的启发式组合。这个方法是基本性的第一步，但咱们但愿引入更多有趣的算法。具体而言，咱们但愿看到全景分割至少在两个方面的创新：（1）深度集成的端到端模型可同时解决全景分割的双重性质。许多实例分割方法都被设计为用于产生不重叠的实例预测，并能够做为此系统的基础。（2）因为全景分割不能有重叠的部分，所以某种形式的高层次“推理”多是有益的，例如，将基于可学习的NMS扩展到全景分割中。咱们但愿全景分割任务可以推进这些领域的研究，进而带来使人眼前一亮的新突破。

原文连接：https://arxiv.org/pdf/1801.00868.pdf

欢迎我的分享，媒体转载请后台回复「转载」得到受权，微信搜索「BOBO_AI」关注公众号

中国人工智能产业创新联盟于2017年6月21日成立，超200家成员共推AI发展，相关动态：

中新网：中国人工智能产业创新联盟成立

ChinaDaily：China forms 1st AI alliance

证券时报：中国人工智能产业创新联盟成立启动四大工程搭建产业生态“梁柱”

工信部网站：中国人工智能产业创新联盟与贵阳市政府、英特尔签署战略合做备忘录

点击下图加入联盟

下载中国人工智能产业创新联盟入盟申请表

关注“雷克世界”后不要忘记置顶哟

咱们还在搜狐新闻、雷克世界官网、腾讯新闻、网易新闻、一点资讯、每天快报、今日头条、雪球财经……

↓↓↓点击阅读原文查看中国人工智能产业创新联盟手册