计算机视觉技术是实现自动驾驶的重要部分,美团无人配送团队长期在该领域进行着积极的探索。不久前,高精地图组提出的CenterMask图像实例分割算法被CVPR2020收录,本文将对该方法进行介绍。算法
CVPR的全称是IEEE Conference on Computer Vision and Pattern Recognition,IEEE国际计算机视觉与模式识别会议,它和ICCV、ECCV并称为计算机视觉领域三大顶会。本届CVPR大会共收到6656篇投稿,接收1470篇,录用率为22%。微信
图像的实例分割是计算机视觉中重要且基础的问题之一,其在众多领域具备十分重要的应用,好比:地图要素提取、自动驾驶车辆感知等。不一样于目标检测和语义分割,实例分割须要对图像中的每一个实例(物体)同时进行定位、分类和分割。从这个角度看,实例分割兼具目标检测和语义分割的特性,所以更具挑战。当前两阶段(two-stage)目标检测网络(Faster R-CNN[2]系列)被普遍用于主流的实例分割算法(如Mask R-CNN[1])。网络
2019年,一阶段(one-stage)无锚点(anchor-free)的目标检测方法迎来了新一轮的爆发,不少优秀的one-stage目标检测网络被提出,如CenterNet[3], FCOS[4]等。这一类方法相较于two-stage的算法,不依赖预设定的anchor,直接预测bounding box所需的所有信息,如位置、框的大小、类别等,所以具备框架简单灵活,速度快等优势。因而很天然的便会想到,实例分割任务是否也可以采用这种one-stage anchor-free的思路来实现更优的速度和精度的平衡?咱们的论文分析了该问题中存在的两个难点,并提出CenterMask方法予以解决。框架
相较于one-stage目标检测,one-stage的实例分割更为困难。不一样于目标检测用四个角的坐标便可表示物体的bounding box,实例分割的mask的形状和大小都更为灵活,很难用固定大小的向量来表示。从问题自己出发,one-stage的实例分割主要面临两个难点:性能
遵守目标检测的设定,现有的实例分割方法可大体分为两类:二阶段(two-stage)实例分割方法和一阶段(one-stage)实例分割方法。spa
不一样于上述方法,咱们提出的CenterMask网络,同时包含一个全局显著图生成分支和一个局部形状预测分支,可以在实现像素级特征对齐的状况下实现不一样物体实例的区分。prototype
本工做旨在提出一个one-stage的图像实例分割算法,不依赖预先设定的ROI区域来进行mask的预测,这须要模型同时进行图像中物体的定位、分类和分割。为了实现该任务,咱们将实例分割拆分为两个平行的子任务,而后将两个子任务获得的结果进行结合,以获得每一个实例的最终分割结果。3d
第一个分支(即Local Shape分支)从物体的中心点表示中获取粗糙的形状信息,用于约束不一样物体的位置区域以天然地将不一样的实例进行区分。第二个分支(即Global Saliency分支)对整张图像预测全局的显著图,用于保留准确的位置信息,实现精准的分割。最终,粗糙但instance-aware的local shape和精细但instance-unaware的global saliency进行组合,以获得每一个物体的分割结果。rest
CenterMask总体网络结构图如图2所示,给定一张输入图像,通过backbone网络提取特征以后,网络输出五个平行的分支。其中Heatmap和Offset分支用于预测全部中心点的位置坐标,坐标的得到遵循关键点预测的通常流程。Shape和Size分支用于预测中心点处的Local Shape,Saliency分支用于预测Global Saliency Map。能够看到,预测的Local Shape含有粗糙可是instance-aware的形状信息,而Global Saliency含有精细可是instance-aware的显著性信息。最终,每一个位置点处获得的Local Shape和对应位置处的Global Saliency进行乘积,以获得最终每一个实例的分割结果。Local Shape和Global Saliency分支的细节将在下文介绍。orm
为了区分位于不一样位置的实例,咱们采用每一个实例的中心点来对其mask进行建模,中心点的定义是该物体的bounding box的中心。一种直观的想法是直接采用物体中心点处提取的图像特征来进行表示,可是固定大小的图像特征难以表示不一样大小的物体。所以,咱们将物体mask的表示拆分为两部分:mask的形状和mask的大小,用固定大小的图像特征表示mask的形状,用二维向量表示mask的大小(高和宽)。以上两个信息都同时能够由物体中心点的表示获得。如图3所示,P表示由backbone网络提取的图像特征,shape和size表示预测以上两个信息的分支。用Fshape(大小为H x W x S x S)表示shape分支获得的特征图,Fsize(大小为H x W x 2)表示size分支获得的特征图。假设某个物体的中心点位置为(x,y),则该点的shape特征为Fshape(x,y),大小为1 x 1 x S x S,将其reshape成S x S大小的二维平面矩阵;该点的size特征为Fsize(x,y),用h和w表示预测的高度和宽度大小,将上述二维平面矩阵resize到h x w的大小,即获得了该物体的LocalShape表示。
尽管上述Local Shape表示能够生成每一个实例的mask,可是因为该mask是由固定大小的特征resize获得,所以只能描述粗糙的形状信息,不能较好的保留空间位置(尤为是物体边缘处)的细节。如何从固定大小的特征中获得精细的空间位置信息是实例分割面临的广泛问题,不一样于其余采用复杂的特征对齐操做来应对此问题的思路,咱们采用了更为简单快速的方法。启发于语义分割领域直接对全图进行精细分割的思路,咱们提出预测一张全局大小的显著图来实现特征的对齐。平行于Local Shape分支,Global Saliency分支在backbone网络以后预测一张全局的特征图,该特征图用于表示图像中的每一个像素是属于前景(物体区域)仍是背景区域。
为了验证本文提出的Local Shape和Global Saliency两个分支的效果,咱们对独立的分支进行了分割结果的可视化,如图4所示。其中(a)表示只有Local Shape分支网络的输出结果,能够看到,虽然预测的mask比较粗糙,可是该分支能够较好的区分出不一样的物体。(b)表示只有Global Saliency分支网络输出的结果,能够看到,在物体之间不存在遮挡的情形下,仅用Saliency分支即可实现物体精细的分割。(c)表示在复杂场景下CenterMask的表现,从左到右分别为只有Local Shape分支,只有Global Saliency分支和两者同时存在时CenterMask的分割效果。能够看到,在物体之间存在遮挡时,仅靠Saliency分支没法较好的分割,而Shape和Saliency分支的结合能够同时在精细分割的同时实现不一样实例之间的区分。
CenterMask与其余方法在COCO test-dev数据集上的精度(AP)和速度(FPS)对比见图5。其中有两个模型在精度上优于咱们的方法:two-stage的Mask R-CNN和one-stage的TensorMask,可是他们的速度分别大约4fps和8fps慢于咱们的方法。除此以外,咱们的方法在速度和精度上都优于其余的one-stage实例分割算法,实现了在速度和精度上的均衡。CenterMask和其余方法的可视化效果对比见图6。
除此以外,咱们还将提出的Local Shape和Global Saliency分支迁移至了主流的one-stage目标检测网络FCOS,最终的实验效果见图7。最好的模型能够实现38.5的精度,证实了本方法较好的适用性。
首先,CenterMask方法做为咱们在one-stage实例分割领域的初步尝试,取得了较好的速度和精度的均衡,可是本质上仍未能彻底脱离目标检测的影响,将来但愿可以探索出不依赖box crop的方法,简化整个流程。其次,因为CenterMask预测Global Saliency的思想启发自语义分割的思路,而全景分割是同时融合了实例分割和语义分割的任务,将来但愿咱们的方法在全景分割领域也能有更好的应用,也但愿后续有更多同时结合语义分割和实例分割思想的工做被提出。
更多细节见论文:CenterMask: single shot instance segmentation with point representation
美团无人车配送中心大量岗位持续招聘中,诚招感知/高精地图/决策规划/预测算法专家、无人车系统开发工程师/专家。无人车配送中心主要是借助无人驾驶技术,依靠视觉、激光等传感器,实时感知周围环境,经过高精定位和智能决策规划,保证无人配送机器人具备全场景的实时配送能力。欢迎感兴趣的同窗发送简历至:hr.mad@meituan.com(邮件标题注明:美团无人车团队)
阅读更多技术文章,请扫码关注微信公众号-美团技术团队!