阿里妹导读:如今的咱们在手机上花费了愈来愈多的时间,其中,视频又格外地吸引咱们的注意力。有不少好玩的视频,须要把前景物体从视频中分割出来,这须要花费创做者99%以上的时间。今天,阿里资深算法专家任海兵将告诉:阿里巴巴关于视频物体分割算法的三个方向与最新应用,但愿对喜欢视频创做的你有所帮助。算法
视频物体分割(Video Object Segmentation,简称 VOS ),顾名思义就是从视频全部图像中把感兴趣的物体区域完整地分割出来。为了方便你们的理解。ide
视频物体分割结果是进行内容二次创做的重要素材。例如目前火爆的“裸眼3D视频”,基于视频中主要物体与观众之间的距离,利用蒙皮遮挡的变化产生3D效果。其核心点是将前景物体从视频中分割出来,这部分会花费创做者99%以上的时间。学习
所以,对于优酷这样的视频类网站,视频物体分割是很是有价值的算法,可以赋能内容生产者,提高内容生产效率。特别是交互式视频物体分割算法,能利用用户少许交互,逐步提升视频物体分割正确率,提高用户观感体验。这是任何无监督视频物体分割算法所不能达到的。网站
目前,CV 学术界在视频物体分割方面的研究主要分为三个方向:spa
这三个研究方向对应于 Davis Challenge 2019 on Video Object Segmentation [1]中的三个赛道。其中,学术界更倾向于研究半监督视频物体分割,由于这是视频物体分割的最基础算法,也是比较纯粹的一个研究点。 接下来,我首选介绍视频物体分割的三个研究方向,而后结合阿里文娱摩酷实验室的探索,分享在视频领域的最新应用。3d
半监督视频物体分割,又称为单同样本视频物体分割(one-shot video object segmentation, 简称 OSVOS)。在半监督视频物体分割中,给定用户感兴趣物体在视频第一帧图片上的分割区域,算法来获取在后续帧上的物体分割区域。物体能够是一个,也能够是多个。在视频中,存在物体和背景运动变化、光照变化、物体旋转变化、遮挡等,所以半监督视频物体分割算法研究的重点是算法如何自适应获取变化的物体表观信息。一个示例以下图所示:视频
图1. 半监督视频物体分割示例blog
在图1中,第一行为序列的 RGB 图片,第二行为感兴趣物体区域。其中(a)为视频第一帧图像,骆驼区域是给定物体的 ground-truth。(b)(c)和 (d)是后续的第20、40和60帧,后续的图像只有 RGB 图片,须要算法去估计物体的区域。该示例的难点是:图片
目前半监督视频物体分割算法分为两大类:有在线学习、无在线学习。ci
基于在线学习的算法根据第一帧物体的 ground-truth,利用 one-shot learning 的策略来 fine-tune 分割模型。经典的在线学习算法包括 Lucid datadreaming[2],OSVOS[3],PreMVOS[4]等。在线学习算法针对每一个物体单独训练模型,能够达到很高的分割正确率。可是在线学习自己是深度学习模型的 fine-tuning,须要耗费大量的计算时间。在2019年以前,在线学习算法是主流。今年出现了很多无在线学习的算法,它的模型是事先训练好的,不须要针对样本进行 fine-tune,具备更好的时效性,例如 CVPR2019 的 FEELVOS[5],Space-time memory network[6]等。
半监督视频物体分割的最主要的结果评估标准是平均 Jaccard 和 F-measurement.平均Jaccard 值是全部物体在全部帧上分割精度 Jaccard 的均值。F-measurement 为分割区域边缘的准确度。半监督视频物体分割因为其须要第一帧物体区域的 ground-truth,所以没法直接应用于实际应用。但它是交互式和无监督视频物体分割算法的核心组成部分。
交互式视频物体分割是从去年开始兴起的、更贴近实用的视频物体分割方法。在交互式视频物体分割中,输入不是第一帧物体的 ground-truth,而是视频任意一帧中物体的用户交互信息。交互信息能够是物体 boundingbox、物体区域的划线(scribble)、外边缘的极值点等。
基本流程以下图所示:
图2.交互式视频物体分割流程
交互式视频物体分割一般包括如下5个步骤:
交互式视频物体分割不是一个单一算法,并且多种算法有机融合的解决方案,包括交互式图像物体分割、半监督视频物体分割、交互式视频物体区域传递算法等。其主要评估方法为 Davis Challenge on Video Object Segmentation 中提出的 Jaccard&F-measurement@60s (简称 J&F@60s )和 Area Under Curve(简称 AUC)。Davis竞赛提出限定8次用户交互,创建准确度随时间的变化曲线图,曲线下方区域的面积就是 AUC,t=60s 时刻曲线插值就是 J&F@60s。下图为一个 J&F 随时间变化曲线图。
图3. 交互式分割结果 J&F曲线示例
从评估指标能够看出,交互式视频物体分割强调分割算法的时效性,不能让用户长时间等待。因此,在交互式视频物体分割中通常不采用基于在线学习方法的半监督视频物体分割算法。目前尚未交互式视频物体分割的开源代码。可是交互式视频物体分割算法对工业界有很是重要的意义,其缘由是:
1)半监督视频物体分割须要物体第一帧的 ground-truth,实用中获取比较麻烦。而交互式视频物体分割只须要用户的简单交互,很是容易达到;
2)交互式视频物体分割能够经过屡次交互,达到很是高的分割正确率。高精度的分割结果可以提供更好的用户体验,才是用户须要的结果。
无监督视频物体分割是全自动的视频物体,除了 RGB 视频,没有其余任何输入。其目的是分割出视频中显著性的物体区域。在上述三个方向中,无监督视频物体分割是最新的研究方向。
Davis 和 Youtube VOS 竞赛今年第一次出现无监督赛道。从算法层面上说,无监督视频物体分割须要增长显著性物体检测模块,其余核心算法没有变化。
半监督和交互式视频物体分割中,物体是事先指定的,不存在任何歧义。而在无监督视频物体分割中,物体显著性是主观概念,不一样人之间存在必定的歧义。所以,在 Davis VOS 中,要求参赛者总共提供 N 个物体的视频分割结果(在 Davis Unsupervised VOS 2019 中,N=20),与数据集 ground-truth 标记的 L 个显著物体序列计算对应关系。对应上的物体和遗漏的物体参与计算 J&F 的均值。N 个物体中多余的物体不作惩罚。
目前不少半监督视频物体分割算法在学术上有很好的创新,可是实用中效果不佳。咱们统计了今年 CVPR 的论文,在 Davis 2017 val数据集上,没有一篇正会论文J&F>0.76。FEELVOS[5]、siamMask[7]等算法理论上有很好,实用中却存在多种问题。交互式视频物体分割更是没有开源代码。
因此,阿里文娱摩酷实验室从2019年3月底开始从事半监督和交互式视频物体分割算法的研究。
2019年5月,咱们完成一版基础的半监督视频物体分割算法和交互式视频物体分割解决方案,并以此参加了 DAVIS Challenge on Video Object Segmentation 2019,在交互式视频物体分割赛道得到第四名。
咱们提出的 VOS with robust tracking 策略[8],能够较大幅度的提升基础算法的鲁棒性。在 Davis 2017验证集上,咱们交互式视频物体分割算法 J&F@60s 准确率从3月底的0.353 提升到5月初的0.761。如今,咱们的半监督视频物体分割算法也达到了J&F=0.763。能够说,在这个集合上咱们的结果已经接近业界一流水准。
目前,咱们在继续探索复杂场景下的算法应用,这些复杂场景包括小物体、前景背景高度类似、物体运动速度很快或表观变化很快、物体遮挡严重等。后续,咱们计划在online learning、space-time network、region proposal and verification 等策略上发力,以提升视频物体分割算法在复杂场景下的分割精度。
另外,图像物体分割算法、多目标物体跟踪算法也是视频物体分割算法的重要基础,咱们也将在这些方面持续提高精度。
原文连接 本文为云栖社区原创内容,未经容许不得转载。