论文翻译:2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning

动作识别和人体姿态估计是密切相关的,但在文献中这两个问题通常被当作不同的任务来处理。在这项工作中,我们提出了一个多任务框架联合二维和三维姿态估计从静止图像和人的动作识别视频序列。我们证明一个单一的体系结构可以有效地解决这两个问题,并且仍然可以获得最先进的结果。此外,我们证明了从一端到另一端的优化比分离学习能获得更高的精度。建议的架构可以用来自不同类别的数据同时进行无缝的训练。四个数据集(MPII,(Human3.6M, Penn Action和NTU)演示了我们的方法在目标任务上的有效性。

近年来,人类动作识别和姿态估计受到了广泛的关注,不仅因为它们在视频监控和人机界面等方面的应用非常广泛,还因为它们仍然是具有挑战性的任务。姿态估计和动作识别通常被当作不同的问题来处理,[14]或最后一个被用作前一个问题的先验[57,22]。尽管pose与承认行动有极端的相关性,但据我们所知,文献中没有一种方法可以联合起来解决这两个问题,在文献中没有一种方法可以联合解决这两个问题,从而有利于行动识别。在这个方向上,我们的工作提出了独特的端到端可培训的多任务框架来处理
二维和三维人体姿态估计和动作识别联合,如图1所示:

图1所示。提出的姿态估计和动作识别的多任务方法。我们的方法提供了二维/三维姿态估计从单一图像或帧序列。姿态和视觉信息被用来在一个统一的框架中预测动作。

 由于新架构的兴起和大量数据的可用性,3D提出了估算任务[33,35]。类似地,动作识别最近也得到了改进,使用了依赖于人体姿态[3]的深度神经网络。我们认为这两个任务还没有结合在一起进行有益的联合优化,因为大多数姿态估计方法执行热图预测。这些基于检测的方法需要使用不可微的argmax函数作为后处理阶段来恢复关节坐标,这就打破了所需要的反传播链。

我们提出通过扩展可微软-argmax[28,58]来解决这个问题,用于关节2D和3D位姿估计。这允许我们将动作识别叠加在姿态估计之上,从而形成一个可从头到尾训练的多任务框架。我们的贡献如下:首先,提出的姿态估计方法实现了在二维姿态估计中,回归估计的结果是最精确的。其次,所提出的姿态估计方法是基于静止图像的,因此它受益于“野外”图像的二维和三维预测。这已经被证明是一种非常有效的学习视觉特征的方法,这对动作识别也是非常重要的。第三,我们的动作识别方法仅基于RGB图像,从中我们提取姿态和视觉信息。尽管如此,我们还是在2D和3D场景中取得了最先进的结果,即使与使用地面真姿势的方法相比也是如此。第四,位姿估计方法可以同时使用多种类型的数据集进行训练,使其能够从二维标注数据中归纳出三维预测。本文的其余部分组织如下。在第二节中,我们对相关工作进行了回顾。第3节和第4节分别介绍了姿态估计和人体动作的回归方法。

在本节中,我们将介绍一些与我们的工作最相关的方法,它们被分为人体姿态估计和动作识别。由于本文篇幅有限,不能进行广泛的文献综述,我们鼓励读者参考[43,19]的调查,分别进行姿态估计和动作识别2 d姿态估计。人体姿态估计问题是近年来研究的热点图形结构[2,17,37]到最近的CNN方法[34,25,38,20,41,54,5,51,52,36]。从文献中我们可以看到,姿态估计有两种截然不同的方法:基于检测的方法和基于回归的方法。基于检测的方法将姿态估计作为一个热图预测问题处理,其中热图中的每个像素代表对应关节的检测得分[7,18]。探索堆叠架构的概念,剩余Newell等人[33]提出了堆叠沙漏网络,显著提高了二维pose估计挑战的得分。从那时起,最先进的方法提出了堆叠沙漏结构的复杂变化。例如,Chu等人[16]提出了基于条件随机场(CRF)的注意力模型,Yang等人[56]将残差单位替换为金字塔剩余模块(人口、难民和移民事务局)。生成对抗的网络(GANs)已被用于提高学习能力结构信息[13]以及通过学习更可信的预测来完善热图,但是,检测方法并不直接提供关节坐标。为了恢复(x, y)坐标中的位姿,通常使用argmax函数作为后处理步骤。另一方面,基于回归的方法使用非线性函数将输入直接映射到de输出,可以是关节坐标。遵循这一范式,Toshev和Szegedy[52]提出了基于级联回归的人体部位检测的整体解决方案,Carreira等人[9]提出了迭代误差反馈。回归方法的局限性是回归函数经常是次优的。为了解决这一缺点,提出了软argmax函数[28],可将热图直接转换为关节坐标,从而将检测方法转换为回归方法。与检测方法相比,回归方法的主要优点是它们通常是完全可微的。这意味着姿态估计的输出可以用于进一步的处理,整个系统可以进行微调。

三维姿态估计。最近,deep architecture已经被用于从RGB图像中学习精确的3D表示[60,50,30,49,31,39],感谢高质量数据[21]的可用性,现在已经能够超过深度传感器[32]。Chen和Ramanan[11]将三维姿态估计问题分为两部分。首先,他们处理考虑摄像机坐标的二维姿态估计,其次,估计的姿态通过非参数形状模型匹配到三维表示。提出了一种人体姿态的骨骼表示,以减少数据[47],然而,这种结构转换可能会对依赖于人体四肢的任务产生负面影响,因为当我们离开根关节时,误差会累积。Pavlakos等人[35]提出了体积堆叠沙漏建筑。但是,该方法会受到参数数量和存储所有梯度所需内存的显著增加的影响。在我们的方法中,我们还提出了一个三维姿态的中间体积表示,但我们使用了比[35]低得多的分辨率,并且仍然能够显著提高最先进的结果,因为我们的方法是基于一个连续回归函数。

2 d动作识别。从视频中识别动作被认为是一个困难的问题,因为它涉及高层次的抽象,而且时间维度不容易处理。以往的方法都探索了经典的特征提取方法[55,23],其中的关键思想是利用人体关节位置来选择空间和时间上的视觉特征。3D卷积最近被认为是给出最高分类的选项得分[8,10,53],但它们涉及高数量的参数,需要提高训练的记忆量,不能有效地从大量静止图像训练中获益。以身体部位为焦点的注意力模型[4]可以改善动作识别,双流网络可以用来合并RGB图像和昂贵的光流图[14]。

大多数二维动作识别方法只是利用人体关节信息提取局部的视觉特征,作为注意机制。少数直接探索人体关节的方法不会产生它,因此它们仅限于提供骨骼数据的数据集。我们的方法通过在动作识别的同时进行姿态估计来消除这些限制。因此,我们的模型只需要输入RGB帧,同时仍然在估计的身体关节的引导下进行区分视觉识别。

3 d动作识别。与基于视频的动作识别不同,3D动作识别主要是基于骨架数据作为主要信息[29,40]。有了最近可用的深度传感器,如微软的Kinect,不需要动作捕捉系统(MoCap)经常需要的复杂安装过程就可以捕获3D骨骼数据。然而,由于使用红外投射器,这些深度传感器仅限于室内环境。此外,它们具有较低的范围精度和不健壮的咬合,经常导致噪声骨架。

为了应对骨架噪声,时空LSTM网络被广泛应用,通过使用门控机制[26]来学习骨架序列的可靠性或使用注意机制[27,46]。除了骨架数据,多模态方法还可以从可视化提示[45]中获益。在这个方向上,Baradel et al.[3]提出了基于空间和时间注意机制的骨架序列的姿态条件时空注意机制,而动作分类是基于t上patch提取的姿态和外观特征。

由于我们的架构根据输入的RGB帧预测了高精度的3D骨架,所以我们不必应付Kinect的骨架噪音。此外,我们在实验中表明,尽管我们的系统是基于时间卷积而不是更常见的LSTM,但我们的系统能够在3D动作识别上达到艺术的表现状态。

我们的人体位姿估计方法是一种回归方法,类似于[28,47,9]。我们扩展了Softargmax函数,以统一处理二维和三维位姿回归。我们的方法的细节解释如下。

人体位姿回归问题由输入RGB图像I∈RW×H×3定义,输出估计姿势pˆ∈RNJ体关节尺寸为D的NJ×D,回归函数fr,如下式所示:

r,θ是一组可训练的参数的函数fr。目标是优化参数θr为了最小化之间的误差估计体式pˆ和地面真理p。为了实现这个功能,我们使用深CNN。由于位姿估计是我们的多任务方法的第一部分,函数fr必须是可微的,以允许端到端优化。这是由Soft-argmax实现的,它是argmax函数的可微替代,可用于将热图转换为(x, y)关节坐标。

网络体系结构有其入口流的基础用于提供基本特征提取的incep - v4[48]。然后,类似于在[28]中发现的,K个预测块用于改进估计,我们使用最后的预测p0K作为我们估计姿势pˆ。每个预测块由8个剩余深度卷积组成,这些卷积分为3个不同分辨率。作为一个副产品,我们还可以获得低层次的视觉特征和中间的联合概率映射,这些都是通过Soft-argmax层间接学到的。在我们的动作识别方法中,同时使用视觉特征和联合概率地图来产生外观特征,详见4.2节。位姿回归网络的图形表示如图2所示。

图2。基于单RGB帧的人体位姿回归方法。输入图像由一个输入流和K个预测块组成的CNN馈送。预测在每个预测块被细化。

图3显示了Soft-argmax层的直观图形说明。对于给定的输入信号,主要思想是考虑在经过标准化,使其具有一个分布的属性之后,可以用输入信号的期望近似地表示最大的值。的确,对于一个足够尖角(尖峰)的分布,预期应该接近后验的最大值估计。使用归一化指数函数(Softmax),因为它减轻了低于最大值的值的不良影响,并增加了结果分布的“尖锐性”。对于二维热图作为输入,归一化信号可解释为关节在位置(x, y)处的概率映射,关节位置的期望值由归一化信号的期望值给出:

图3。二维输入信号的软argmax操作的图形表示(热图)。输出是接近输入信号最大值的坐标x和y。

联合的可见性通过对相应输入热图上的最大值的Sigmoid函数计算图像中某个关节可见的概率。考虑有NJ个关节的位姿布局,关节可见性向量v∈R表示新泽西×1。注意可见性信息与联合概率图无关,因为后者的和总是1

统一的2D/3D姿态估计
通过将二维热图扩展为体积表示,我们将二维位形回归扩展到三维场景。我们定义了Nd叠加二维热图,对应于深度分辨率。在平均热图上应用软-argmax算法对(x, y)坐标进行预测,应用软件对z分量进行回归。

在体积表示上使用一维软-argmax平均x和y维度,如图4所示。将位姿预测分解为(x, y)和z两部分的好处是,我们将2D热图作为副产品来维护,这对于提取外观特征很有用,如4.2节所述。

图4。使用体积热图统一二维/三维位姿估计。

采用本文提出的统一方法,可以利用二维和三维混合数据对网络进行训练。对于第一种情况,只有对应于(x, y)的梯度是反向传播的。因此,网络可以进行高精度的联合训练运动捕捉系统的3D数据和户外环境中收集的极具挑战性的静止图像,这些通常是手工注释的。

该方法最重要的优点之一是能够在多任务框架中将高级位姿信息与低级视觉特征结合起来。该特性允许共享姿态估计和视觉特征提取的网络入口流。此外,视觉特征训练使用动作序列和静止图像捕获“野外”,这已被证明是一个非常有效的方法学习鲁棒视觉表征。

如图1所示,我们提出的动作识别方法分为两部分,一部分是基于人体关节坐标序列的,我们称之为基于位置的识别,另一部分是基于视觉特征序列的,我们称之为基于外观的识别。将每个部分的结果结合起来,估计最终的行动标签。在这一节中,我们将详细解释每个识别分支,以及我们如何扩展单帧姿态估计,以提取时间信息从一个帧序列。

为了探索人体关节位置编码的高级信息,我们将每个关节具有NJ的T位姿序列转换为类图像表示。我们选择将时间维度编码为垂直轴,将关节编码为水平轴,将每个点的坐标((x, y)编码为2D, (x, y, z)编码为3D)编码为通道。用这种方法,我们可以使用传统的二维卷积来直接从身体关节的时间序列中提取模式。由于姿态估计方法是基于静止图像的,因此我们采用时间分布的抽象方法来处理视频片段,这是一种既能处理单个图像又能处理视频序列的简单技术。我们提出了一个完全卷积的神经网络,从输入姿势中提取特征,并生成动作热图,如图5所示。这个想法是,对于只依赖于少数身体关节的动作,比如握手,完全连接的层将需要调零不相关的关节,这是一个非常困难的学习问题。
相反,2D卷积在不需要手动选择关节的情况下加强了这种稀疏结构,因此更容易学习。此外,不同的关节有非常不同的坐标变化和过滤器匹配,例如,手的模式不会对脚的模式做出相同的反应。然后,这些模式被合并到后续的层中,以产生更有区别的**,直到我们获得深度等于动作数量的动作映射。为了生成视频剪辑的每个动作的输出概率,必须对动作映射执行一个池操作。为了对每个操作的最强响应更敏感,我们使用最大加最小池,然后使用Softmax**。此外,受人类位姿回归方法的启发,我们使用在K个预测块中带有中间监督的堆叠架构来改进预测。每个预测块的动作热图被重新注入到下一个动作识别块中。

图5。NJ体关节T帧序列动作识别的体系结构表示。z坐标仅用于3D动作识别。基于外观的识别采用了相同的架构,只是输入的是外观特征而不是人体关节。

基于外观的部分与基于姿态的部分相似,不同的是它依赖于局部的外观特征,而不是关节坐标。为了提取局部的外观特征,我们将全局入口流末端得到的视觉特征Ft∈RWf×Hf×Nf张量乘以概率映射Mt∈在位姿估计部分结束时得到RWf x Hf x NJ,其中Wf x Hf为特征图的大小,Nf是特性的数量,NJ是特性的数量关节。我们将每个通道相乘,得到的张量大小为RWf x Hf x NJ x Nf,而不是像克罗内克乘积那样逐个乘以每个值。然后,空间维度被一个总和折叠,得到尺寸为R的t时间的外观特征新泽西×Nf。对于一个帧序列,我们将t ={0,1,…, T}导致视频片段的外观特征V∈RT××Nf新泽西州。为了阐明上述外观特征提取过程,图6显示了图形表示。

图6。从单帧低水平视觉特征和身体部位概率图中提取外观特征。对于一个T帧序列,将外观特征垂直叠加,产生一个张量,其中每条线对应一个输入帧。

将外观特征输入类似于图5所示的基于姿态的动作识别块的动作识别网络,以视觉特征代替人体关节的坐标。我们认为,对于基于外观的部分,我们的多任务框架有两个好处:首先,由于大部分计算是共享的,所以它的计算效率很高。其次,提取的视觉特征具有更强的鲁棒性,因为它们是同时针对不同的任务和不同的数据集进行训练的。

行动聚合
仅通过高级姿态表示很难将一些动作与其他动作区分开来。例如,如果只考虑身体的关节,喝水和打电话的动作是非常相似的,但是如果我们有与杯子和电话相对应的视觉信息,就很容易分离。另一方面,其他动作与视觉信息没有直接关系,而是与身体动作有关,如敬礼、触胸等,在这种情况下,姿势信息可以提供补充信息。为了探究姿态模型和外观模型的贡献,我们使用完全连接层和Softmax**结合各自的预测,从而给出我们的模型的最终预测。

图7。预测3D姿势从human360米(第一行)和MPI

在本节中,我们使用四个具有挑战性的数据集在四个不同类别中展示我们的方法的实验评估。我们证明了我们提出的多任务方法的鲁棒性和灵活性。这四类问题分为两类:人体姿态估计和动作识别。对于这两种情况,我们评估我们的方法。

我们在四个不同的数据集上评估我们的方法:onMPII[1]和on human360 m[21]分别为2D和三维姿态估计,Penn Action[59]和NTU
RGB+D[44]分别用于2D和3D动作识别。每个数据日的特征 。MPII人位数据集。单人姿态估计的MPII数据集由大约25K幅图像组成,其中15K为训练样本,3K为验证样本,7K为测试样本(标签由作者保留)。这些图片来自YouTube视频,涵盖了410种不同的人类活动,这些姿势都被手工标注为。

多达16个身体关节。
Human3.6M。human360万[21]数据集由11个受试者进行17种不同活动的视频和4个视角不同的摄像机组成,产生超过3万帧的画面。对于每个人,数据集提供32个身体关节,只有17个。

ed计算分数。
佩恩的行动。Penn的动作数据集[59]是由野外的2326个视频组成的,15个不同的动作,其中有“棒球投球”,“卧推”,“弹奏吉他”等。
这个数据集的挑战是,在许多动作中缺少几个身体部位,而且不同样本之间的图像比例非常不同。南大RGB + D。NTU数据集是迄今为止最大的和一个非常具有挑战性的数据集的3D动作识别。它由超过56K人组成。

由40个不同的演员执行的60个动作的全高清ideos,由3个摄像机在17个不同的定位设置中记录。

实现细节
对于位姿估计任务,我们使用定义的弹性净损失函数对预测位姿进行训练。

 (3) pˆn和pn分别估计和地面真理n关节的位置。在训练时,我们使用地面真相注释或人物位置(如果适用)来裁剪以目标人物为中心的边框。对于姿态估计任务,在MPII single person和human360万数据集上,都允许使用给定的person位置进行评估。如果一个给定的身体关节在训练时落在裁剪的边界框之外,我们将ground truth可见性标志设置为0,ot。

我们把它设为1。利用地面真实能见度信息对预测的具有二叉熵损失的联合能见度向量v进行监测。在进行姿态估计时,我们给出了单作物和多作物的姿态估计结果。在第一种情况下,使用一幅居中的图像进行预测,在第二种情况下,裁剪多幅具有较小位移和水平翻转的图像,最终的姿态为i的平均预测。对于动作识别任务,我们使用分类交叉熵损失训练网络。在训练中,我们从一个视频样本中随机选取T帧的固定长度的片段。在测试中,我们报告单剪切或多剪切的结果。在第一种情况下,我们在视频中间剪辑一个片段。对于第二种情况,我们裁剪多个时间间隔为T /的剪辑/2帧。多剪辑的最终得分是由一个视频中所有剪辑的平均结果计算出来的。为了在测试中估计边界框,我们使用剪辑的第一个、中间和最后一帧的完整图像进行初始位姿预测。最后,我们选择最大值。所有最初预测的姿势。关于网络层和实现的详细信息在补充材料中给出。

2 d姿态估计。我们对二维姿态估计进行定量评估,使用正确的关键点的概率度量相对于头部大小(PCKh),见表2。我们能够得到[28]的结果,这与我们的方法的二维位姿估计部分的相似性一致。从结果可以看出,基于Soft-argmax的回归方法取得的结果非常接近目前的技术水平,特别是考虑到曲线下面积(AUC)给出的累积精度时,是迄今为止最精确的从结果可以看出,基于Soft-argmax的回归方法取得的结果非常接近目前的技术水平,特别是考虑到曲线下面积(AUC)给出的累积精度时,它是迄今为止全可微方法中最精确的方法。

三维姿态估计。在Human3.6M上,我们通过测量系统的参数来评估所提出的三维位姿回归方法平均每关节位置误差(MPJPE),这是这个数据集最具挑战性和最常见的度量。我们遵循了通用评估方案[47,35,31,通过参加五个科目的培训(S1, S5, S6, S7,每64帧对两个主题(S9, S11)进行评估。对于培训,我们使用来自MPII和human360 m的50%/50%的数据。对于多作物预测,我们使用五个裁剪区域和相应的翻转图像表1显示了我们与前一种方法的比较结果,表明我们的方法能够远远超过当前的技术水平。从我们的方法得到的定性结果如图7所示,对于Human3.6M和MPII数据集,这也证明了我们的方法能够从仅带有2D注释的姿态数据中归纳出3D姿态预测。

表2。使用PCKh测量相对于头部大小的0.2和0.5的单人2D位姿估计的MPII比较结果。有关较早的结果,请参考MPII领导
董事会在http://human-pose.mpi-inf.mpg.de。

2 d动作识别。我们评估了我们的行动识别方法在二维场景上佩恩行动数据集。在训练姿态估计部分,我们使用来自MPII(75%)和Penn Action(25%)的混合数据,使用16个身体关节。动作识别部分使用T = 16帧的视频片段进行训练。我们在使用RGB和估计姿势的方法中达到了艺术分类的得分。我们还评估了我们的方法,而不考虑估计姿势的影响,使用人工注释的身体关节,也能够改进现有的水平。效果3 d动作识别。由于来自NTU的骨骼数据经常是有噪声的,我们只使用10%来自NTU的数据,45%来自MPII的数据,45%来自human360 m的数据来训练姿态估计部分,使用20个身体关节和视频剪辑T = 20帧。我们的方法改进了目前的技术状况NTU只使用RGB帧和3D预测姿态,如表4所示。如果我们只考虑RGB帧作为输入,我们的方法比[3]改进了9.9%。
据我们所知,以前的方法都适用。

表3。二维动作识别中Penn动作的比较结果。以正确分类动作的百分比给出结果。

表4。在NTU上进行三维动作识别的比较结果。以正确分类动作的百分比给出结果。

提供由Kinect-v2给出的姿势,已知在某些情况下非常嘈杂。虽然我们不像其他方法那样使用LSTM,但是使用卷积时,时间信息被充分考虑进去了。我们的结果表明,这种方法是充分的小视频剪辑发现在南洋理工大学

烧蚀研究。我们做了各种各样的实验
NTU来展示我们方法中每个组件的贡献。从表5可以看出,我们估计的姿势比Kinect姿势的准确率提高了2.9%。此外,全面优化也提高了3.3%,这证明了完全可微方法的重要性。最后,通过对多个视频剪辑的结果进行平均,我们得到了
多出1.1%。我们还比较了提出的顺序学习然后微调的方法(表3)和联合学习pose和action对PennAction的影响,结果是97.3%,只有0.1%低。我们的方法的有效性依赖于三个主要特征:第一,多个预测块提供了行动精度的持续提高,如图8所示。其次,由于我们完全可区分的架构,我们可以微调模型从RGB帧到预测的动作,这带来了一个显著的精度增益。第三,如图9所示,该方法还得益于外观和位姿信息的互补,从而在一次聚合时提高了分类精度。

表5所示。结果我们的方法在NTU考虑不同的方法。FT:微调,MC:多剪辑。

图8。从四个预测块的位姿和外观模型,并结合聚集的特征,对NTU的动作识别精度,分别用于分离训练和全网络优化
(微调)。

图9。对姿态、外观模型中不同动作类型的动作识别精度进行NTU分析,并对结果进行汇总。

结论 在本文中,我们提出了一种多任务深度架构来联合执行二维和三维姿态估计和动作识别。我们的模型首先从原始的RGB帧预测了人体关节的2D和3D位置。这些位置然后被用来预测在视频中执行的动作,通过两种不同的方式:利用语义信息利用身体关节坐标的时间进化和利用视觉信息对人体部位进行基于注意力的汇集。在我们的模型中,权重和特征的大量共享使我们能够解决四种不同的任务——2D姿态估计,3D姿态估计,2D动作识别,3D动作识别——与专用的方法相比,用一个单一的模型非常有效。我们进行了大量的实验,表明我们的方法能够在所有这些任务上与专用方法持平甚至优于专用方法。