姿态估计及跟踪“Detect-and-Track: Efficient Pose Estimation in Videos”

时间 2020-12-25

原文原文链接

基于行人检测和视频理解，估计及跟踪人体关键点。首先在单帧或短视频剪辑估计关键点，然后使用轻量级网络生成关键点的估计。单帧的估计使用Mask-RCNN，3D Mask-RCNN。在PoseTrack上对比，MOTA为51.8%。相关工作单帧图像姿态估计：Mask R-CNN，DeeperCut，[4][33] 多帧姿态估计：PoseTrack[22]，[18] 视频多目标跟踪：递归神经网络[32