姿态估计及跟踪“Detect-and-Track: Efficient Pose Estimation in Videos”

基于行人检测和视频理解,估计及跟踪人体关键点。首先在单帧或短视频剪辑估计关键点,然后使用轻量级网络生成关键点的估计。单帧的估计使用Mask-RCNN,3D Mask-RCNN。在PoseTrack上对比,MOTA为51.8%。 相关工作 单帧图像姿态估计:Mask R-CNN,DeeperCut,[4][33] 多帧姿态估计:PoseTrack[22],[18] 视频多目标跟踪:递归神经网络[32
相关文章
相关标签/搜索