CVPR 2019轨迹预测竞赛冠军方法总结

时间 2019-11-05

标签 cvpr 轨迹预测竞赛冠军方法总结繁體版

原文原文链接

背景

CVPR 2019 是机器视觉方向最重要的学术会议，本届大会共吸引了来自全世界各地共计 5160 篇论文，共接收 1294 篇论文，投稿数量和接受数量都创下了历史新高，其中与自动驾驶相关的论文、项目和展商也是扎堆亮相，成为本次会议的“新宠”。html

障碍物轨迹预测挑战赛（Trajectory Prediction Challenge）隶属于CVPR 2019 Workshop on Autonomous Driving — Beyond Single Frame Perception（自动驾驶研讨会），由百度研究院机器人与自动驾驶实验室举办，侧重于自动驾驶中的多帧感知，预测和自动驾驶规划，旨在汇集来自学术界和工业界的研究人员和工程师，讨论自动驾驶中的计算机视觉应用。美团无人配送与视觉团队此项比赛得到了第一名。算法

在该比赛中，参赛队伍须要根据每一个障碍物过去3秒的运动轨迹，预测出它在将来3秒的轨迹。障碍物共有四种类型，包括行人、自行车、大型机动车、小型机动车。每种障碍物的轨迹用轨迹上的采样点来表示，采样的频率是2赫兹。美团的方法最终以1.3425的成绩取得该比赛的第一名，同时咱们也在研讨会现场分享了算法和模型的思路。网络

赛题简介

轨迹预测竞赛数据来源于在北京搜集的包含复杂交通灯和路况的真实道路数据，用于竞赛的标注数据是基于摄像头数据和雷达数据人工标注而来，其中包含各类车辆、行人、自行车等机动车和非机动车。测试

训练数据：每一个道路数据文件包含一分钟的障碍物数据，采样频率为每秒2赫兹，每行标注数据包含障碍物的ID、类别、位置、大小、朝向信息。优化

测试数据：每一个道路数据文件包含3秒的障碍物数据，采样频率为每秒2赫兹，目标是预测将来3秒的障碍物位置。设计

评价指标

平均位移偏差：Average displacement error（ADE），每一个预测位置和每一个真值位置之间的平均欧式距离差值。3d

终点位移偏差：Final displacement error（FDE），终点预测位置和终点真值位置之间的平均欧式距离差值。code

因为该数据集包含不一样类型的障碍物轨迹数据，因此采用根据类别加权求和的指标来进行评价。cdn

现有方法

此次竞赛要解决的预测问题不依赖地图和其余交通讯号等信息，属于基于非结构化数据预测问题，这类问题如今主流的方法主要根据交互性将其区分为两类：1. 独立预测，2. 依赖预测。htm

独立预测是只基于障碍物历史运动轨迹给出将来的行驶轨迹，依赖预测是会考虑当前帧和历史帧的全部障碍物的交互信息来预测全部障碍物将来的行为。

考虑交互信息的依赖预测，是当前学术界研究比较多的一类问题。可是经调研总结，咱们发现其更多的是在研究单一类别的交互，好比在高速公路上都是车辆，那预测这些车辆之间的交互；再好比在人行道上预测行人的交互轨迹。预测全部类别障碍物的之间的交互的方法不多。

如下是作行人交互预测的两个方法模型：

方法1. Social GAN，分别对每一个障碍车输入进行Encoder，而后经过一个统一的Pooling模块提取交互信息，再单独进行预测。

方法2. StarNet，使用一个星型的LSTM网络，使用Hub网络提取全部障碍物的交互信息，而后再输出给每一个Host网络独立预测每一个障碍物的轨迹。

咱们的方法

数据分析

拿到赛题以后，咱们首先对训练数据作了分析，因为最终的目标是预测障碍物位置，因此标注数据中的障碍物大小信息不过重要，只要根据类别来进行预测便可。

其次，分析朝向信息是否要使用，经统计发现真值标注的朝向信息很是不许确，从下图能够看到，大部分的标注方向信息都和轨迹方向有较大差距，所以决定不使用朝向信息进行预测。

而后，分析数据的完整性，在训练过程当中每一个障碍物须要12帧数据，才能够模拟测试过程当中使用6帧数据来预测将来6帧的轨迹。可是在真实搜集数据的时候，没有办法保证数据的完整性，可能先后或中间均可能缺乏数据，所以，咱们根据先后帧的位置关系插值生成一些训练数据，以填补数据的缺失。

最后，对数据作了加强，因为咱们的方法不考虑障碍物之间的交互，仅依赖每一个障碍物自身的信息进行训练，所以障碍物轨迹进行了旋转、反向、噪声的处理。

模型结构

因为此次轨迹预测的问题是预测全部类别的轨迹，因此使用解决单一类别的轨迹预测模型不适用于该问题，并且若是把全部的物体放在单一的交互模型中来，不能正确提取出不一样障碍物之间的交互特征。咱们尝试了一些方法也证明了这一点。

所以在竞赛中，咱们使用了多类别的独立预测方法，网络结构以下图，该方法针对每一个类别构造一个LSTM的Encoder-Decoder模型，而且在Encoder和Decoder之间加入了Noise模块，Noise模块生成固定维度的高斯噪声，将该噪声和Encoder模块输出的LSTM状态量进行连结做为Decoder模块的LSTM初始状态量，Noise模块主要做用是负责在多轮训练过程当中增长数据的扰动，在推理过程当中经过给不一样的Noise输入，能够生成多个不一样的轨迹。

最终，须要在不一样的轨迹输出中选择一个最优的轨迹，这里采用了一个简单的规则，选择预测的轨迹方向和历史轨迹方向最接近的轨迹做为最终的轨迹输出。

实验结果

咱们仅使用了官方提供的数据进行训练，按照前述数据加强方法先对数据进行加强，而后搭建网络结构进行训练，Loss采用Weighted Sum of ADE（WSADE），采用Adam优化方法，最终提交测试的WSADE结果为1.3425。

方法	WSADE
咱们的方法	1.3425
StarNet（基于交互的方法）	1.8626
TrafficPredict（ApolloScape Baseline方法）	8.5881

总结

在此次竞赛中，咱们尝试了使用多类别的独立预测方法，经过对数据加强和加入高斯噪声，以及最终人工设计规则选择最优轨迹的方法，在此次障碍物轨迹预测挑战赛（Trajectory Prediction Challenge）中得到了较好的成绩。可是，咱们认为，基于交互的方法用的好的话应该会比这种独立预测方法仍是要好，好比能够设计多类别内部交互和类别间的交互。另外，也关注到如今有一些基于图神经网络的方法也应用在轨迹预测上，从此会在实际的项目中尝试更多相似的方法，解决实际的预测问题。

参考文献

Yanliang Zhu, Deheng Qian, Dongchun Ren and Huaxia Xia. StarNet: Pedetrian Trajectory Prediction using Deep Neural Network in Star Topology[C]//Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). 2019.
Gupta A, Johnson J, Fei-Fei L, et al. Social gan: Socially acceptable trajectories with generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018: 2255-2264.
Apolloscape. Trajectory dataset for urban traffic. 2018. apolloscape.auto/trajectory.….

做者简介

李鑫，美团无人配送与视觉部PNC组轨迹预测组算法专家。
炎亮，美团无人配送与视觉部PNC组轨迹预测组算法工程师。
德恒，美团无人配送与视觉部PNC组轨迹预测组负责人。
冬淳，美团无人配送与视觉部PNC组负责人。