车辆变道方案

车辆变道方案

变道即变换车道,并线即合并路线。变道是手段,并线是目的,通过变道的手段达到并线的目的。并线至少要有两台车,单独一台车说并线是没有意义的!原百本行驶在两条车道上的两台车A和B,其中度A车通过变道的手段,变到B的车道上来,我们可以说A和B并线了,(也可以说A变道了)并线是至少两台车之间发生的关系,需要多车之间的容忍与配合。如果路上祇有一台车A,无论他再怎麼变道,知我们也祇能说他是变道,不能说是并线!明白?

换种说法,如果你从一条车道M向另一条车道N上变道,如果车道N上有其他车,(不管在你的前方还是後方,祗要有车,都算)你道的变道就可以被称作并线。如果车道N上一台车也没有,你车变过去之後就是车道N上唯一的一台车,那麼这样就祇能叫做变道,不能叫并线。

再简单一点说,关键在於你要变至的车道上有没有车回,有车的变道叫并线,没车的变道叫变道

在有些城答市,变道容易并线难!因为变道没其他车影响你,而并线的话,後面的车不想让你并,你一打灯他立马加速跟上来,紧跟他前面的车,让你无法并线

  1. 介绍

一般的高级决策涉及构建一个规则系统,而当交通场景变得复杂时这种系统的缺点就变得很明显,只能不断增加新规则到系统中,而大量规则的增加导致系统可理解性的大大降低。

近年来,计算机算力的进化和数据的增加,为机器学习在自动驾驶方面尤其是决策方面的应用打下基础。机器学习为自动驾驶通过数据进行学习、并通过获得的经验改进策略提供了新的机会。尤其是强化学习(RL),使得汽车通过与环境的交互学习策略变得可行。RL可以通过model-free的方式应对可能具有无限状态和动作空间的大规模系统。

此外,保证汽车能够安全行驶(例如不会发生碰撞)会增加系统的复杂性。尤其是在真实环境中学习的时候,任何时候都能保证安全,对于除了本车外还有保护周边环境的交通参与者,都是至关重要的。

所以,本文的主要贡献有三个方面:

1) 提出一种新颖的方法,能够学习在任意车道数的公路上的车道变更或车道保持的高级决策,同时由低级系统执行机动动作。2)通过最小化环境参数,来减少状态空间的维度加速学习过程。3)在系统中加入安全验证,以确保代理只执行安全操作。

在这里插入图片描述

图 1 RL主体与环境

  1. RL方法

本文采用Deep Q Network方法(简称DQN,是基于Q-Learning的方法),对变道行为进行决策学习。行为仅包含三种:向左变道、向右变道和保持原车道。状态变量为前方、后方、左前方、左后方、右前方、右后方车辆的相对距离和速度,以及本车的速度共13个状态,如图2所示。

在这里插入图片描述

为了最大化车辆速度,本文的奖励机制是t时刻决策后的实际车速与需求车速的偏差。

本文采用的是批处理方式的RL,批处理方式的RL过程被分为以下三个阶段:

(1)本文数据作为经验样本


(2)执行批处理方式的RL算法进行学习以从可用数据中获得最佳策略。

(3)将学到的策略应用到特定的问题中。

在这里插入图片描述

图3 批处理方式的RL过程

3.安全检查

安全检查主要是考虑前后车的距离,也包括变道后的前后车距离,即:

上述的Δsafe是根据刹车距离和当前速度设置的一个安全距离。如果变道后的安全距离不能得到满足,那么在安全检查环节就会保持当前车道(当前车道是保证安全距离的)。判断的情况如图4所示。
在这里插入图片描述

图4 车辆变道前后的安全距离

4.决策过程

本文的决策过程为:收集当前的13个状态参数,经过下图的强化学习神经网络,输出向左变道、向右变道、保持当前车道这三种决策中的最佳决策。该神经网络有两个隐藏层,每层包括100个神经元,通过全连接后输出向左变道、向右变道、保持原车道这3个Q值。

在这里插入图片描述

图5 该DQN的神经网络结构

我们选择最大Q的动作,并不立即行动,而是进行安全检查,确定采取决策后能满足安全距离才执行,否则保持原车道。

5.评价与实验
在这里插入图片描述
图6 仿真场景

为了评价该RL的表现,本文创建了10个仿真高速交通场景,每个场景持续500.5s,也就是说RL需要做143个决策(每个决策3.5s)。在每个场景中分别约有50个其他车辆参与,高速路长1255m,本车的需求速度设置为19.5m/s,高速路的最高速度限制在24m/s,其他车辆随机的布置在路上,初始速度随机为10~24m/s,另外,本文还放置基于规则的车辆作为对比。

结果如下图,在试验的10个场景中,基于RL的车辆平均速度为17.3m/s,基于规则的车辆的平均速度17.1m/s。这10个场景中,有7个场景本车的平均速度都超过了基于规则的参考车辆。
在这里插入图片描述
图 7 在仿真环境下十个不同场景RL-Agent(采用本算法的车辆)与Rule-based Agent(参考车)的平均速度对比

另外,为了对比安全检查的重要性,又进行故意去掉安全检查环节的试验。结果在同样的10个场景中,有9个场景发生了车祸,证明了安全检查的重要性。

在这里插入图片描述

图8 取消安全检查后,发生了9次车祸(未取消前没有车祸发生)

  1. 结论

本文提出了一种基于强化学习的方法,在仿真环境中完成自主安全的车道变更。RL的目标是尽可能达到理想的车速,使用了model-free的批处理方式的RL进行离线学习。这使自动驾驶车在无需了解周边车辆的动态环境,便可以完成学习任务。并在系统中加入安全验证,以确保代理只执行安全操作。实验证明该RL策略可以达到接近期待速度而不发生任何碰撞,并且性能优于用于基准测试的复杂的、基于规则的无人车。