VADv2：基于概率性规划的端到端自动驾驶-电子发烧友网

16km路线无后处理端到端闭环

概率性规划

不同于感知，规划中存在着更多的不确定性，对于同一场景，存在不同的合理的决策规划结果。环境信息到决策规划不存在明确的映射关系，因此学习拟人的驾驶策略极具挑战性。以往的基于学习的规划方法确定性地通过MLP回归出规划轨迹，无法应对环境信息和决策规划之间不明确的映射关系。同时基于神经网络输出的轨迹无法保证满足运动学约束，仍需要后端的轨迹优化。

VADv2采用概率性规划的方法，从大量的人类驾驶数据中，拟合每一时刻基于环境信息的自车轨迹概率分布，将问题转化为预测每一条轨迹和环境信息的相关性，从而应对规划中的不确定性。

图1 规划中的不确定性

算法框架

图2 VADv2 算法框架

如图2所示，VADv2以车载相机采集的流式图像序列作为输入。鉴于图像信息稀疏性，VADv2将图像信息转换为具有高层语义信息的tokens。具体地，VADv2基于MapTRv2从环视图像数据中提取地图物理层和逻辑层的map tokens，同时从图像中提取关于动态障碍物的agent tokens和交通信号灯的traffic element tokens。此外，由于在连续的动作空间上学习概率分布较为困难，VADv2将动作空间离散化，通过最远轨迹采样的方式从真实的轨迹数据中筛选出N条轨迹构建轨迹集合,用于表征整个动作空间。VADv2将轨迹通过正余弦编码方式编码为planning tokens。Planning tokens基于堆叠的Transformer结构与包含环境信息的tokens交互，同时结合稀疏导航信息和自车状态信息，输出每一条轨迹的概率：

在训练阶段，VADv2通过KL散度约束预测的概率分布和驾驶数据对应分布之间的一致性，并引入额外的场景约束进一步降低存在安全风险的轨迹的概率。在推理阶段，VADv2在每一个时刻从轨迹概率分布中采样一条高置信度的轨迹用于车辆控制。由于输出多模式的轨迹簇，VADv2也可以和基于优化或规则的规控架构结合，进行二阶段优化以及筛选过滤。