一个使用传统DAS和深度强化学习融合的自动驾驶框架-电子发烧友网

增强学习是最近几年中机器学习领域的最新进展。增强学习依靠与环境交互学习，在相应的观测中采取最优行为。行为的好坏可以通过环境给予的奖励来确定。不同的环境有不同的观测和奖励。例如，驾驶中环境观测是摄像头和激光雷达采集到的周围环境的图像和点云，以及其他的传感器的输出，例如行驶速度、GPS定位、行驶方向。驾驶中的环境的奖励根据任务的不同，可以通过到达终点的速度、舒适度和安全性等指标确定。增强学习和传统机器学习的最大区别是增强学习是一个闭环学习的系统，增强学习算法选取的行为会直接影响到环境，进而影响到该算法之后从环境中得到的观测。

增强学习在无人驾驶中的应用

关于安全自主驾驶的研究可以分为两种方法：一是传统的感知，规划和控制框架，另一种是基于学习的方法。基于学习的方法可以成功处理在计算机视觉领域的高维特征（如卷积神经网络（CNN））而广受欢迎[5]-[7]，强化学习算法可以最大化预期奖励的总和。有越来越多的研究开始将这两种技术结合，用于自动驾驶。对于车道保持，Rausch等人[8]提出了一种训练网络的方法，该方法直接根据从前置摄像头获得的图像预测转向角。结果表明，该神经网络可以通过从前置摄像头得到的原始图像，自动学习车道等特征，来训练车辆的车道保持的转向角度。 John等人[9]提出了混合框架，通过使用长短期记忆网络（LSTM）为每个场景计算适当的转向角。每个网络都会在特定道路场景的特定分区（如直线驾驶，右转弯和左转弯）中，对驾驶行为进行建模。在考虑多种驾驶场景时，它在多个驾驶序列中运行良好。 Al-Qizwini等人[10]提出了一种回归网络，预测驾驶的可利用状态，如前置摄像机图像中的交叉错误，航向误差和障碍物距离，而不是通过使用GoogLeNet直接从前摄像机图像预测转向角[11 ] 。转向角度，油门和制动都是使用基于if-else规则的算法计算出来的。

Sallab等[12]提出了一种在没有障碍物的情况下，使用DQN（Deep Q Network）和DDAC（Deep Deterministic Actor Critic）学习车道保持驾驶策略的方法。他们直接掌握转向，加速和减速，根据低维特征（如速度，轨道边界位置）最大限度地提高预期的未来回报。因此，使用可应用于连续作用的DDAC而非离散作用空间的DQN可以提高车道保持性能。 Zong等[13]提出了一种应用DDPG [14]来躲避障碍物，学习转向角和加速度值的方法。上述方法可以直接获得控制车辆所需的合适的转向角度、油门和制动量。然而，在这些情况下，每当车辆的参数改变时，最佳策略就会改变。因此存在很大限制，即为了最佳策略要不断进行学习。

本文提出了一个使用传统DAS和深度强化学习融合的自动驾驶框架。该框架在DAS功能（例如车道变换，巡航控制和车道保持等）下，以最大限度地提高平均速度和最少车道变化为规则，来确定超车次数。可行驶空间是根据行为水平定义的，利用驾驶策略可以学习车道保持，车道变更和巡航控制等行为。为了验证所提出的算法，该算法在密集交通状况的模拟中进行了测试，并证明了随着驾驶期间的学习进展，平均速度，超车次数和车道变换次数方面性能得到改善。

Deep Q Learning Based High Level Driving Policy Determination

Kyushik Min,

Hayoung Kim and Kunsoo Huh, Member, IEEE

作者Kyushik Min，韩国汉阳大学机器监测和控制实验室博士生，研究方向为高级驾驶辅助系统（ADAS）和自动驾驶。

项目概述

该项目为Tensorflow Korea 主办的2017济州学习营项目。使用传感器数据和相机图像作为DRL算法的输入。DRL算法根据输入决定行驶动作。如果行动可能导致危险情况，ADAS可以控制车辆以避免碰撞。

高层自动驾驶决策的实现

1.马尔科夫决策过程（MDP）

马尔可夫决策过程（MDP）是决策的数学框架，它由元组组成，其中状态集合S，行为集A，转换模型T，奖励函数R和折扣因子γ[15]。解决MDP问题的关键是找到一个策略，使给定的回报函数R的折扣回报期望总和最大化。然而，在最近的深度学习研究中，可以从大数据集有效地训练深度神经网络，并且可以通过使用从原始输入中获得的一些固定状态φ（St）而不是状态St来解决MDP 。事实上，深度神经网络在计算机视觉研究中，已经训练出比手工标记特征表现更好的算法。驾驶策略学习也是基于MDP进行的，在该MDP中，主车辆与周围的车辆和车道等环境相互作用。使用深度强化学习的优势可以更好的自主学习，从而为驾驶决策学习定义了观察状态S，行动空间A和奖励函数R。

2.感知

使用LIDAR传感器数据和相机图像数据构建感知状态。传感器配置的总覆盖范围可以在上图中看到。

障碍物距离可以从LIDAR传感器获得，也可以从前端摄像头中获得原始图像来辅助感知。由于激光雷达的距离数据和来自相机的图像数据具有完全不同的特点，因此本研究采用多模态输入方案。

3.行动

驾驶决策的行动空间是在离散行动空间中定义的。当我们利用传统DAS的优势时，这个系统的每个动作都可能激活对应的DAS功能。在纵向方向上，有三种动作：1.速度为V + Vcc的巡航控制，其中Vcc为额外目标速度，设定为5km / h，2.当前速度为V的巡航控制，3.速度为巡航控制 V - Vcc。这些纵向行动将触发自主紧急制动（AEB）和自适应巡航控制（ACC）。在横向方向上，还有三种动作：1.保持车道，2.将车道变到左侧，3.将车道变到右侧。由于自动驾驶车辆同时在纵向和横向两个方向上驾驶，我们定义了5个离散行为。（静止，加速，减速，车道改变到左侧，车道改变到右侧）

4.奖励

根据强化学习选择不同的行动，将收到行动结果的奖励。在MDP上解决的问题是找到一个能够最大化未来预期价值奖励的驱动策略。这意味着最佳驾驶策略可以完全不同，具体取决于奖励的设计方式。因此，设计适当的奖励机制对学习正确的驾驶策略非常重要。当车辆在密集的交通情况下行驶时，应该满足以下三个条件：1.找到使车辆高速行驶的策略，2.以无碰撞的轨迹行驶，3.不频繁地改变车道。基于这三个条件来设计奖励机制。

用于决策学习的DEEP RL算法

DQN在强化学习和神经网络相结合的游戏领域取得巨大成功之后，对深度强化学习进行了各种研究[16]。尤其是，在基于DQN价值的深层强化学习[17] - [22]中进行了大量研究。在此项研究中，深层增强学习算法由DQN [1]，Double DQN [17]和Dueling DQN [19]组合得到最近的算法模型，其中的算法参考了Human-level Control Through Deep Reinforcement Learning[1]，Deep Reinforcement Learning with Double Q-Learning[17]，Prioritized Experience Replay[18]，Dueling Network Architecture for Deep Reinforcement Learning[19]四篇论文中的算法。

项目代码可以在Github上查找：

https://github.com/MLJejuCamp2017/DRL_based_SelfDrivingCarControl

下图为最终的DQN模型。

仿真模拟

本文使用的模拟器是由 Unity 和 Unity ML-Agents 构建的。模拟道路环境是由五车道组成的高速公路行车道。其他车辆在距离主车辆一定距离内的随机车道中心产生。另外，假定其他车辆在大多数情况下不会彼此碰撞，并且可以执行五个动作（加速，减速，车道改变到右车道，车道改变到左车道，保持当前状态）。其他车辆的各种行动以多种随机方式出现，改变了模拟环境，因此Agent 可以体验许多不同的情况。模拟器的观测结果有两种类型：一种是图像，另一种是激光雷达范围阵列。由于前面有摄像头，因此每一步都会观察到原始像素图像。 LIDAR传感器检测有一个360度的射线范围，如果光线扫描到物体，它会返回主车辆和物体之间的距离。如果没有障碍物，则返回模拟器每一步的最大感应距离。

结果与结论

本文提出的驾驶策略算法使用Tensorflow 架构[25]实现的，平均速度，车道变化次数和超车次数等数据都可以从中读出。为验证多输入体系结构的优势，该体系结构分别将来自摄像机和LIDAR的数据通过CNN和LSTM相结合，另外还使用了两个仅用摄像机输入和LIDAR输入的策略网络作为对比。

比较三种不同的不同输入的网络架构：摄像头，LIDAR，摄像头和激光雷达。随着训练的进行，自动驾驶车辆会超越更多的车辆并以更快的速度行驶，而不会在每个输入车辆的环境中，出现不必要的车道变化。结果显示，多输入架构在平均速度和平均超车次数方面表现出最佳性能，分别为73.54km / h和42.2。但是，当使用多输入架构时，车道变化的数量最多，其平均值为30.2。尽管所提出的算法的目标是减少不必要的车道变化的数量，但多输入架构的结果在车道变化的数量方面是最高的。对于LIDAR和摄像头架构中，即使前车速度较慢，它们有时也会显示跟随前方车辆而不更改车道。因此，研究车道变化的数量是寻找最优策略的关键。

在本文中，驾驶策略网络充分利用传统的DAS功能，在大多数情况下保证了车辆行驶的安全性。使用深度强化学习算法训练的自主车辆，在模拟高速公路场景中成功驾驶，所提出的策略网络使用多模式输入，不会造成不必要的车道变化，在平均速度，车道变化次数和超车次数方面，车辆比具有单输入的车辆更好地驾驶。这项研究的结果表明，自主车辆可以由受过深度强化学习训练的主管来控制。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

DAS

DAS

+关注

关注
0

文章
108

浏览量
31237
自动驾驶

自动驾驶

+关注

关注
787

文章
13986

浏览量
167597
强化学习

强化学习

+关注

关注
4

文章
269

浏览量
11342

原文标题：IEEE IV 2018：基于深度增强学习的高层驾驶决策研究

文章出处：【微信号：IV_Technology，微信公众号：智车科技】欢迎添加关注！文章转载请注明出处。

一文聊聊自动驾驶测试技术的挑战与创新

，包括场景生成的多样性与准确性、多传感器数据融合的精度验证、高效的时间同步机制，以及仿真平台与实际场景的匹配等问题。 自动驾驶测试的必要性与现状 1.1 自动驾驶技术的复杂性推动测试变革自动

发表于 12-03 15:56 •366次阅读

如何使用 PyTorch 进行强化学习

的计算图和自动微分功能，非常适合实现复杂的强化学习算法。 1. 环境（Environment）在强化学习中，环境是一个抽象的概念，它定义了

发表于 11-05 17:34 •529次阅读

人工智能的应用领域有自动驾驶吗

的核心技术 自动驾驶汽车的核心依赖于人工智能，尤其是机器学习和深度学习技术。这些技术使得汽车能够通过传感器收集大量数据，并实时进行分析。以下是一

发表于 10-22 16:18 •778次阅读

Mobileye端到端自动驾驶解决方案的深度解析

强大的技术优势。 Mobileye的端到端解决方案概述 1.1 什么是端到端自动驾驶？端到端自动驾驶解决方案是一种新型的智能系统架构，旨在通过AI学习从感知到决策再到操作的全流程。M

发表于 10-17 09:35 •541次阅读

NVIDIA推出全新深度学习框架fVDB

在 SIGGRAPH 上推出的全新深度学习框架可用于打造自动驾驶汽车、气候科学和智慧城市的 AI 就绪型虚拟表示。

发表于 08-01 14:31 •747次阅读

FPGA在自动驾驶领域有哪些优势?

FPGA（Field-Programmable Gate Array，现场可编程门阵列）在自动驾驶领域具有显著的优势，这些优势使得FPGA成为自动驾驶技术中不可或缺的一部分。以下是FPGA在自

发表于 07-29 17:11

FPGA在自动驾驶领域有哪些应用？

是FPGA在自动驾驶领域的主要应用：一、感知算法加速图像处理：自动驾驶中需要通过摄像头获取并识别道路信息和行驶环境，这涉及到大量的图像处理任务。FPGA在处理图像上的运算速度快，可并行性强，且功耗

发表于 07-29 17:09

TensorFlow与PyTorch深度学习框架的比较与选择

深度学习作为人工智能领域的一个重要分支，在过去十年中取得了显著的进展。在构建和训练深度学习模型的

发表于 07-02 14:04 •1214次阅读

深度学习在自动驾驶中的关键技术

随着人工智能技术的飞速发展，自动驾驶技术作为其中的重要分支，正逐渐走向成熟。在自动驾驶系统中，深度学习技术发挥着至关重要的作用。它通过模拟人脑的学习

发表于 07-01 11:40 •923次阅读

中级自动驾驶架构师应该学习哪些知识

是一个新兴且不断发展的职业。随着技术的进步，这一领域将继续吸引更多人才，推动自动驾驶技术的发展。 自动驾驶架构师在设计和开发

发表于 06-20 21:47 •376次阅读

初级自动驾驶架构师应该学习哪些知识

是一个新兴且不断发展的职业。随着技术的进步，这一领域将继续吸引更多人才，推动自动驾驶技术的发展。 自动驾驶架构师在设计和开发

发表于 06-20 21:45 •416次阅读

自动驾驶：揭秘高精度时间同步技术（一）

本文重点探讨了高精度时间同步技术在多传感器融合中的重要性。通过选择统一的时钟源和基于以太网的协议，确保多传感器数据在统一时间框架内准确处理，为自动驾

发表于 05-29 10:40 •5441次阅读

智能驾驶大模型：有望显著提升自动驾驶系统的性能和鲁棒性

智能驾驶大模型是近年来人工智能领域和自动驾驶领域最为前沿的研究方向之一，它融合了深度学习、多模态

发表于 05-07 17:20 •1847次阅读

2025量产L4 RoboTaxi，滴滴自动驾驶再进一步

的面向出行服务的L4自动驾驶技术方案，合作打造L4无人驾驶量产车，实现自动驾驶领先技术与新能源整车制造成熟经验的深度融合。滴滴

发表于 04-18 00:12 •4449次阅读

未来已来，多传感器融合感知是自动驾驶破局的关键

驾驶的关键的是具备人类的感知能力，多传感器融合感知正是自动驾驶破局的关键。昱感微的雷视一体多传感器融合方案就好像

发表于 04-11 10:26

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

一个使用传统DAS和深度强化学习融合的自动驾驶框架

评论

一文聊聊自动驾驶测试技术的挑战与创新

如何使用 PyTorch 进行强化学习

人工智能的应用领域有自动驾驶吗

Mobileye端到端自动驾驶解决方案的深度解析

NVIDIA推出全新深度学习框架fVDB

FPGA在自动驾驶领域有哪些优势?

FPGA在自动驾驶领域有哪些应用？

TensorFlow与PyTorch深度学习框架的比较与选择

深度学习在自动驾驶中的关键技术

中级自动驾驶架构师应该学习哪些知识

初级自动驾驶架构师应该学习哪些知识

自动驾驶：揭秘高精度时间同步技术（一）

智能驾驶大模型：有望显著提升自动驾驶系统的性能和鲁棒性

2025量产L4 RoboTaxi，滴滴自动驾驶再进一步

未来已来，多传感器融合感知是自动驾驶破局的关键