探讨深度学习在自动驾驶中的应用-电子发烧友网

2018年8月4月，北京理工大学大数据创新学习中心与中国科学院人工智能联盟标准组联合主办了为期一天的专家讲座活动------“2018深度强化学习：理论与应用”学术研讨会。活动现场参与人数超过600人，在线同步观看人数超过12万人。学界与业界专家齐聚一堂，共同分享学习深度强化学习领域的最新研究成果。本文小编亲临现场，为您揭秘深度强化学习在自动驾驶技术中的应用详细报告。

杨明珠大连交通大学

今天我的演讲内容主要分为四个部分：深度强化学习的理论、自动驾驶技术的现状以及问题、深度强化学习在自动驾驶技术当中的应用及基于深度强化学习的礼让自动驾驶研究。

首先是深度强化学习的理论，DQN做了深度的拓展，在离散型动作中应用效果比较好，但连续性动作当中表现效果并不好，所以做了一些改进和发展，如Double DQN等。

在连续型动作之中我个人比较喜欢DDPG的理念，原因有两点：①之前学习到的经验和Policy数据放到Replaybuffer当中，若之后的行为当中发现和之前相似的地方就会直接从Replaybuffer当中把之前的经验和数据直接调用出来，这样就可以避免在重复进行一种训练或者采集的方式，节省时间、提高效率；②信任域的策略优化，简称TRPO，其实是对之前的算法做了改进，如对状态分布进行处理，利用重要性采样对动作分布进行的处理及在约束条件当中，把平均KL散度代替最大KL散度。

PPO也是最近比较热门的一种深度强化学习算法，分为N个Actor，同时进行一些工作，这样平均分配给很多个actor，合作来做的话效率会更高，而且会节省更多的时间。HER算法也是个人最喜欢的之前经过所有训练，经验总结出来，这个工作结束以后全部消化一遍，然后做第二次实验或者工作的时候吸取了前面的经验，然后再进行下面的训练或者工作的话，就会避免一些错误，如无人驾驶撞车了，上次为什么撞车了呢？第二次需要避免这个错误，即不让它撞车。

自动驾驶公司分为互联网公司（如Google、百度、苹果和Uber）及传统车企（如福特和汽车配件的博世、大众、通用、宝马和奔驰等）。目前自动驾驶技术有三个问题：①感知方面也可以叫做信息的预处理，主要包括对图像或者视频信息的分割、检测或者识别，如果识别的准确率更高可能会对之后的决策有比较好的优势。运行当中也需要用到分割工作，如沿着车线走需要分割车线位置等。②决策方面其实是为了模仿人类，所以需要经过很多训练，利用强化学习来做自动驾驶即像人考驾照的过程，学习怎样开车，最后达到上路的水平。③控制方面就是故障安全机制，遇到危险的情况下来不及反应，就需要安全机制保障车内的人身安全，我们做自动驾驶也就是为了减少交通事故的发生率，让更多的人可以安安全全地坐上自动驾驶汽车。

现在解决自动驾驶技术问题有两种方法：一种是低精度定位+低精度地图+高准确识别率，另一种是高精度定位+高精度地图+更准确的识别率。

百度是有采集信息的车辆，其实也是比较辛苦的，需要采集所有全景的图像来做上传，最后再和百度地图结合，这样才能制定比较好的高精度地图，这样成本会非常的高。

关于深度强化学习在自动驾驶当中的应用，有几个团队：WAYVE团队、本田研究院团队、堪萨斯州立大学团队、韩国汉阳大学团队。Wayve是我个人比较欣赏的团队，是由英国剑桥的博士毕业生创立的自动驾驶。

Wayve在今年7月发布的文章是《Learning to Drive in a Day》，仅仅用了一个前景摄像头，就是车前方的视频作为输入的State，输出的Action就是保证在同一车道内行进距离，行驶距离长，reward就大；行驶距离短，reward就短。结果是只用了单个摄像头让自动驾驶汽车在三十分钟内学会了保持在同一车道内行驶二百五十米距离。这样的方式我们是比较欣赏，但不太建议使用这种仅仅基于视觉的方式来做自动驾驶，因为开车肯定是眼观六路耳听八方，侧面或者后面出现任何问题没有办法及时预警，没有办法及时处理，将来在上路的问题上肯定是有很大的缺陷。

宾夕法尼亚大学，本田研究院和乔治亚理工学院合作团队是采用TTC模式，能够提前知道岔路口的状态，如何通过岔路口并且预测到达这个岔路口的时间是不是有危险，有没有足够的时间进行制动，TTC一般都是二点七秒，那个，该团队存在的缺陷因为就是DQN存在的问题，即在离散动作当中表现优异，在连续性动作中表现不好，如果是在高速行驶的情况下如何应用，解决得并不是太好。

如何在对抗性极强的情况下，对碰撞避免机制的行为进行训练，使系统进入不安全预警状态，堪萨斯州立大学团队提出了一种基于深度强化学习的新框架，用于对自动驾驶汽车的碰撞避免机制的行为进行基准测试，但是有一个缺点：无感知单元的预处理过程，并且没有在连续性动作的决策任务。

我们将这些思想做了融合，提出了我们的一种新的自动驾驶技术，就是礼让自动驾驶。我们的礼让自动驾驶也是从三个方面来说：感知、决策和控制单元。什么叫做礼让，包括”安全行车、礼让三先”:先让，先慢，先停，我不去撞别人，别人撞我的时候要先避让一下，避免发生撞击的情况。

感知部分是围绕检测、识别和图像分割等方面，检测当中我们用的最多的是YOLO算法，如果车速特别快的话也需要快速的检测，然后再去做一些决策方面的，识别方面个人比较喜欢VCG模型，模型结构简单而且，识别效果也是比较不错的。分割当中有局部分割、语义分割和全景分割，现在应用最多的是语义分割和全景分割。感知模块我们借鉴AndreasGeiger的思想，将地图、三维传感器、二维传感器中的信息给到“世界模型”（world model），我们把感知部分所有信息汇总到一个地图当中，做成一个Map，相当于解除了我们对于高精度地图的高度依赖感，同时可以理解每个时刻的不同物体，相对于地面和道路这些位置，并且可以做之后的预测，相当于之后的路径规划问题。

我们采用DDPG算法改进自动驾驶决策的部分，同时加入礼让的驾驶概念，就是我们在遇到问题的时候要首先想到先做避让，也就是主动避让的情况，连续动态的情况下可以让自动驾驶汽车避免发生碰撞。

那么“礼让”这一词最早起源于机器人，但机器人的速度会比较慢，如果转移到车辆方面其实还是有些难度的，而且高速当中的礼让应该还是比较困难的问题，所以这也是我们日后工作的难点。决策方面我们可能会结合PPO与HER的思想，个人比较喜欢这两种算法，所以会结合在里面，自动驾驶在高速运行的情况下也会需要一个快速决策的过程，所以选用PPO算法使得速度能够提升。

驾驶一段时间以后我们会在第二次自动驾驶的时候总结第一次的经验，因为人都是在经验当中不断积累，日后才能达到会开车的水平，所以我们也在说学习驾车的思想，然后通过HER促进自动驾驶车辆，总结之前的经验，使其在之后的驾驶过程当中少犯错误，尽量避免发生不必要的危险。决策的过程当中个人还是比较喜欢Actor-Critic机制，通用reply buffer是我们对之前驾驶的经验和其所得到的Policy的存储过程，之后的驾驶任务当中遇到类似的问题直接可以采用这种经验，不需要再做其它的改变或者训练。

控制方面主要还是RSS模型上面做出一些改进，因为不可能只是关注到前方的避让或者碰撞，也要关注后方，别人撞你的时候应该怎么办，所以采用的是双保险的机制，为了保证自动驾驶汽车的安全。当然如果传感器检测到有危险，或者是距离太近的情况下，自动驾驶汽车会直接进入安全机制，或者是作出礼让的行为，因为我们贯穿始终的都是礼让自动驾驶。

仿真平台TORCS属于3D赛车模拟游戏，个人比较喜欢通过这个来玩赛车游戏，做的效果是很好的，而且是世界通用的赛车游戏，也是相对有说服力，效果会比较好一点，但是场景单一，不适合在复杂场景下做训练。

结论与展望：DQN出现最早，改良版本最多，离散情况效果最佳，原理相对较简单，易于掌握与入门。DDPG是在DQN的基础上进行改良，原理易懂，在连续动作中表现优异，适用于自动驾系统的决策研究。之后出现的A3C、PPO、HER等算法在连续动作中都有很好的应用与体现。目前，有很多人在将分层强化学习和逆向强化学习（模仿学习）应用于自动驾驶技术当中，效果有待考究实验。

实际上，基于时间空间的博弈动力学研究表明，机器人在目前的实验与发展状态下不具备伦理判断能力与决策功能。所以，将机器人置于伦理困境是超出了机器人研究的能力范围。德国联邦交通和数字基础设施部委员会说过，自动驾驶系统需要更好地适应人之间的交流，也就是让车辆或者机器适应我们的生活节奏，不是我们人去适应机器应该怎么做，或者是机器人之间的交流，总体来说就是以人为主，包括之后发生不可避免事故的时候主动的决定权，包括最终行为的决定权，必须要归人来掌握，尤其是必须归驾驶员掌握。吴焦苏老师的一句话让我印象深刻：“自动驾驶系统的安全性不能得到严格保证之前不应当被批准量产”。其实这也是对我们生命的负责任，因为如果自动驾驶车辆不能保证百分之百不发生事故，或者不能保证百分之百不会撞击的话就不能上路，因为我们要对自己的生命负责，也要对他人生命负责。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自动驾驶

自动驾驶

+关注

关注
784

文章
13926

浏览量
166959
深度学习

深度学习

+关注

关注
73

文章
5512

浏览量
121506

原文标题：深度强化学习在自动驾驶技术中的应用——杨明珠

文章出处：【微信号：IV_Technology，微信公众号：智车科技】欢迎添加关注！文章转载请注明出处。

AI自动化生产：深度学习在质量控制中的应用

生产效率、保证产品质量方面展现出非凡的能力。阿丘科技「AI干货补给站」推出《AI自动化生产：深度学习在质量控制中的应用》文章，

发表于 01-17 16:35 •131次阅读

AI<b class='flag-5'>自动</b>化生产：<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>在</b>质量控制<b class='flag-5'>中</b>的应用

从《自动驾驶地图数据规范》聊高精地图在自动驾驶中的重要性

自动驾驶地图作为L3级及以上自动驾驶技术的核心基础设施，其重要性随着智能驾驶技术的发展愈发显著。《自动驾驶地图数据规范》（DB11/T 2041-2022）由北京市规划和自然资源委员会

发表于 01-05 19:24 •1719次阅读

从《<b class='flag-5'>自动驾驶</b>地图数据规范》聊高精地图<b class='flag-5'>在</b><b class='flag-5'>自动驾驶</b><b class='flag-5'>中</b>的重要性

MEMS技术在自动驾驶汽车中的应用

MEMS技术在自动驾驶汽车中的应用主要体现在传感器方面，这些传感器为自动驾驶汽车提供了关键的环境感知和数据采集能力。以下是对MEMS技术在

发表于 11-20 10:19 •555次阅读

人工智能的应用领域有自动驾驶吗

人工智能的应用领域确实包括自动驾驶 。近年来，随着科技的迅猛发展，人工智能（AI）的应用已经渗透到生活的方方面面，特别是在自动驾驶领域，AI技术展现出了巨大的潜力和价值。一、人工智能在自动驾

发表于 10-22 16:18 •684次阅读

Mobileye端到端自动驾驶解决方案的深度解析

强大的技术优势。 Mobileye的端到端解决方案概述 1.1 什么是端到端自动驾驶？端到端自动驾驶解决方案是一种新型的智能系统架构，旨在通过AI学习从感知到决策再到操作的全流程。Mobileye的端到端方案依赖于

发表于 10-17 09:35 •457次阅读

NVIDIA推出全新深度学习框架fVDB

在 SIGGRAPH 上推出的全新深度学习框架可用于打造自动驾驶汽车、气候科学和智慧城市的 AI 就绪型虚拟表示。

发表于 08-01 14:31 •680次阅读

FPGA在自动驾驶领域有哪些优势?

FPGA（Field-Programmable Gate Array，现场可编程门阵列）在自动驾驶领域具有显著的优势，这些优势使得FPGA成为自动驾驶技术中不可或缺的一部分。以下是FP

发表于 07-29 17:11

FPGA在自动驾驶领域有哪些应用？

是FPGA在自动驾驶领域的主要应用：一、感知算法加速图像处理：自动驾驶中需要通过摄像头获取并识别道路信息和行驶环境，这涉及到大量的图像处理任务。FPGA

发表于 07-29 17:09

深度学习在自动驾驶中的关键技术

随着人工智能技术的飞速发展，自动驾驶技术作为其中的重要分支，正逐渐走向成熟。在自动驾驶系统中，深度学习

发表于 07-01 11:40 •863次阅读

中级自动驾驶架构师应该学习哪些知识

是一个新兴且不断发展的职业。随着技术的进步，这一领域将继续吸引更多人才，推动自动驾驶技术的发展。 自动驾驶架构师在设计和开发自动驾驶系统时将面临一系列挑战，包括：安全关键的边缘情况、领

发表于 06-20 21:47 •339次阅读

初级自动驾驶架构师应该学习哪些知识

是一个新兴且不断发展的职业。随着技术的进步，这一领域将继续吸引更多人才，推动自动驾驶技术的发展。 自动驾驶架构师在设计和开发自动驾驶系统时将面临一系列挑战，包括：安全关键的边缘情况、领

发表于 06-20 21:45 •366次阅读

智能驾驶大模型：有望显著提升自动驾驶系统的性能和鲁棒性

智能驾驶大模型是近年来人工智能领域和自动驾驶领域最为前沿的研究方向之一，它融合了深度学习、多模态融合、世界模型构建等多种技术，有望显著提升自动驾驶

发表于 05-07 17:20 •1716次阅读

未来已来，多传感器融合感知是自动驾驶破局的关键

方面表示，这是L4级自动驾驶公司和车企为了打造Robotaxi量产车，在国内成立的首个合资公司。首款车型已完成产品定义，正在进行设计造型的联合评审，计划明年实现量产。未来已来，2024年是全球L3

发表于 04-11 10:26

FPGA在深度学习应用中或将取代GPU

、笔记本电脑或机架式服务器上训练神经网络时，这不是什么大问题。但是，许多部署深度学习模型的环境对 GPU 并不友好，比如自动驾驶汽车、工厂、机器人和许多智慧城市环境，在这些环境中硬件必

发表于 03-21 15:19

为什么深度学习的效果更好？

导读深度学习是机器学习的一个子集，已成为人工智能领域的一项变革性技术，在从计算机视觉、自然语言处理到自动驾驶汽车等广泛的应用中取得了显著的成

发表于 03-09 08:26 •682次阅读

搜索历史

探讨深度学习在自动驾驶中的应用

评论

AI自动化生产：深度学习在质量控制中的应用

从《自动驾驶地图数据规范》聊高精地图在自动驾驶中的重要性

MEMS技术在自动驾驶汽车中的应用

人工智能的应用领域有自动驾驶吗

Mobileye端到端自动驾驶解决方案的深度解析

NVIDIA推出全新深度学习框架fVDB

FPGA在自动驾驶领域有哪些优势?

FPGA在自动驾驶领域有哪些应用？

深度学习在自动驾驶中的关键技术

中级自动驾驶架构师应该学习哪些知识

初级自动驾驶架构师应该学习哪些知识

智能驾驶大模型：有望显著提升自动驾驶系统的性能和鲁棒性

未来已来，多传感器融合感知是自动驾驶破局的关键

FPGA在深度学习应用中或将取代GPU

为什么深度学习的效果更好？