如何让一辆自动驾驶汽车以最完美的速度上路？-电子发烧友网

剑桥大学两位博士创办的公司使用强化学习算法，无需密集标注的3D地图，无需人工设计的规则，让汽车在短短20分钟内学会了自动驾驶。公司成立不到50天，已经拿到了优步首席科学家的投资。

今天的自动驾驶汽车虽然已经性能不错，但大多数自动驾驶汽车都使用大量的摄像头和传感器、地图工具和大量的计算机程序，比较不完美。

如何让一辆自动驾驶汽车以最完美的速度上路？有一种做法是增加操作系统的智能而不是传感器。

剑桥大学工程系的两位博士创办的Wayve团队使用强化学习算法，第一次实现让计算机学会像人一样，通过练习来完成自动驾驶。该算法与人类安全驾驶员一起教会了汽车如何在“15-20分钟”的时间内保持在一条车道内。

Wayve团队认为，自动驾驶需要的是一台更智能的电脑，而不是更多的传感器或程序，他们的研究也证明了自己的理论。

DeepMind玩Atari游戏需要数百万次试验，但深度强化学习让汽车20分钟内学会自动驾驶

DeepMind已经证明，深度强化学习方法可以在许多游戏中实现超越人类的表现，包括围棋、象棋和许多电脑游戏，而且几乎总是胜过任何基于规则的系统。

Wayve团队深得DeepMind和OpenAI经常使用的强化学习算法精髓，并且巧妙的用在了自动驾驶车上。

为了证明强化学习+自动驾驶这种方法可行，Wayve团队配置了一辆雷诺Twizy，它很简单，只配备了一个摄像头和油箱、刹车和转向控制等装置。算法使用“深度卷积神经网络”的模型，该模型接收仅使用一个GPU处理的单个图像的输入。

在视频中，最初，汽车就像婴儿迈出了第一步，步履蹒跚。但当汽车开始转向车道外时，一名安全驾驶员介入，重新把车转向车道内。算法了解到每次修正行驶过程时都是在纠错，并根据它在没有任何干预的情况下行进了多远而得到“奖励”。

通过这种方式，计算机能够在大约20分钟内学会如何防止汽车从路上跑偏。在那之后，它可以无限期地行驶下去。

Wayve团队的这项研究表明，类似的哲学在现实世界中也是可能的，特别是在自动驾驶汽车中。而且，DeepMind玩Atari游戏的算法需要数百万次试验才能解决一个任务。而Wayve的团队在不到20次的试验中就学会了让车始终“沿着单行道行驶”。

无需密集标注的3D地图，无需人工设计的规则

大型科技公司做自动驾驶通常采用工程思维方法，即设计一种基于规则的系统，处理每一个边缘问题，同时使用更多的传感器，获取更多的数据。这可能会在特定的、狭义的环境中产生令人鼓舞的结果，但并不能真正解决自动驾驶问题。

Wayve的团队是第一个自动驾驶汽车在线学习的例子，每一次尝试都会使它变得更好。那么，具体是怎么做到的呢?

他们给出了技术细节：

他们采用了一种流行的无模型深度强化学习算法——深度确定性策略梯度（deep deterministic policy gradients，DDPG）来解决车道跟踪任务。模型输入是来自单目摄像机的图像。系统迭代了3个过程：探索，优化和评估。

网络架构是一个深度网络，有4个卷积层和3个完全连接层，总共只有不到10k个参数。相比之下，目前表现最优的图像分类架构有数百万个参数。

所有的处理都在汽车的一个图形处理单元（GPU）上进行。

将机器人放到危险的真实环境中工作会带来很多新问题。为了更好地理解手头的任务，找到合适的模型架构和超参数，他们在模拟环境中进行了大量的测试。

上图是一个例子，从不同角度展示了车辆在模拟环境中如何沿着道路行驶。该算法仅看到驾驶员的视角，即上图中间。在每个episode，随机生成一条弯曲的车道，以及道路的纹理和车道标记。agent一直在探索，直到偏离了车道，此时一个episode结束。然后根据搜集到的数据进行策略优化，一直重复这个过程。

基于任务的workflow和训练算法的架构

团队使用模拟测试来尝试不同的神经网络架构和超参数，直到找到仅需很少的训练次数（也就是在只有很少数据的情况下），始终能解决车道跟踪任务的设置。例如，一个发现是，使用自动编码器重建损失来训练卷积层，这大大提高了训练的稳定性和数据效率。

使用DDPG+VAE，极大地提高了从原始像素进行DDPG训练的数据效率，这表明在实际系统上应用强化学习时，state representation是一个重要的考虑因素。实验使用的250米行驶路线如右图所示。

下表是在250米道路上实现自动驾驶车辆的强化学习结果。

团队报告了每个模型的最佳性能。他们观察到baseline RL智能体可以从头开始学习车道跟踪，但VAE变体更有效率，仅在11次训练后就成功学会沿着车道驾驶。

想象一下，部署一个自动驾驶汽车的车队，一开始自动驾驶算法是人类驾驶员表现的95%。这样一个系统不会像视频中随机初始化的模型那样摇摇晃晃，而是几乎能够处理交通信号灯、环形路、十字路口等等各种情况。

经过一天的驾驶和人类安全驾驶员接管提供的反馈，系统能够在线提升，也许能提升到96%。一个星期后，提高到98%；一个月后，达到人类表现的99%。几个月后，这个系统的表现可能以及超过了人类，因为它能从多名安全驾驶员的反馈中获益。

在20分钟内就学会了从零开始沿着车道行驶，那么，想象一下，一整天的话可以学到什么？

两位剑桥博士创办，公司成立不到50天已获优步首席科学家投资

Wayve于今年5月22日刚刚创立，创始人是两位来自英国剑桥大学的博士Amar Shah和Alex Kendall。

Wayve团队现有约10名成员，由来自剑桥大学和牛津大学的机器人、计算机视觉和人工智能专家组成，他们之前曾在NASA、谷歌、Facebook、Skydio和微软等公司工作过。他们专注于利用深度学习解决视觉场景理解、不确定环境中的自主决策等问题。

值得一提的是，剑桥大学教授、Uber首席科学家Zoubin Ghahramani是Wayve的投资人之一。

不同于大部分自动驾驶车辆的传统思维，Wayve团队号称要构建“端到端的机器学习算法”，将强化学习方法用于自动驾驶汽车。他们认为制造真正的自动驾驶汽车的关键在于软件的自学能力，它需要的是更好的协调，这能够使自主驾驶成为现实。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

传感器

传感器

+关注

关注
2551

文章
51197

浏览量
754436
自动驾驶

自动驾驶

+关注

关注
784

文章
13846

浏览量
166575
强化学习

强化学习

+关注

关注
4

文章
267

浏览量
11266

原文标题：强化学习20分钟，剑桥博士教汽车学会自动驾驶！

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

福特利用机器人开发能"远距遥控"的半自动驾驶系统

` 福特汽车近期展开「远距遥控」半自动驾驶系统实测：只要一套如电玩游戏般的平价控制系统、三台监控萤幕，车上再安装几个基本硬体设备，以及 4G LTE 的网路连线，就能把一辆远在2400

发表于 03-04 14:45

能自动驾驶难道还要人工充电？

，而这些充电设备将会被安装在停车场和道路上。　　Derek Aberle认为，虽然这项技术还需要很长一段时间才能成为现实，但是它能够让自动驾驶汽车实现真正的

发表于 03-03 13:54

【话题】特斯拉首起自动驾驶致命车祸，自动驾驶的冬天来了？

自动驾驶致死的车祸。该车祸是今年5月7日美国弗罗里达洲一位名叫Joshua Brown的40岁大哥开着一辆以自动驾驶模式行驶的Model S

发表于 07-05 11:14

[科普] 谷歌自动驾驶汽车发展简史，都来了解下吧！

合作协议，福特独立自主地开发自动驾驶汽车。　　2016年2月，谷歌自动驾驶汽车首次遭遇交通事故：一辆谷歌

发表于 10-25 11:08

因为「不够安全」，我们就必须拒绝自动驾驶汽车上路？

当提及自动驾驶汽车，汽车行业本身在追问，***的规则制定者和安全倡导者们都在纠结一个基础的问题：究竟如何才是足够安全？这有点像是一场发生在

发表于 04-08 11:17

【威雅利汽车】苹果最新专利曝光，要把VR和AR带进自动驾驶汽车

负责，乘客可以把真实环境替换成不同城市的街景，让旅程变得更加有趣。在3年前，有报道称苹果正在开发代号为Project Titan的自动驾驶汽车，随后也有多名高管隐约证实了这一消息。虽然

发表于 04-24 17:05

自动驾驶零排放汽车让世界更加绿色

的通信，集成电路可以使汽车的自主性能更高。TI的传感器已经应用于驾驶员辅助和自主泊车系统，最终目的是打造一辆全自动驾驶汽车。相对于大多数

发表于 03-11 06:45

车联网对自动驾驶的影响

技能的自动驾驶汽车，可以通过对上海市所有车主的上下班时间收集，通过导航来统筹规划每辆车合适的出发时间，行驶路径，从而达到交通效率的最优解。再或者人类驾驶员无法看到的视野盲区，突然有一辆

发表于 03-19 06:20

如何让自动驾驶更加安全？

了全球范围对自动驾驶安全性的议论：如何让自动驾驶更加安全？真正上路前还要做哪些准备？智能汽车成为全球汽车

发表于 05-13 00:26

自动驾驶汽车的处理能力怎么样？

对环境和拥堵产生积极影响。市场调研公司ABI Research预测：到2030年，道路上四分之一的汽车将会是自动驾驶汽车。行业专家已经为自动驾驶

发表于 08-07 07:13

自动驾驶的五大传感器各有千秋

自动驾驶概念想必大家并不陌生，但对于其中发挥“眼睛”作用，眼观六路耳听八方的各种传感器，可能大家未必非常熟悉。通常而言，为获得良好的路况检测结果，一辆自动驾驶汽车会安装多种传感器，本文

发表于 05-13 08:29

如何保证自动驾驶的安全？

自动驾驶技术为人们勾勒出了一副美好的未来出行的画面：坐上没有方向盘的汽车，一觉睡到公司门口；甚至我们可能不再拥有一辆

发表于 10-22 07:45

边缘计算在自动驾驶汽车的应用

反应。处理速度的任何延迟都有可能是致命的。虽然联网设备的数据处理现在主要是在云端进行的，但在中央服务器之间来回传送数据可能需要几秒钟的时间。这一时间跨度太长了。边缘计算则让自动驾驶

发表于 07-12 08:07

如何从无到有打造一辆自动驾驶车？（硬件篇）精选资料分享

如何构建一辆无人驾驶车呢？先从无人驾驶车的硬件开始介绍。1 简介无人驾驶车由车、线控系统、传感器、计算单元等组成，如图2.1所示。车作为无人...

发表于 07-27 08:07

通用汽车新专利可将任意汽车变成一辆自动驾驶汽车的系统

据外媒报道，通用汽车近日推出一项新的专利，该专利是一个可将任意汽车变成一辆自动驾驶

发表于 02-16 11:35 •1170次阅读

搜索历史

如何让一辆自动驾驶汽车以最完美的速度上路？

评论

福特利用机器人开发能"远距遥控"的半自动驾驶系统

能自动驾驶难道还要人工充电？

【话题】特斯拉首起自动驾驶致命车祸，自动驾驶的冬天来了？

[科普] 谷歌自动驾驶汽车发展简史，都来了解下吧！

因为「不够安全」，我们就必须拒绝自动驾驶汽车上路？

【威雅利汽车】苹果最新专利曝光，要把VR和AR带进自动驾驶汽车

自动驾驶零排放汽车让世界更加绿色

车联网对自动驾驶的影响

如何让自动驾驶更加安全？

自动驾驶汽车的处理能力怎么样？

自动驾驶的五大传感器各有千秋

如何保证自动驾驶的安全？

边缘计算在自动驾驶汽车的应用

如何从无到有打造一辆自动驾驶车？（硬件篇）精选资料分享

通用汽车新专利可将任意汽车变成一辆自动驾驶汽车的系统