一种避免碰撞的算法—GA3C-CADRL分析-电子发烧友网

一般来说，在行人间行进的智能体在进行导航时，需要能够对当前的环境做出相应的观察，以避免碰撞，进行下一步动作。在本文中，麻省理工学院航空航天控制实验室的Michael Everett和 Jonathan P. How教授，以及Oculus Research的Yu Fan Chen教授，提出一种新型避免碰撞的算法—GA3C-CADRL，通过深度强化学习进行模拟训练，而不需要智能体对其他智能体的动态行为有所了解，并通过在网络的输入端使用LSTM，使得算法能够依据对相邻智能体的观察结果来做出决策，进而选择下一个动作。

一般来说，在行人之间进行导航的机器人是使用避免碰撞算法（collision avoidance algorithms）来实现安全且高效的操作的。在最近的一些研究中，提出了将深度强化学习算法作为对复杂的交互和协作进行建模的框架。然而，当环境中智能体的数量增加时，该操作的实现是通过对其他智能体偏离现实的行为的关键性假设来实现的。这项研究对我们以往的研究方法进行了扩展，开发出一种算法，该算法可以在各种类型的动态智能体中学习避免碰撞，而不必假设它们遵循任何特定的行为规则。此外，这项研究还引入了一种使用长短期记忆网络（LSTM）的策略，该策略使得算法能够使用任意数量的其他智能体的观测值，而不是像以往那些需要具有固定观测值大小的方法。当智能体的数量增加时，我们所提出的算法在模拟中的性能表现要优于我们以往的方法，并且该算法是在一个没有使用3D激光雷达的、以人类行走速度行驶的全自动机器车辆上运行得以证明的。

可以这样说，在行人之间进行导航的机器人将能够观察到许多人类行为，例如合作或遗忘。行人不仅能够移动障碍物，而且还可以不断地做出机器人只能部分观察的决策。这项研究解决了在存在其他决策智能体的世界中运行的智能体所面对的避免碰撞问题，特别是考虑到机器人—行人领域。分散式避免碰撞算法的一个基本问题是：智能体所知道和假定的其他智能体的信念状态、策略和意图是什么？如果没有智能体之间的沟通，这些属性不是可以直接进行衡量的，但它们可以通过推理得到。

图1：机器人在行人之间进行导航。机器人使用机载传感器来感知环境并运行避免碰撞算法以保持安全和有效的操作。

智能体对其他智能体行为的假设将会影响其决定采取何种行动。在最简单的情况下，智能体假设其他智能体是静态的，并且足够快地进行重新规划以避免碰撞。另一种方法是，假定其他智能体是动态障碍，但速度保持不变。此外，智能体可以假定其智能体是决策制定者，其中，它们的速度可能会随时根据已知或未知的策略（决策规则）进行改变。即使机器人知道行人的决策规则，但因为其他智能体的意图是未知的（例如目标目的地），所以也不可能完全预测其他非沟通的决策智能体（例如行人）将如何响应智能体所作出的决策。因此，与其试图明确预测其他智能体的行为，最近的研究方法已经使用强化学习（RL）来对智能体之间复杂的相互作用和协作进行建模。

图2：LSTM展开以显示每个输入。在每个决策步骤中，智能体将一个可观察的状态向量，即每个附近的智能体，依次送入LSTM单元。LSTM单元将相关信息存储在隐藏状态中，hi。最终隐藏状态hn，将其他智能体的整个状态编码成固定长度的向量，然后馈送到网络的前馈部分。智能体的顺序是通过减少到自我智能体的距离来进行排序的，以便最近的智能体对hn有近因效应（recent effect）。

虽然基于学习的方法已被证明在这个领域内具有良好的性能表现，但现有方法对其他智能体，如同质性或短时间尺度上的特定运动模型做了细微的假设。在这项研究中，我们对以往的研究方法进行了扩展以学习避免碰撞策略，而不假设其他智能体遵循任何特定的行为模型。

图3：网络架构。附近智能体的的可观察状态被按顺序馈送到LSTM中。

避免碰撞的另一项关键挑战是环境中其他智能体的数量有所不同，而在这一领域中使用的前馈神经网络需要固定维度的输入。现有的策略明确了网络可观察到的智能体的最大数量，或使用原始传感器数据作为输入。本次研究采用自然语言处理的思想，通过在网络输入端使用长短期记忆网路（LSTM）单元，将现实世界中不同的大小状态（例如：其他智能体的位置）编码成固定长度的向量。这使得该算法可以根据机器人周围任意数量的智能体，来做出相应的决策。

本次研究的主要贡献在于：

•我们对避免碰撞的算法做了扩展，使其不必假定其他智能体的行为。

•我们提出了一种策略，使得算法能够利用任意数量智能体的观察结果。

•我们通过模拟结果证明了新框架的优点。

•在不使用3D激光雷达的情况下，通过在行人间运行的机器人进行了算法演示。

目前，该软件已经作为开源ROS软件包cadrl_ros发布。

图4：机器人硬件。这款紧凑、低成本（<1000美元）的感测套件使用单个2D激光雷达和3个Intel RealSense R200摄像头。总传感器和计算组件的高度小于3英寸，为货物留出足够的空间。

本次研究提出了一种避免碰撞的算法—GA3C-CADRL，该算法仅通过深度强化学习进行模拟训练，而不需要对其他智能体的动态有所了解。此外，我们还提出了一种策略，通过在网络的输入端使用LSTM，使得算法能够依据对任意数量的相邻智能体的观察结果来做出决策进而选择下一个动作。随着环境中智能体数量的增加，新方法的性能将优于现有方法。研究结果表明，该算法能够在不被明确执行（explicity enforced）的情况下学习问题结构，并支持使用LSTM将大量智能体在现实世界中的状态编码为固定长度的表征。新算法在一个小型真实机器人上成功运行，该机器人在不使用3D激光雷达的情况下，可以在保持人类行走速度的同时，在行人之间进行导航。今后的研究将利用本文全新的、更为通用的公式，借助智能体的行为选择，更为明确地研究信号意图所带来的影响。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
210

文章
28205

浏览量
206532
算法

算法

+关注

关注
23

文章
4599

浏览量
92643
导航

导航

+关注

关注
7

文章
522

浏览量
42377
激光雷达

激光雷达

+关注

关注
967

文章
3939

浏览量
189598

原文标题：MIT提出使用「深度强化学习」帮助智能体在运动中做出「动作决策」

文章出处：【微信号：IV_Technology，微信公众号：智车科技】欢迎添加关注！文章转载请注明出处。

一种基于深度学习的二维拉曼光谱算法

近日，天津大学精密仪器与光电子工程学院的光子芯片实验室提出了一种基于深度学习的二维拉曼光谱算法，成果以“Rapid and accurate bacteria identification

发表于 11-07 09:08 •131次阅读

<b class='flag-5'>一种</b>基于深度学习的二维拉曼光谱<b class='flag-5'>算法</b>

一种利用CSD16327Q3实现企业固态硬盘钽电容短路保护的方法

电子发烧友网站提供《一种利用CSD16327Q3实现企业固态硬盘钽电容短路保护的方法.pdf》资料免费下载

发表于 10-25 10:22 •0次下载

<b class='flag-5'>一种</b>利用CSD16327Q<b class='flag-5'>3</b>实现企业固态硬盘钽电容短路保护的方法

一种完全分布式的点线协同视觉惯性导航系统

在本文中，我们提出了一种完全分布式的点线协同视觉惯性导航系统。我们通过蒙特卡罗模拟和真实环境数据集，在稠密特征或稀疏特征环境下将所提出的算法与其他四种算法进行了比较。所有结果表明，我们

发表于 09-30 14:45 •316次阅读

<b class='flag-5'>一种</b>完全分布式的点线协同视觉惯性导航系统

GA-Z77-DS3H主板电路图

技嘉GA-Z77-DS3H主板电路图583304 GA-Z77-DS3H-R10.pdf

发表于 07-29 13:18 •8次下载

GA-Z77X-UD3H主板电路图

电子发烧友网站提供《GA-Z77X-UD3H主板电路图.pdf》资料免费下载

发表于 07-29 13:17 •2次下载

rup是一种什么模型

RUP（Rational Unified Process，统一建模语言）是一种软件开发过程模型，它是一种迭代和增量的软件开发方法。RUP是由Rational Software公司（现为IBM的

发表于 07-09 10:13 •1153次阅读

一种手掌大小的气体传感器和分析仪，可实时检测多种有毒气体

据麦姆斯咨询报道，欧洲的一个研究项目正在开发一种手掌大小的气体传感器和分析仪，能够安装在灯柱上实时检测多种有毒气体。

发表于 05-07 09:06 •603次阅读

别克ELECTRA E5荣获中保研C-IASI安全碰撞测试全优评级

别克ELECTRA E5荣获中保研C-IASI安全碰撞测试全优评级

发表于 03-19 17:08 •595次阅读

请问ST25RU3993-HPEV的自适应防碰撞算法是在板子上面实现的吗？

请问ST25RU3993-HPEV的自适应防碰撞算法是在板子上面实现的？还是在STSW-ST25RU001上位机上面实现的？这个算法可否提供？STSW-ST25

发表于 03-19 06:50

AEB是一种汽车主动安全技术，主要由哪3大模块构成？

AEB是一种汽车主动安全技术，主要由哪3大模块构成

发表于 02-20 06:06

一种用于调控Ga2O3薄膜的表面电子结构的的热重组工程

氧化镓（Ga2O3）因其超宽的带隙和高临界击穿电场，可满足当前器件大功率和微型化的发展需求，已成为新一代电力电子和光电器件的热门材料。目前日盲紫外光电探测是Ga2O3的一个重要应用，而

发表于 01-19 15:35 •836次阅读

介绍一种使用2D材料进行3D集成的新方法

美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法。

发表于 01-13 11:37 •1031次阅读

【技术干货】PID算法原理分析及优化

小编一起来学习PID算法的原理分析及优化，快来get！一、PID原理 PID控制方法将偏差的比例（proportional）、积分（integral）、微分（derivative）通

发表于 12-22 15:38

基于交变栅压调制的Ga2O3光电探测器

近日，中国科学技术大学龙世兵课题组提出了一种Ga2O3光电探测器的交变栅压调制方案，为光电探测器的研究提供了新的思路。

发表于 12-05 11:33 •303次阅读

基于碰撞电离率模型的Miller公式S参数拟合分析

我们应用简单的Fulop模型对平行平面结进行了分析，对复杂的Chynoweth模型进行了化简，由化简的公式可得碰撞电离率积分和外加电压之间存在一定的关系。

发表于 11-27 14:59 •1121次阅读