美国陆军面向未来多域作战概念研发了一种高效的地面机器人学习模型,该模型提出基于强化学习的策略,可有效减少当前训练强化学习策略的不可预测性,使自主智能体能够推理并适应不断变化的战场条件。
强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习技术具备解决复杂问题的能力,近年来在如围棋、象棋和电子游戏等领域有较为长足的发展。美国陆军将这种强化学习技术应用在地面机器人面临着两个巨大挑战。首先是算法的限制。在强化学习中,策略梯度方法(Policy Gradient Methods)是连续空间可伸缩算法的基础,但是现有技术无法支持更广泛的决策目标,例如风险敏感性、安全约束、对先验知识的探索和发散。其次就是数据量的问题。强化学习需要大量的样本复杂性,而美国陆军多域作战概念和下一代战斗车辆(NGCV)项目目前数据匮乏并不支持现有训练机制。
在陆军多域作战概念和NGCV项目中应用强化学习,训练机制必须提高连续空间中的样本效率和可靠性,ARL通过将现有的策略搜索方案推广到通用工具,取得了重要突破。研究人员为通用程序开发了新的策略搜索方案,并且还确定了其样本复杂度。由此产生的策略搜索方案减少了奖励积累的波动性,形成了对未知领域的有效探索和先验的机制。值得注意的是,地面机器人获取数据的成本很高。减少奖励积累的波动性,确保以有效的方式探索未知领域,或者吸收以前的经验,都将有助于打破强化学习中现行实践的样本效率壁垒。通过减少随机抽样的数量,可以实现策略优化。
这项研究为强化学习中的经典策略梯度定理做出了贡献。装备有强化学习功能的自主机器人将能够协助战士在未来战场上进行侦察探索和风险评估。研究人员下一步计划在强化学习中将更广泛的决策目标纳入多主体设置,并研究强化学习主体之间的交互设置如何在团队之间产生协同和对抗性推理。
责任编辑:YYX
-
机器人
+关注
关注
211文章
28745浏览量
208907
发布评论请先 登录
相关推荐
构建人形机器人学习的合成运动生成管线
![构建人形<b class='flag-5'>机器人学习</b>的合成运动生成管线](https://file1.elecfans.com/web3/M00/06/2B/wKgZPGeIdgOAHo0UAAARx11NzcQ599.png)
【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型
【「具身智能机器人系统」阅读体验】1.初步理解具身智能
【「具身智能机器人系统」阅读体验】1.全书概览与第一章学习
《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型
【「具身智能机器人系统」阅读体验】+初品的体验
一种新型机翼应变载荷关系神经网络模型
![<b class='flag-5'>一种</b>新型机翼应变载荷关系神经网络<b class='flag-5'>模型</b>](https://file1.elecfans.com/web2/M00/0C/16/wKgZomc-oyeAUmULAABxL3SsNPk992.png)
麻省理工学院推出新型机器人训练模型
构建语音控制机器人 - 线性模型和机器学习
![构建语音控制<b class='flag-5'>机器人</b> - 线性<b class='flag-5'>模型</b>和<b class='flag-5'>机器</b><b class='flag-5'>学习</b>](https://file1.elecfans.com/web2/M00/04/DA/wKgZombUJe-AGQFLAAAcFz0Pgic973.jpg)
FMEA在焊接机器人研发中的应用
Al大模型机器人
NVIDIA Isaac 机器人平台利用最新的生成式 AI 和先进的仿真技术,加速 AI 机器人技术的发展
![NVIDIA Isaac <b class='flag-5'>机器人</b>平台利用最新的生成式 AI 和先进的仿真技术,加速 AI <b class='flag-5'>机器人</b>技术的发展](https://file1.elecfans.com//web2/M00/EC/89/wKgaomZe5cOAJ4oaAABqKAD4BXg456.png)
现代战场中地面机器人的应用与影响
NVIDIA Isaac机器人平台升级,加速AI机器人技术革新
机器人学习中主流智能抓取方案
![<b class='flag-5'>机器人学习</b>中主流智能抓取方案](https://file1.elecfans.com/web2/M00/C4/16/wKgZomXxC8mAJlTaAAA5NgxRuWM161.png)
评论