Facebook关于自主智能体的最新研究成果——目标驱动自主学习-电子发烧友网

本文由来自 Facebook 人工智能研究院的研究员 Dhruv Batra 和 Devi Parikh 共同撰写，文中介绍了 Facebook 关于自主智能体的最新研究成果——目标驱动自主学习，并且还宣布了开源 EmbodiedQA 和 House3D 数据集.

大多数能够与人类进行互动的自主智能体（Autonomous agents）都存在一些共同点：它们并不是那么自给自足（Self-sufficient）。例如，一个智能音箱（Smart speaker）虽然可以通过语音接口与人类进行交流并采取一些动作（比如订购产品），但是它却无法感知周围环境。而另一方面，割草机器人虽然具备动作（割草）和感知（通过传感器）能力，但是它除了不断闪烁灯光或者发送错误信息以外，还无法实现与主人的自由交流。

如果不同时具备三个重要的关键因素——感知、沟通和动作，那么自主智能体就无法成为一个全面的助理，而这其中的空白代沟还需要人类参与进来弥补。然而这个问题对于目前的智能体来说似乎并不是什么大毛病，例如，Roomba 机器人如果忽略了通知你有把椅子阻碍了它的清洁路线，这只是一点小困难而不是什么大灾难。但是为了让下一代智能体能融入并改变我们的生活，那么自主系统还需要变得更加自给自足。

训练人工智能系统时要扔下婴儿车

为了给那些对人类微观管理依赖程度较低且更具通用性的系统铺平道路，Facebook 人工智能研究院（FAIR）开发了一系列用于训练和测试自主智能体的虚拟环境，以及能够学习智能探索那些环境的新型智能体。这些智能体将被用来作为模拟机器人而使用，它们是 Facebook 与佐治亚理工学院的研究员合作创建的。使用虚拟智能体和虚拟环境比起将真实的机器人送到现有的室内场所要来得高效得多，因为这需要花费数千台机器来匹配基于 AI 训练的运行速度。Facebook F8 会议上关于通过 AI 提高内容的可访问性的主题演讲中简单介绍过这项工作。

FAIR 的目标是指导系统根据长期计划采取多种动作，同时还要努力完成所给定的任务。为了取得成功，这些智能体必须在它们的环境中行动，综合使用感知、导航和沟通的能力去寻找出给定问题的答案，然后使用简单自然的语言转达这些答案。对于 AI 来说，这是一个极具挑战性的问题，如果一旦实现就是朝着自治水平迈出了一步，并且该智能体的适应性也将足以在非结构化的人造世界中发挥作用。

为了测试这种目标导向（Goal-driven）的方法，FAIR 和佐治亚理工学院联合提出了一个多步骤 AI 任务，称为「具体化问答（Embodied Question Answering）」或者「EmbodiedQA」。与聊天机器人或者智能音箱相比，此智能体必须在物理环境（尽管是虚拟环境）中去学习和运行，因此称为「具体化的（Embodied）」。当智能体被问及单一问题时，例如「车子是什么颜色的？」或「我的钥匙落在了哪个房间里？」，智能体必须能够理解书面语言，然后用第一人称相机去感知周围环境，探索 3D 的室内环境直到找到答案。并且为了使得智能体的自主性更加完善，它还将通过自然语言的方式回复该答案以完成自己的使命。

FAIR 提出了一项新的 AI 任务——具体化问答（Embodied Question Answering）。上图中在一个 3D 环境中的某个随机位置产生一个智能体，并给出一个问题（车是什么颜色的？）。为了回答这个问题，智能体必须借助智能导航以探索环境，通过第一人称（以自我为中心）的视觉收集信息，然后回答问题（橙色）。

FAIR 相信这些是第一个要求 AI 系统综合展示感知、交流和动作以达成目标的实验。将完全自主（智能体在没有人类引导和干预的情况下实现了自主活动）和不熟悉的环境结合起来增加了整个任务的挑战性。智能体要在随机的、数以百计的不同楼层平面图（每个平面都是仿照现实家庭进行建模）中运行，而且不具有在该环境中实践运行过所带来的增益，也不曾在类似的地图上运行过。更难的是，为了回答提出的问题，智能体必须移动，因为问题中的对象也许无法立即看到。

在工作中学习

为了训练和评估这些智能体，所需的虚拟环境不仅仅要具备交互功能，还要具备多样化和数量充足的特性，以避免智能体在相同环境中反复运行，这对自主智能体的发展而言是一个更加巨大的挑战。FAIR 的解决方案称为 House3D，它是由 45000 个手动创建的模拟室内环境所组成的。House3D 是基于普林斯顿大学的 SUNCG 数据集而创建的，但是 House3D 作为一个完全可导航的位置集合（Fully navigable set of locations），使得智能体能够同时探索数千个房间，这比起在现实生活空间中训练具有复杂机械结构的机器人要来得快得多。它也使得我们可以进行可重复性的科学实验。并且 House3D 还进行了开源，目前可以在 GitHub 上获取。

为了在 House3D 中每次都能进行独特的寻宝活动，智能体必须在完成任务的过程中学习一系列核心能力——从对室内物体的识别（沙发、椅子等）到对问题的语言理解。

第一种习得的能力是主动感知（Active perception），或者是智能控制前面像素的能力，因为一开始目标对象不太可能会刚好位于智能体的视线范围内（图像通过一个 224x224 分辨率的 RGB 模拟摄像头采集）。因此，智能体不是被动地感知问题中提及的对象（固定图像数据集中就是如此），而是通过探索周围环境主动将目标对象寻找出来。

这项研究的一个创新点在于实现了导航的模块化方法，该方法将导航任务划分成了两个部分。规划者（Planner）负责选择移动的方向，例如向左移动，而控制器（Controller）则负责确定在该方向需要移动多远。这种策略避免了智能体在移动前需要去创建长远而又详细的路径规划，因为这么干会导致更多的错误和更弱的适应性。此外规划者-控制器（Planner-Controller）这套设置也更适合于强化学习，在这里智能体将根据积极或者消极的反馈来动态调整其导航。

FAIR 的智能体将导航任务分解为一个规划者（PLNR）模块和一个控制器（CTRL）模块。规划者从卷积神经网络（CNN）获得输入，然后决定所采取的动作。同时控制器将决定继续执行该动作的时间步变量——从而实现方向和速度之间的解耦合。这使得规划者能够在更短的时间内进行更有效的操作，从而减轻了训练难度。

下一步，智能体必须学会常识推理，然后在一个新的但是却并非完全陌生的环境中去发挥作用。尽管人们可能知道车库往往位于房屋的周围，因此可以通过外部门进入，但是 AI 系统却需要自己去学习这些知识。随着在不同的模拟家庭中成功达到目标，智能体必须发展出这种常识，以缩短寻找指定对象然后回答相关问题所花费的时间。

作为常识积累的后续阶段，智能体还要学习语言基础，或者是学习如何把单词（比如针对对象的描述）与特定的动作联系起来。例如，当为了找到可能位于车库中的汽车而搜索车库时，智能体不会被迫查看每个可能的空间，直到它找到与车库对应的一组像素为止。恰恰相反，智能体使用「车库」作为一个行动的指令，然后直接去找到外部门，从而更加高效地定位它的目标。

最后，因为 FAIR 的目标是超越繁琐的、逐步的人为监督，从微弱和远期的目标驱动奖励中学习，所以智能体必须学会的最重要的能力之一是「功劳分配（Credit assignment）」，这意味着智能体能够知道自己一路上所做的行为哪些是正确的而哪些又是错误的。例如，如果询问「多少个房间里有椅子？」，然后智能体并没有被明确告知需要检查每一个房间，甚至没有被告知要从家中含有椅子的区域开始计算。智能体能够凭借自己的力量去探索和回答问题，而不需要借助人类提供的详细的逐步计划。因此，从它是否正确回答的一个微弱信号来看，它必须自行学习其数百项相互依赖的行动中是哪一项导致了成功。为了增强传统的强化学习，FAIR 使用模仿学习（Imitation learning，比较智能体的运动与到达目标的可能最短路径）和奖励塑造（Reward shaping，通过「变得更近」和「变得更远」信号随时间变化而改进智能体的表现）来允许智能体把它真正使命拼凑起来，即便该使命在开始时并不明晰。

让自主系统更加自主

经过训练的 EmbodiedQA 智能体与标准序列模型基准（一个 LSTM 导航器）相比，表现的相当合理。

该视频比较了 FAIR 开发的智能体（名称为 ACT+Q-RL）与基准的性能表现（名称为 LSTM+Q）。视频地址

和 House3D 一样，FAIR 收集的 EmbodiedQA 数据将进行开源，并且旨在启发更广泛的 AI 研究社区内的其它项目。为了给其他研究人员提供完整的背景，FAIR 将人类带入了这个方程式中。FAIR 和佐治亚理工学院将自主智能体导航与问答的能力与远程遥控智能体进行了对比，这些远程遥控智能体由人类（通过亚马逊的 Mechanical Turk 平台）进行操控，从而建立了专家级别的基准导航示例。由此产生的数据集包括，与 750 个独特的、多房间的环境相关的合成产生问题（Synthetically generated questions）。智能体（和人类）准确性的故障以及我们使用的问答生成引擎也将成为 EQA v1 开源版本中的一部分，该版本在不久的将来可以获取到。

虽然 EmbodiedQA 是只涵盖了一种目标驱动的自主任务，但是它却代表了人工智能的高难度（因为它将各种各样的子任务合并成了一个任务），并且有机会探索采取「行动」的新学习范式，这是成功的先决条件。无法做出决策的智能体——在这种情况下，通过在现实家庭中导航，确定它们收集到了相关的数据，然后传达它们发现的内容——这种智能体在我们的实验中是无法完成任务的。

这种挑战是艰巨的，因为它至关重要。在短期内，目标驱动的算法可以使用自动化来改善 AR 和 VR 的体验，为可用的接口选项添加直观的语音交互。但这种基于行为的目标驱动方法的长期影响可能会延伸到自主性上。从数字助理可以根据单一命令（例如，不仅可以预约医生，还可以重新安排冲突的会议）执行一系列家务事，到灾难响应机器人遵循来自第一响应者的简单语音命令，这种适应性的自动化可能会对我们的生活产生重大影响。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28409

浏览量
207025
Facebook

Facebook

+关注

关注
3

文章
1429

浏览量
54738
智能体

智能体

+关注

关注
1

文章
149

浏览量
10578

原文标题：Facebook 最新研究：自主学习一个会和世界互动的智能体

文章出处：【微信号：IndustryIOT，微信公众号：工业互联网前线】欢迎添加关注！文章转载请注明出处。

【「具身智能机器人系统」阅读体验】+初品的体验

解决许多技术的和非技术的挑战，如提高智能体的自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。未来的研究需要将视觉、语音和其他传感技术与机器人技术相结合，以探索更加先进的知识表

发表于 12-20 19:17

Microsoft Copilot Studio自主智能体功能现已推出预览版

Microsoft Power Platform 正以其卓越的成就，引领着技术与业务融合的浪潮。智能 Copilot 副驾驶与 PowerPlatform 自主智能体的深度融合，标志着

发表于 11-29 16:43 •283次阅读

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

及高性能算力云平台）规模化企业中，约 38% 在中国，其中约 21% 的供应链企业在粤港澳大湾区。尽管具身智能取得了显著进展，但未来研究还需要解决许多技术的，以及非技术的挑战，如提高智能体

发表于 11-11 10:20

微软Copilot Studio新功能：支持定制Agent 赋能用户构建自主智能体

微软宣布重大更新，用户可通过Microsoft Copilot Studio构建自主智能体。麦肯锡、汤森路透等全球知名企业己利用智能体，实现

发表于 11-10 09:59 •598次阅读

小鹏汽车发布自主研发的“图灵”AI智能驾驶辅助系统

近日，小鹏汽车正式揭晓了其自主研发的“图灵”AI智能驾驶辅助系统，这一创新成果标志着小鹏汽车在智能驾驶技术领域的又一重大突破。 “图灵”系统实现了从云端到车端，再到硬件层面的全面

发表于 11-07 10:55 •625次阅读

SynSense时识科技与海南大学联合研究成果发布

近日，SynSense时识科技与海南大学联合在影响因子高达7.7的国际知名期刊《Computers in Biology and Medicine》上发表了最新研究成果，展示了如何用低维信号通用类脑

发表于 10-23 14:40 •308次阅读

微软Dynamics365集成10大自主AI Agent，引领智能自动化新时代

近日，微软宣布在Dynamics365中集成了10个全新的自主AI Agent，这一创新举措将为企业带来前所未有的智能自动化工作模式。这些AI Agent具备强大的自主学习能力，可以高

发表于 10-23 11:25 •355次阅读

中移芯昇发布智能可信城市蜂窝物联网基础设施研究成果

8月23日，雄安新区RISC-V产业发展交流促进会顺利召开，芯昇科技有限公司（以下简称“中移芯昇”）总经理肖青发布智能可信城市蜂窝物联网基础设施研究成果，为雄安新区建设新型智慧城市赋能增效。该成果

发表于 08-31 08:03 •628次阅读

基于深度学习的小目标检测

在计算机视觉领域，目标检测一直是研究的热点和难点之一。特别是在小目标检测方面，由于小目标在图像中所占比例小、特征不明显，使得检测难度显著增加。随着深度

发表于 07-04 17:25 •882次阅读

华为鸿蒙内核获中国信通院自主成熟度A级认证

在科技创新的浪潮中，华为再次以其卓越的自主研发能力引领行业前行。近日，中国信息通信研究院（简称“中国信通院”）官方公众号宣布了一项重要成果：华为技术有限公司的鸿蒙内核成功通过了自主成熟

发表于 07-03 14:32 •647次阅读

高性能嵌入式互连自主生态发展专题研讨会成功举办

共建自主生态，共享发展成果，由软件定义晶上系统技术与产业联盟主办，井芯微电子（天津）有限公司、通信软件与专用集成电路设计国家工程研究中心共同协办的“晶上联盟——高性能嵌入式互连自主生

发表于 06-27 09:24 •554次阅读

本源超导量子计算机自主制造链11类产品系列之九：中国自主量子计算编程生态工具链

使用。中国自主量子计算编程生态工具链本源量子独立自主研发了全栈式的量子计算编程生态工具链，涵盖量子编程框架、量子基础算法、量子机器学习、量子编程语言和量子计算集成开发

发表于 05-30 08:22 •385次阅读

俄罗斯诺镍在京发布清洁能源创新研究成果

俄罗斯诺镍（以下简称诺镍）日前于在华举办的一重要能源会议上展示了其在利用钯生产清洁能源（包括氢能）方面的尖端研究成果。诺镍于会后被中国氢能联盟吸纳为成员单位。为了实现2050年全球碳中和目标，诺镍

发表于 04-09 17:27 •380次阅读

谷歌DeepMind推出SIMI通用AI智能体

近日，谷歌的DeepMind团队发布了其最新研究成果——SIMI（Scalable Instructable Multiworld Agent），这是一个通用人工智能智能体，能够在多种

发表于 03-18 11:39 •957次阅读

【研究动态】万物纵横杨帆博士在Applied Soft Computing发表石化生产异常工况预警的人工智能算法研究成果

近日，计算机科学领域著名期刊《Applied Soft Computing》（SCI一区， Top期刊）刊载了四川万物纵横杨帆博士与四川大学合作的最新工业智能研究成果《基于注意力机制的催化裂化装置异常工况预警》

发表于 01-23 13:32 •596次阅读