智能体的连接问题,如何创建能符合人类目标的智能体？-电子发烧友网

将强化学习算法应用到现实问题中的一个障碍就是缺少合适的奖励函数，而设计奖励函数又比较困难，因为用户只能自己理解任务的目标，很难传达给强化学习智能体。这就引出了智能体和用户的连接问题（agent alignment problem）：我们如何创建一款符合用户想法的智能体呢？

近日，DeepMind的新论文Scalable agent alignment via reward modeling: a research direction就提出了一种研究方向，本文对该论文进行了概述总结。简单来说，本次提出的方法依靠奖励模型的循环应用，通过连接（align）用户的目的解决复杂的现实世界问题。以下是论智对原文的详细编译：

最近几年，强化学习在复杂的游戏环境中得到了不错的表现，例如雅达利游戏、围棋、象棋、Dota 2、星际争霸II等等，AI智能体在这些复杂领域的表现甚至超过了人类水平。游戏是开发和测试机器学习算法的理想平台，其中有很多挑战性的任务，需要具备多种认知能力才能完成。机器学习研究者可以在云端同时运行数千个模拟实验，生成足够多的训练数据供系统学习。

重要的是，游戏通常有清晰的目标，还有可以表现距离目标远近的分数。分数能为强化学习智能体提供有用的奖励函数，当选择了正确的算法或架构时，能让我们获得快速的反馈。

智能体的连接问题

总的来说，AI的目标是不断具备解决现实中复杂问题的能力，从而造福人类。但是现实生活中的任务并没有内置的奖励函数。这样一来，智能体在任务中的表现就无法轻易地定义，所以我们需要一种好方法提供反馈，让智能体确切地了解我们想要什么，从而帮我们实现目标。换句话说，我们想用人类的反馈训练AI系统，用这种方法将系统的行为和我们的目标联系在一起。针对这一目标，于是”智能体的连接“问题的定义如下：

如何创建能符合人类目标的智能体？

连接问题可以在强化学习框架中进行，只不过其中要接受数字类型的奖励信号，智能体可以通过交互协议和用户进行互动，从而让用户将他们的想法传递给智能体。该协议有多种形式，用户可以提供示范、偏好、最佳行为或者提供奖励函数。解决智能体连接问题的一种方法就是根据用户目标作出动作。

DeepMind的新论文对这一问题指明了研究方向。基于此前的AI安全性问题和各种相关研究，我们设想了这些研究成果能为智能体的连接问题做出哪些帮助。这为了解如何与用户互动打开了新的大门，即从他们的反馈中学习并预测偏好，这些都是更复杂、更抽象的话题，需要用超越人类水平的方式去理解。

用奖励建模进行连接

研究方向的重点是基于奖励建模：我们用用户反馈训练了一个奖励模型，来捕捉他们的意图。同时，我们还训练了一个带有强化学习的策略，用来让奖励最大化。换句话说，我们将“学习做什么”从“学习怎么做”中分离出来。

奖励建模图示

例如，在之前的研究中我们教智能体如何根据用户的要求进行后空翻、根据目标状态放置目标物体、根据用户选择和专业玩家示范玩雅达利游戏。未来，我们想设计的算法能够学习适应用户提供反馈的方式（例如使用自然语言）。

扩大规模

长期来看，我们会扩大奖励建模的规模，将其应用于人类难以评估的领域。为了做到这一点，我们需要增强用户衡量输出的能力。我们讨论了如何循环应用奖励建模：我们可以用奖励建模训练智能体，帮助用户进行评估。如果评估过程比做出动作更容易，我们就能从简单的任务中转移到更复杂的任务上。这也可以看作是迭代增强的例子。

循环奖励建模图示

例如，假设我们现在想训练智能体设计一款计算机芯片，为了检测一款芯片设计，我们训练了其他带有奖励模型的智能体，模拟测试芯片的性能，计算热损耗、估计芯片的使用寿命、寻找安全漏洞等等。最后，智能体的输出能让用户训练出符合要求的智能体。尽管每个智能体都要解决很多比当前机器学习系统更难的任务，但这些任务会比设计芯片要简单。因为设计一款计算机芯片，你要理解每种评估任务，但是反之则不是必要的。在这种情况下，循环奖励模型可以让我们的智能体解决更复杂的任务，同时保留和用户目标之间的联系。

研究挑战

想将奖励建模扩大到复杂问题中，我们会遇到一些挑战。下图列出了五种主要问题以及可能的解决方法，论文对这些问题进行了深入的讲解。

这也是智能体匹配问题中最后一个重要因素：当将智能体应用在现实世界中时，我们需要向用户充分证明我们的智能体的确和用户目标完全匹配。论文中提到了五种不同的方法，帮助用户增加对智能体的信心：设计选择、测试、可解释性、正式验证以及理论保证。

结语

虽然我们相信循环奖励建模是训练相连智能体的正确方向，但目前我们还不知道它扩展的情况如何。幸运的是，我们还有一些与智能体连接相关的研究方向：

模仿学习

短期强化学习

反向强化学习

协作反向强化学习

迭代增强

辩论

智能体基础

论文中对它们的相似之处和不同点都做了更深介绍。

正如对抗输入对计算机视觉系统的稳健性一样，在复杂的显示领域中部署机器学习系统也是未来需要面对的难题。尽管我们会在扩展奖励建模时遇到挑战，但这些挑战是可以从中获取进展的具体技术性问题。从这个意义上讲，我们的研究方向已经准备就绪，可以开展深层强化学习智能体的实证研究了。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8423

浏览量
132752
智能体

智能体

+关注

关注
1

文章
152

浏览量
10593
强化学习

强化学习

+关注

关注
4

文章
267

浏览量
11266

原文标题：如何让智能体了解用户意图？DeepMind提出奖励建模

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

什么是机电一体化

像人类那样会思考判断。4）机电一体化的例子机电一体化产品中一定有运动机械，并且采用了电子技术使运动机械实现柔性化和智能化。机器人、微机控制型缝纫机、自动对焦相机、自动对焦防颤型摄像机

发表于 08-29 09:06

机电一体化系统

如图1.1所示，机电一体化系统与灵活性和智能型最强的人体相对应，由如下5个要素构成；1）机械装置：能够实现某种运动的机构（相当于人类的骨骼）。2）执行装置:驱动机械装置运动的部分（相当于人

发表于 08-29 09:11

热销智能会议平板多媒体教学一体机

`教学会议一体机的优势：丰富教育内容使用触摸一体化教育不仅可以丰富了教育内容,拓宽教育水平,促进教育目标明确,加快教育的速度,并且可以更形象生动地显示在课堂上,满足学生实践的时间。老师使用人均触摸

发表于 11-28 10:16

基于4位单片机SH66P58的智能体脂秤方案设计

智能体脂秤又称健康秤，能测出不同时间人体的脂肪和水分等所占比例，从而反映出人体在不同时间的健康状况。由于测试人体电阻时，需要人体和测试电极直接接触，所以脂肪秤产品要有很强的抗ESD静电干扰性能，本文

发表于 11-29 07:42

OpenAI公布MADDPG代码，让智能体学习合作、竞争和交流

体对抗，环境则完全符合你的技术水平）。其次，多智能体环境没有稳定的平衡，即无论一个智能体多么聪明

发表于 03-16 14:01 •1.5w次阅读

如何让AI符合人类的意图？如何创建符合用户意图的智能体？

近年来，强化学习在许多复杂游戏环境中取得了令人瞩目的成绩，从Atari游戏、围棋、象棋到Dota 2和星际争霸II，AI智能体在越来越复杂的领域迅速超越了人类水平。游戏是开发和测试机器学习算法的理想

发表于 11-24 10:24 •4265次阅读

如何测试强化学习智能体适应性

强化学习（RL）能通过奖励或惩罚使智能体实现目标，并将它们学习到的经验转移到新环境中。

发表于 12-24 09:29 •3241次阅读

智能体是什么

智能体在某种程度上属于人工智能研究范畴，因此要想给智能体下一个确切的定义就如同给人工智能下一个确

发表于 01-12 10:52 •1.2w次阅读

华为鹏城智能体正式发布，创建数字经济样板城市

大数据、人工智能、区块链等新一代信息技术，建设数基、数网、数纽、数脑、数体系列工程，打造数据驱动的有深度学习能力的城市级一体化智能协同体系，进一步推动深圳城市治理的科学化、精细化、人性化、品质化，

发表于 09-24 13:56 •1637次阅读

数字花海中蓉城智能体邂逅未来智能体的奇幻漂流之成都折叠篇

不久之前，我们曾经介绍分析过华为发布智能体技术参考架构，对于产业智能革命的鼎新作用。其中咱们一起聊过深圳的鹏城智能体有种种

发表于 09-30 05:26 •1562次阅读

人工智能的伦理智能体应用及相关研究

、智能家居、智慧医疗、战争武器等人类生活密切相关的领域。这些应用中，智能体与环境、尤其是与人类和社会的交互愈来愈突出，其中的伦理和道德问题日

发表于 03-24 15:25 •7次下载

多智能体路径规划研究综述

多智能体路径规划是一类寻找多个智能体从起始位置到目标位置且无冲突的最优路径集合的问题，针对该问题的研究在物流、军事和安防等领域有着大量的应用

发表于 06-04 11:56 •4次下载

联汇科技发布自主智能体 OmBot 欧姆智能体及 OmBot OS 操作系统

智能体的发展都表现出极大兴趣，并寄予厚望。大语言模型的出现，无疑给 AI 智能体的发展带来了全新的想象力，因此尽管在众多 AI 智能

发表于 07-11 14:07 •498次阅读

图为大模型一体机新探索，赋能智能家居行业

图为大模型一体机新探索，赋能智能家居行业在21世纪的今天，科技的飞速进步正以前所未有的速度重塑着我们的生活方式。从智能手机到物联网，从大数据到人工

发表于 10-24 11:05 •258次阅读

AI智能体逼真模拟人类行为

近日，据外媒最新报道，斯坦福大学、华盛顿大学与Google DeepMind的科研团队携手合作，成功开发出一种能够高度逼真模拟人类行为的AI智能体。该智能

发表于 11-26 10:24 •381次阅读

搜索历史

智能体的连接问题,如何创建能符合人类目标的智能体？

评论

什么是机电一体化

机电一体化系统

热销智能会议平板多媒体教学一体机

基于4位单片机SH66P58的智能体脂秤方案设计

OpenAI公布MADDPG代码，让智能体学习合作、竞争和交流

如何让AI符合人类的意图？如何创建符合用户意图的智能体？

如何测试强化学习智能体适应性

智能体是什么

华为鹏城智能体正式发布，创建数字经济样板城市

数字花海中蓉城智能体邂逅未来智能体的奇幻漂流之成都折叠篇

人工智能的伦理智能体应用及相关研究

多智能体路径规划研究综述

联汇科技发布自主智能体 OmBot 欧姆智能体及 OmBot OS 操作系统

图为大模型一体机新探索，赋能智能家居行业

AI智能体逼真模拟人类行为