决策神经科学：解决机器人技术中的关键挑战-电子发烧友网

通过模仿人类大脑在日常生活中做出决策时使用的策略，可以显著增强机器人智能。最近，科学家们找到了最新观点。

本周五在国内上映的《阿丽塔：战斗天使》又掀起了一波智能热，这部由著导演詹姆斯·卡梅隆（James Cameron）担任编剧和制片的电影，讲述了拥有人类大脑、机械身躯的女主角，不断改变世界、认识自我的故事。

这部背景发生在26世纪的电影，依旧把人类大脑作为承载智慧、情感和决策的关键能力。

而现在，一份来自韩国高等科学技术研究院（KAIST）、剑桥大学、日本国家信息通信技术研究所（NICT）和谷歌DeepMind的联合研究认为，通过模仿人类大脑在日常生活中做出决策时使用的策略，可以显著增强机器人智能，他们的方法是：将神经科学应用于机器人大脑。

最近，这项研究发表在了Science Robotics杂志上。

决策神经科学：解决机器人技术中的关键挑战

人类和自主机器人不断需要学习和适应新的环境。两者的不同之处在于，人类能够根据独特情况做出决策，而机器人仍然依靠预定数据来做出决策，这是目前机器人的短板。

强化学习(RL)成为通过与世界交互来理解决策的主要理论框架，并且最近在构建具有超人类表现的智能体方面取得成功。然而，哪怕是最新的强化算法仍然存在很大的局限性，例如，缺乏制定目标导向策略的能力，或依赖大量经验来学习。

这些限制阻碍了机器人在任务或背景频繁变化的动态环境中快速适应的能力。

相比之下，人类在经验有限的条件下迅速适应环境变化方面具有非凡的能力。决策神经科学(decision neuroscience)的最新发现表明，大脑不仅为RL使用多个控制系统，而且还使用一种灵活的元控制机制(metacontrol mechanism)来选择控制选项，每个不同选项分别与预测性能、认知负荷和学习速度相关。

理解大脑如何实现这些选项可能会让RL算法解决机器人的实际控制问题。

在Science Robotics上发表的研究中，研究人员讨论了人类RL相关的最新发现，这些发现可能会解决机器人技术中的几个关键挑战：性能—效率—速度权衡、多机器人设置中的冲突需求以及探索—开发困境。

详细解读：元控制可以类似大脑

首先，决策神经科学的证据表明，人类利用两种不同的行为控制策略：

刺激驱动的习惯性(stimulus-driven habitual)；

目标导向的认知控制(goal-directed cognitive control)。

习惯性控制是自动且快速的，尽管它在不稳定的环境中很脆弱，并且能由model-free RL很好地解释，model-free RL通过无环境模型下的试错过程来逐步学习行为的价值。

相反，目标导向的控制可以迅速适应环境的变化，但它具有认知需求。它通过学习环境模型来指导行动，并利用这个知识库快速适应环境结构的变化，例如学习状态-行动空间中的潜在(隐藏)原因。

model-based RL和model-free RL之间的这种计算上的区别表明它们之间存在不可避免的妥协。model-free RL学习起来比较慢，但一旦策略被学习并实现自动化，就可以快速地实现目标。model-based RL通常比model-free RL提供更多的准确预测，但计算量要大得多。每种策略都提供了关于准确性、速度和认知负荷的互补解决方案，突出了预测性能和计算效率之间的权衡。

其次，RL算法通常需要大量经验来充分学习不同环境因素下的因果关系(incremental learning)。然而，人类的学习速度很快——通常一个从未经历过的事件发生一次之后就已学习(“one-shot learning”)。

神经科学最近的研究发现，当与环境的交互受到限制时，人类有很强的提高学习速度的倾向；他们会努力迅速弄清环境中未知的部分，即使这会危及安全。这些结果表明，大脑是直接执行计算来寻找性能和速度之间的权衡。

第三，越来越多的证据支持这样一种观点，即前额叶皮层使元控制能够灵活地在不同的学习策略之间进行选择，例如在model-based RL和model-free RL 之间，以及在incremental learning和one-shot learning之间。

在新的环境中，元控制通过选择model-based RL来强调性能。因为这在计算上很昂贵，当大脑发现进一步学习没有什么好处时，就会转向model-free RL：要么环境非常稳定，可以做出精确的预测；要么高度不稳定，以至于基于模型的RL的预测不如无模型RL的预测可靠。

在其他情况下，元控制优先考虑速度。当预估的因果关系中的不确定性很高时，大脑倾向于转换到one-shot学习，以快速解决预测结果中的不确定性。然而，当agent对所有可能的因果关系都同样不确定时，它会重新转向incremental learning以确保安全的学习。

这些机制表明类似于大脑的元控制可以处理性能-效率-速度的权衡。

第四，人类的RL可以解释在人类进化中起重要作用的社会现象。在多主体相互作用的人类社会中，存在着具有部分竞争性和部分一致性激励机制的社会困境。

使用model-based的RL方法成功地在更复杂的时间扩展设置中实现了协作。

人类似乎通过使用元认知(metacognition)来绕过这个问题——元认知是一种评估自己表现的能力，即评估自信和/或不确定性的水平。例如，较低的任务难度或较低的环境噪声会使学习主体自信，从而导致更果断的行动，而失去自信则会导致更谨慎和防御性的策略。元认知学习因此可以快速适应环境的变化，同时保持对环境噪声的鲁棒性。这样的策略有可能增强机器人的决策能力。

总之，将人类决策神经科学的发现整合起来，可以为机器人的动作控制系统提供有价值的见解，从而实现更安全、更有能力、更高效的学习。

对大脑建模，算法能否支撑起意识？

另外，研究团队还认为，这种跨学科的方法也应该引起神经科学的注意，为开发新的人类决策计算理论提供一个可靠的测试基础。

最近对焦虑、抑郁和成瘾等精神疾病背后的兴趣引起了很多人的兴趣，这使得一系列复杂的理论在没有某种先进的情境平台的情况下难以测试。这种情况需要一种对人类大脑进行建模的方法，以找出它在现实生活中如何与世界相互作用，以测试这些模型中的不同异常是否以及如何引起某些疾病。

例如，如果我们可以在机器人中重现焦虑行为或强迫症，那么就可以预测需要做些什么来治疗。研究团队预计，开发不同精神疾病的机器人模型，与研究人员现在使用动物模型的方式类似，将成为临床研究的关键未来技术。

最后再回到电影《阿丽塔》。

电影中所有的机器人都拥有人类的生命、有机大脑。机器人能从脊髓或大脑直接将信号传递到假体中的代码，使截瘫或四肢瘫痪的人能够随着机器人技术的进步再次获得行动能力。

如果放到现在的时代，这种技术看上去非常棒；但电影设定发生在五百年后，AI依然只是作为支撑躯体的技术，核心还是人类的大脑而不是由算法主导意识与行动，看来卡梅隆和罗德里格斯导演的脑洞还是小了点：）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

控制系统

控制系统

+关注

关注
41

文章
6622

浏览量
110614
机器人

机器人

+关注

关注
211

文章
28423

浏览量
207139
代码

代码

+关注

关注
30

文章
4788

浏览量
68625

原文标题：Science子刊：为机器人复制脑代码，无限接近人类决策

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

【「具身智能机器人系统」阅读体验】1.全书概览与第一章学习

景不确定性、产业链成本高企、系统集成难度大、数据瓶颈、伦理规范的挑战。其中系统集成难度大中，作者非常形象地将具身智能机器人分解为“大脑”、“小脑”和“躯干”三个关键技术，其中“大脑”就是机器

发表于 12-27 14:50

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

医疗领域，手术辅助机器人需要毫米级的精确控制，书中有介绍基于视觉伺服的实时控制算法，以及如何利用大模型优化手术路径规划。工业场景中，协作机器人面临的主要挑战是快速适应新工艺流程。具身智

发表于 12-24 15:03

【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

的第二个挑战是 “数据孤岛”。获取如此全面的数据充满了挑战，包括高成本、耗时要求和潜在的安全风险。大多数 EAI 机器人组织仅限于在特定的受控环境中收集数据。实体之间缺乏数据共享加剧

发表于 12-24 00:33

【「具身智能机器人系统」阅读体验】+初品的体验

解决许多技术的和非技术的挑战，如提高智能体的自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。未来的研究需要将视觉、语音和其他传感技术与机器

发表于 12-20 19:17

《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

要给AI这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机，可以是一台自动驾驶汽车。而人形机器人则是集各类核心尖端技术于一体的载体，是具身智能的代表产品。与传统的软件智能体不同，具身智能

发表于 12-19 22:26

虹科携手Seed Robotics，开启机器人灵巧手合作新篇章

近日，虹科与SeedRobotics正式建立合作伙伴关系，双方将在机器人灵巧手领域展开深入合作，共同推动人工智能、神经科学、心理学和认知科学等领域的创新研究与应用发展。此次合作，虹科

发表于 12-05 01:00 •343次阅读

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

。这些技术的综合应用使具身智能系统能够进行复杂的环境感知、决策制定和物理操作。例如，通过多模态感知技术，智能体能够综合视觉、听觉和触觉数据，更全面地理解和响应其所处的环境。具身智能通过提高

发表于 11-11 10:20

开源项目！用ESP32做一个可爱的无用机器人

巧妙设计的杠杆将开关推回“关”位置。这种玩具很常见，许多人已经制作并上传到YouTube上。作者每年都会挑战自己制作一个技术产品，今年他决定制作这个复杂的项目——可爱无用机器人。这个机器人

发表于 09-03 09:34

开源项目！用ESP32做一个可爱的无用机器人

巧妙设计的杠杆将开关推回“关”位置。这种玩具很常见，许多人已经制作并上传到YouTube上。作者每年都会挑战自己制作一个技术产品，今年他决定制作这个复杂的项目——可爱无用机器人。这个机器人

发表于 08-30 14:50

机器人神经网络系统的特点包括

脑启发的计算模型，具有高度的并行性和自适应性。机器人神经网络系统是将神经网络技术应用于机器人领域的研究和应用，具有以下特点：高度的复杂性：神经

发表于 07-09 09:45 •458次阅读

机器人神经网络控制原理是什么

引言 机器人技术是当今科技发展的重要方向之一，其应用领域涵盖了工业、医疗、农业、军事等多个方面。机器人控制技术是实现机器人自主化和智能化的

发表于 07-09 09:40 •536次阅读

「探索」康复机器人在神经康复中的应用

随着社会的发展和人口老龄化的加剧，神经性疾病的患者数量逐年上升。神经康复作为提高患者生活质量、恢复神经功能的重要手段，正面临着巨大的挑战。康复机器人

发表于 07-02 10:25 •341次阅读

其利天下技术·搭载无刷电机的扫地机器人的前景如何？

已经取得了显著的进步，但在技术层面仍存在一些壁垒需要突破。首先，机器人的导航和定位技术仍有提升空间，特别是在复杂家居环境中的精准导航和避障能力还需加强。其次，扫地

发表于 05-05 15:03

技术革新--机器人激光焊接机的优势与挑战

随着科技的不断进步，机器人激光焊接机，引领着焊接行业的技术革新，何保持在激光焊接领域的技术领先地位是一个挑战，本文将探讨机器人激光焊接机的优

发表于 04-30 11:36 •412次阅读

人形机器人的三大关键技术及挑战

人形机器人是指外形和人类相似的机器人。它们可以通过模仿人类的外貌、动作和表情来与人类进行交互和沟通。

发表于 01-05 10:53 •2921次阅读

搜索历史

决策神经科学：解决机器人技术中的关键挑战

评论

【「具身智能机器人系统」阅读体验】1.全书概览与第一章学习

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

【「具身智能机器人系统」阅读体验】+初品的体验

《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

虹科携手Seed Robotics，开启机器人灵巧手合作新篇章

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

开源项目！用ESP32做一个可爱的无用机器人

开源项目！用ESP32做一个可爱的无用机器人

机器人神经网络系统的特点包括

机器人神经网络控制原理是什么

「探索」康复机器人在神经康复中的应用

其利天下技术·搭载无刷电机的扫地机器人的前景如何？

技术革新--机器人激光焊接机的优势与挑战

人形机器人的三大关键技术及挑战