心智理论测试:人工智能击败人类-电子发烧友网

测试结果并不一定意味着人工智能可以“理解”人。

心智理论是指可以理解他人心理状态的能力，正是它驱使着人类社会运转。它帮助你决定在紧张的情况下该说什么、猜测其他车辆的驾驶员将要做什么，以及与电影中的角色产生共鸣。一项最新的研究表明，ChatGPT等工具所使用的大语言模型在模仿这一典型人类特征方面表现得非常出色。

“在进行这项研究之前，我们都相信大语言模型无法通过这些测试，特别是那些判断不易察觉的心理状态能力的测试。”该研究的合著者克里斯蒂娜•贝奇奥（Cristina Becchio）说，她是德国汉堡-埃彭多夫大学医学中心的认知神经科学教授。这项她认为“出乎意料和令人惊讶”的研究结果发表在2024年5月20日的《自然•人类行为》杂志中。

贝奇奥和她的同事并不是首先提出证据表明大语言模型的反应能够表现这种推理能力的人。在2023年发表的一篇预印本论文中，斯坦福大学心理学家迈克尔•科辛斯基（Michal Kosinski）报告了几个模型在几种常见心智理论测试中的测试情况。他发现，其中最好的是OpenAI的GPT-4，它正确完成了75%的任务，他说，这相当于过去研究中6岁儿童的表现。不过，这项研究中的方法遭到了其他研究人员的批评，他们进行了后续实验，并得出结论，大语言模型之所以能得出正确答案，往往是基于“浅显的启发”和捷径，而不是真正基于心智理论推理。

本研究的作者很清楚这种争论。“在论文中，我们的目标是使用广泛的心理测试，以更加系统的方式来应对机器心智理论的评估挑战。”该研究的合著者詹姆斯•斯特拉坎（James Strachan）说，他是一名认知心理学家，目前是汉堡-埃彭多夫大学医学中心的访问科学家。他指出，进行严谨的研究意味着要测试人类和大语言模型处理相同任务的能力，这项研究比较了1907个人与几个流行的大语言模型的能力。

大语言模型和人类都完成了5种典型的心智理论测试，前3种是理解暗示、反语和失礼。此外，他们还回答了“错误信念”问题，这些问题通常用于确定幼儿心智理论的发展程度。这些问题是这样的：如果爱丽丝在鲍勃不在房间的时候移动了某样东西，那么鲍勃回来后应该去哪里找这个东西？最后，他们回答了“奇怪故事”中一些相当复杂的问题，这些故事中的人物相互撒谎、操纵并产生了很多误解。

总体而言，GPT-4占据了优势。它的得分在错误信念测试中与人类相当，在反语、暗示和奇怪故事方面的总分高于人类，只在失礼测试中表现不如人类。为了理解失礼测试结果有所不同的原因，研究人员对该模型进行了一系列后续测试，探索了几种假设。他们得出的结论是，GPT-4能够对有关失礼的问题给出正确答案，但在固执己见方面受到“极端保守”编程的限制。斯特拉坎指出，OpenAI在模型周围设置了许多围栏，“旨在保持模型真实、诚实和正确”，他认为，旨在防止GPT-4产生幻觉（即编造内容）的策略可能会妨碍它对一些问题输出观点，比如故事角色是否在高中同学聚会上无意间侮辱了老同学。

研究人员很谨慎。他们没有说自己的研究结果表明大语言模型实际上拥有心智理论能力，而是说大语言模型“在心智理论任务中的表现与人类行为没有区别”。这就引出了一个问题：如果一个仿品和真品一样好，那你怎么知道它不是真品？斯特拉坎说，这是一个社会科学家以前从未尝试回答的问题，因为对人类的测试会假设这种品质在某种程度上是存在的。“我们目前还没有一种方法甚至是一种理念来测试心智理论的存在，这是一种现象学品质。”他说。

华盛顿大学计算语言学教授艾米丽•本德（Emily Bender）因坚持揭露人工智能行业的膨胀炒作而成为了该领域的传奇人物。她对这个激励着研究人员的问题提出了异议。“面对相同问题，文本处理系统能否产生与人类相似的答案为什么如此重要？”她问道，“我们能够了解大语言模型内部是如何运作的吗？它们可能有什么用处，又可能带来哪些危险？”

本德对论文中的拟人化表示担忧，论文研究人员说大语言模型有认知、推理和作出选择的能力，还使用了“大语言模型和人类参与者之间的物种公平比较”这一措辞。本德说，这“完全没有将软件囊括在内”。

汉堡-埃彭多夫大学医学中心团队的研究结果可能并不表明人工智能真的能理解我们，但值得思考的是，人工智能能够做出令人信服的行为，这会带来什么影响。虽然这种大语言模型在与人类用户交互和预测用户需求方面会做得更好，但它们也可能更多地用于欺骗和操纵。它们会引来更多的拟人化，让人类用户相信用户界面的另一端是有思想的。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
46839

浏览量
237508

原文标题：人工智能在心智理论测试中战胜人类

文章出处：【微信号：AI智胜未来，微信公众号：AI智胜未来】欢迎添加关注！文章转载请注明出处。

嵌入式和人工智能究竟是什么关系?

领域，如工业控制、智能家居、医疗设备等。 人工智能是计算机科学的一个分支，它研究如何使计算机具备像人类一样思考、学习、推理和决策的能力。人工智能的发展历程可以追溯到上世纪50年代，经

发表于 11-14 16:39

人工智能对人类的影响有哪些

人工智能（AI）作为现代科技的杰出代表，正在以前所未有的速度改变着人类的生活、工作和社会结构。这种影响是全方位的，既带来了显著的积极变化，也伴随着一系列挑战和问题。一、积极影响工作变革与经济增长

发表于 10-22 17:23 •927次阅读

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

幸得一好书，特此来分享。感谢平台，感谢作者。受益匪浅。在阅读《AI for Science：人工智能驱动科学创新》的第6章后，我深刻感受到人工智能在能源科学领域中的巨大潜力和广泛应用。这一章详细

发表于 10-14 09:27

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

农业、环保等，为人类社会的可持续发展做出贡献。总结《AI for Science：人工智能驱动科学创新》第4章关于AI与生命科学的部分，为我们展示了一个充满希望和机遇的未来。在这个未来中，人工智能

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

，还促进了新理论、新技术的诞生。 3. 挑战与机遇并存尽管人工智能为科学创新带来了巨大潜力，但第一章也诚实地讨论了伴随而来的挑战。数据隐私、算法偏见、伦理道德等问题不容忽视。如何在利用AI提升科研效率

发表于 10-14 09:12

risc-v在人工智能图像处理应用前景分析

RISC-V在人工智能图像处理领域的应用前景十分广阔，这主要得益于其开源性、灵活性和低功耗等特点。以下是对RISC-V在人工智能图像处理应用前景的详细分析：一、RISC-V的基本特点 RISC-V

发表于 09-28 11:00

人工智能ai4s试读申请

目前人工智能在绘画对话等大模型领域应用广阔，ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题，本书对ai4s基本原理和原则，方法进行描诉，有利于总结经验，拟按照要求准备相关体会材料。看能否有助于入门和提高ss

发表于 09-09 15:36

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

大力发展AI for Science的原因。第2章从科学研究底层的理论模式与主要困境，以及人工智能三要素（数据、算法、算力）出发，对AI for Science的技术支撑进行解读。第3章介绍了在

发表于 09-09 13:54

报名开启！深圳（国际）通用人工智能大会将启幕，国内外大咖齐聚话AI

8月28日至30日，2024深圳（国际）通用人工智能大会暨深圳（国际）通用人工智能产业博览会将在深圳国际会展中心（宝安）举办。大会以“魅力AI·无限未来”为主题，致力于打造全球通用人工智能领域集产品

发表于 08-22 15:00

FPGA在人工智能中的应用有哪些？

FPGA（现场可编程门阵列）在人工智能领域的应用非常广泛，主要体现在以下几个方面：一、深度学习加速训练和推理过程加速：FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性

发表于 07-29 17:05

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V2）

*附件：泛边缘案例课.pdf 人工智能 引体向上测试案例 14分21秒 https://t.elecfans.com/v/27186.html *附件：引体向上测试案例_20240126.pdf

发表于 05-10 16:46

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V1）

机器人案例.pdf 人工智能 AI泛边缘：智能安防实训 31分38秒 https://t.elecfans.com/v/25509.html *附件：泛边缘案例课.pdf 人工智能 引体向上测

发表于 04-01 10:40

嵌入式人工智能的就业方向有哪些?

嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下，嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下，众多名企也纷纷在嵌入式人工智能领域布局

发表于 02-26 10:17

人工智能在软件测试中的应用

随着信息技术的飞速发展，软件测试的重要性越来越凸显。传统的软件测试方法往往需要耗费大量时间和人力，而且难以发现一些深层次的缺陷。为了提高软件的质量和可靠性，越来越多的企业开始探索人工智能技术在软件

发表于 12-26 11:02 •580次阅读

人工智能三个层面问题分析

生成式人工智能可通过非专业化的指令直接创建新的内容和想法，这比以往的人工智能更像人类。这一特性引起人工智能是否会挑战人类意识地位的担忧。

发表于 12-13 11:29 •350次阅读

搜索历史

心智理论测试:人工智能击败人类

评论