人工智能无法通过儿童可轻松完成的“视力检测”-电子发烧友网

在一项新的研究中，计算机科学家发现，人工智能无法通过儿童可轻松完成的“视力检测”。

“这是一项聪明且重要的研究，它提醒我们所谓的‘深度学习’并非想象中的那么‘深’”，纽约大学神经科学家 Gary Marcus 表示。

在计算机视觉领域，人工智能系统会尝试识别和分类对象。他们可能会试图在街景中找到所有行人，或者只是将鸟与自行车区分开。要知道，这也是一项非常艰巨的任务，其背后的风险系数很高。随着计算机开始接管自动监控和自动驾驶等关键业务，我们会愈加希望它们的视觉处理能力与人眼一样好。

但这并不容易。这项研究任务突出了人类视觉的复杂性，以及构建模仿系统的挑战。期间，研究人员向计算机视觉系统展示了一幅客厅的场景，系统正确地识别了椅子、人和书架上的书。然后，研究人员在场景中引入了一个异常物体：一张大象的图像。接着，“恐怖”事件开始上演。

大象的存在导致系统忘记了自己。突然间，这个 AI 系统开始将椅子称为沙发，大象称为椅子，并完全忽略了它之前看到的其他物体。

“各种奇怪事件的发生，表明当前物体检测系统时多么得脆弱，”多伦多约克大学的研究员 Amir Rosenfeld 表示，他和他的同事 John Tsotsos 和 Richard Zemel 共同撰写了这项研究。

研究人员仍然想弄清楚为什么计算机视觉系统会如此脆弱。他们猜测 AI 缺乏人类那种从容处理海量信息的能力：当对某一场景产生困惑时，会再回过头重看一遍。

▌难以直面的“房中大象”

人类，只要睁大眼睛，大脑就会快速的收集、加工这些视觉信息。

相比之下，人工智能会非常费力地制造视觉印象，就好像它是用盲文阅读描述一样。不同的算法，人工智能产生了不同的表达效果。在此过程中，特定类型的 AI 系统被称为神经网络。它通过一系列“层”来传递图像。在每一层，图像细节如像素的颜色和亮度，被替换成了越来越抽象的描述。结束时，神经网络会对其正在观察的内容产生最佳猜测。

“通过获取前一层的输出，处理并将其传递到下一层，就像管道一样，都从一层移动到另一层，”Tsotsos 说。

在这个过程中，神经网络擅长特定视觉事物的判断，如将物体进行类别分配。这些成果激起了人们的期望，甚至期待它们可以很快应用在城市车辆的驾驶系统中。

这项新研究具有相同的精神。三位研究人员为神经网络提供了一个客厅场景：一个坐在破旧椅子边缘的男子在玩视频游戏时向前倾斜。看过这个场景之后，神经网络正确检测到了许多具有高可信度的物体：人、沙发、电视、椅子、书籍。如下（a）图。

在（a）图中，神经网络以高概率正确识别出了杂乱的起居室场景中的许多项目。（f）图中添加了一只大象的侧身像，系统便出现了问题。左下角的椅子变成了沙发，附近的杯子消失，大象被误以为是椅子。在其他情况下，系统忽略了在此前试验中正确检测到的物体。甚至将大象从图片中移除后，也会发生这些错误。

“如果房间里真的有一头大象，那么你可能会注意到它。”“该系统甚至没有检测到它的存在。” Rosenfeld 说道。

论文中研究人员总结道：

识别是不稳定的：物体可能偶尔无法被检测到，或者在环境不经意间快速改变后才能检测到。

被识别目标的标记并非一致：根据不同的位置，目标可能会被识别为不同的类别。

被识别目标引起了非局部影响：与该目标不重叠的对象可切换标记、边框，甚至完全消失。

这些结果是图像识别中的常见问题。通过用包含训练对象的图像替换另一个图像的子区域而获得，这称之为“目标移植”。以这种方式修改图像对识别具有非局部影响。细微的变化会影响目标检测工具的识别效果。

▌为什么就不能“反思”？

当人类看到意想不到的的东西时，会反复思考。这是一个具有真实认知意义的常见现象，而这恰恰解释了为什么当场景变得怪异时，神经网络就会崩溃。

如今用于物体检测的最佳神经网络主要以“前馈”的方式工作。这意味着信息穿过神经网络时只有一个方向。它们从细粒度像素的输入开始，然后移动到曲线、形状和场景，神经网络对每一步看到的物体做出最优预测。因此，当神经网络汇集它认为知道的所有内容并进行猜测时，早期错误的观察会最终影响整个预测的效果。

设想一下，如果是让人类看到一幅包含了圆形和正方形的图像，其中一个图形为蓝色，另一个为红色。可能一眼并不能足以看清二者的颜色。但关键的是，当人类第二次看时，就会将注意力集中在方块的颜色上。

“关于人类的视觉系统，‘我还没有正确的答案，所以我必须返回去看看在哪里犯了错误’，” Tsotsos 解释道。他通过一个叫做Selective Tuning 的理论（http://www.cse.yorku.ca/~tsotsos/Selective_Tuning/Selective_Tuning.html）来解释这个视觉认知特征的问题。

大多数神经网络缺乏这种反向能力。对于工程师们如何构建这种特质亦是困难。前馈神经网络的优势在于——通过相对简单的训练即可进行预测。

但如果神经网络要获得这种反复思考的能力。他们需要熟练掌握合适利用这种新能力，以及何时以前馈方式向前推进的能力。人脑可在这些不同的过程之间无缝切换，而神经网络需要一个新的理论框架才能做同样的事情。

一篇评论引发的讨论

其实，该项研究论文早于上月就已公开发表，但让大家得到关注的却是因为《量子杂志》专栏作者 Kevin Hartnett 的一篇评论 “ Machine Learning Confronts the Elephant in the Room” 所传递出的强烈观点。

对此，许多读者表达了自己的看法。

机器学习将会遭遇成长的痛苦……

这篇文章很有趣，但它没有说清楚该系统是否具有大象的概念（另外我认为严重裁剪像素化的大象不应算数。）

考虑到透视和照明，将豆袋称为沙发，然后是椅子，这就足够了。

所有与 AI 相关的“问题”似乎与它们的实际编码有关系。当 AI 有80%的的确定性时，人们倾向于认为这很好，而人类很少能达到这样的准确性：要么是 100% 确定（但有可能是错的），要么是 50% 的准确性甚至完全不清楚。

这就是人类会做的事情，记住物体X和Y的特征，虽然很难在特定的图像中分辨出来，但还是尽可能通过更清晰的图片核实真伪。

你可以进行简单的思考实验，看看人脑在分析图像时做了什么。首先，当我看一个场景时，我一定是对几何有所了解的。无论意义、文字、符号如何，我都可以追溯到事物的三维形状，这些是与文字无关的。

其次，我可以通过看到大象的外观模型，与“大象”这个词联系起来。我不需要颜色或细节就知道它是大象。事实上，仅凭颜色和细节，我还是很难识别出大象。

（假设我们基于大象的真实图片训练了一款神经网络）如果你将大象的白色雕塑（图片）拿给神经网络识别，那么它很可能不会输出“大象”这个词。但如果你给出一个大象的真实图片进行识别，那它可以正确识别大象。

由于大象的白色雕塑与实际图片之间的差异只是颜色等细节，这表明当训练深度学习网络识别大象时，训练的是细节（包括颜色、像素、甚至斑点），而不是三维模型……这种方式正好与人类认知相反。这是一种过度拟合的形式，单纯训练不足以帮助学习网络捕捉几何规律。我敢打赌，如果你用大象的特写照片用来训练网络，那么它在识别方面将做得更好。

我猜测：我们的思维具有特定的和遗传决定的内置几何识别算法，可以将 2D 图像转换为 3D 形状。虽然多数情况下我们专注于研究的机器学习是图像识别，但我相信大脑实际上是学习形状和几何识别的。

▌写在最后

本文开头我们引述了纽约大学神经科学家 Gary Marcus 的评价：“深度学习”并非我们想象中的那么“深”。想起此前海内外在内的不少学者专家也都曾表示，深度学习虽然引起了人工智能的新一股热潮，但深度学习并非万能，在它之外仍有很多的研究内容值得关注。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
47146

浏览量
238119
计算机视觉

计算机视觉

+关注

关注
8

文章
1698

浏览量
45965
深度学习

深度学习

+关注

关注
73

文章
5497

浏览量
121094

原文标题：错看一头大象后，这个AI“疯了”！

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

人工智能是什么?

的要求，希望能有越来越多的智能工具来帮助自己完成一些事情。比如扫地机器人、陪伴机器人等等。这两点都直接影响着人工智能的发展。而我们知道，人工智能机器人一般分为工业机器人和服务机器人

发表于 09-16 15:40

人工智能的前世今生引爆人工智能大时代

`昨天在论坛看了一个帖子一个故意不通过图灵测试的人工智能，在这之前我也一直对人工智能这一块很感兴趣，只是工作领域不涉及到这一块，并且一直觉得人工智能还离我们很遥远，看了昨天的文章，突然

发表于 03-03 11:05

百度人工智能大神离职，人工智能的出路在哪?

。我们不仅可以在手机上查看房间的温湿度，还可以通过手机远程控制SK3主控板的工作时间，达到真正的人工智能化管理。在我看来，这就是人工智能，人工智能不应该束之高阁或者遥不可及，亦或者是一

发表于 03-23 17:00

人工智能已经进入医疗领域

的方式保存起来，当需要的时候在一定的授权下能够很快的调回使用，同时增加一些辅助诊断管理功能。如今，随着人工智能技术的逐步兴起，为放射科医生提高工作效率提供了更多可能。通过人工智能算法，机器可以自动读取

发表于 05-24 15:07

当人工智能遇到熊孩子，会碰撞出什么火花？

，可能在定位的准确性上面还是有待提升，另外可能会存在交互效果差的情况。当然这里面牵涉的因素很多，比如场所因素、儿童的表达因素，等等。但人工智能产品的识别能力，目前在国际和国内也是参差不齐的，只有通过提高

发表于 06-05 09:48

解读人工智能的未来

交通路线等等。而目前让人们感到恐慌的实际上是另一种人工智能，它叫做AGI或人工通用智能，它是一种像人类一样聪明灵活的人工智能，能够解决人类无法

发表于 11-14 10:43

人工智能医生未来或上线，人工智能医疗市场规模持续增长

+医疗市场规模持续增长　　由广州市妇女儿童医疗中心教授夏慧敏、加州大学圣地亚哥分校教授张康等专家领衔的医疗数据智能化应用团队，联合人工智能研究和转化机构研发出“辅诊熊”人工智能诊断

发表于 02-24 09:29

人工智能：超越炒作

开车或飞行，您可以相信会涉及一些严重的AI功能。阅读，说话或翻译语言，预测物体的质量和速度，代表你购买股票，识别面部或诊断乳腺癌，都是通过算法完成的人工智能特征。现在，想象一下整个AI事物的连接世界

发表于 05-29 10:46

人工智能在汽车中有什么应用？

在未来的某个时候，人们必定能够相对自如地运用人工智能，安全地驾车出行。这个时刻何时到来我无法预见；但我相信，彼时“智能”会显现出更“切实”的意义。与此同时，通过深度学习方法，

发表于 08-06 08:42

什么是基于云计算的人工智能服务？

如今，采用人工智能的企业遇到了一个主要障碍，那就是在内部开发人工智能产品成本高昂，因此有了外包人工智能产品的需求。而对于从中小企业到预算受限的大型企业来说，通过云计算来采用

发表于 09-11 11:51

人工智能的应用领域有哪些？

；9、手术机器人可毫无瑕疵地完成外科手术，其操作失误率会远低于人类；10、软件开发：常规的编码、测试工作都可以由人工智能来实现。人工智能的应用领域不只是简单的体力劳动者工作，还有医生、

发表于 10-23 11:07

人工智能芯片是人工智能发展的

人工智能芯片是人工智能发展的 | 特伦斯谢诺夫斯基责编 | 屠敏本文内容经授权摘自《深度学习智能时代的核心驱动力量》从AlphaGo的人机对战，到无人驾驶汽车的上路，再到AI合成主播上岗

发表于 07-27 07:02

嵌入式与人工智能关系是什么

嵌入式与人工智能关系_嵌入式人工智能的发展趋势　　所谓嵌入式人工智能，就是设备无须联网通过云端数据中心进行大规模计算去实现人工智能，而是在本

发表于 10-27 07:41

ai人工智能机器人

随着时间的推移，人工智能的发展越来越成熟，智能时代也离人们越来越近，近几年人工智能越来越火爆，人工智能的应用已经开始渗透到各行各业，与生活交融，成为人们

发表于 09-21 11:09

人工智能可助快速发现儿童焦虑和抑郁问题

统计显示高达20%的儿童会出现焦虑和抑郁，但这些心理问题往往难以被及时发现，以致错过最佳干预时机。现在，美国研究人员利用人工智能技术开发出一种儿童行为筛查工具，可快速、准确发现这类问题

发表于 01-23 16:40 •2655次阅读

搜索历史

人工智能无法通过儿童可轻松完成的“视力检测”

评论

人工智能是什么?

人工智能的前世今生引爆人工智能大时代

百度人工智能大神离职，人工智能的出路在哪?

人工智能已经进入医疗领域

当人工智能遇到熊孩子，会碰撞出什么火花？

解读人工智能的未来

人工智能医生未来或上线，人工智能医疗市场规模持续增长

人工智能：超越炒作

人工智能在汽车中有什么应用？

什么是基于云计算的人工智能服务？

人工智能的应用领域有哪些？

人工智能芯片是人工智能发展的

嵌入式与人工智能关系是什么

ai人工智能机器人

人工智能可助快速发现儿童焦虑和抑郁问题