谷歌李飞飞：人工智能研究道路漫长而曲折我们依旧在起点龟速前进-电子发烧友网

说起人工智能，孕育了卷积神经网络和深度学习算法的 ImageNet 挑战赛恐怕是世界上最著名的 AI 数据集。8 年来，在 ImageNet 数据集的训练下，人工智能对于图像识别的准确度整整提高了 10 倍，甚至超越了人类视觉本身。

然而，AI 领域的科学家们并没有停下前进的脚步。上个周末，人工智能领域最卓越的科学家之一：斯坦福大学终身教授、谷歌云首席科学家李飞飞在未来论坛年会上，为我们做了一场名为“超越 ImageNet 的视觉智能”的精彩演讲。她告诉我们，AI 不仅仅能够精准辨认物体，还能够理解图片内容、甚至能根据一张图片写一小段文章，还能“看懂”视频......

今天小编给大家带来的是我们最近的一些研究思路，今天小编的演讲内容是视觉智能。我们都知道，地球上有很多种动物，这其中的绝大多数都有眼睛，这告诉我们视觉是最为重要的一种感觉和认知方式。它对动物的生存和发展至关重要。

所以无论我们在讨论动物智能还是机器智能，视觉是非常重要的基石。世界上所存在的这些系统当中，我们目前了解最深入的是人类的视觉系统。从 5 亿多年前寒武纪大爆发开始，我们的视觉系统就不断地进化发展，这一重要的过程得以让我们理解这个世界。而且视觉系统是我们大脑当中最为复杂的系统，大脑中负责视觉加工的皮层占所有皮层的 50%，这告诉我们，人类的视觉系统非常了不起。

寒武纪物种大爆发

一位认知心理学家做过一个非常著名的实验，这个实验能告诉大家，人类的视觉体系有多么了不起。大家看一下这个视频，你的任务是如果看到一个人的话就举手。每张图呈现的时间是非常短的，也就是 1/10 秒。不仅这样，如果让大家去寻找一个人，你并不知道对方是什么样的人，或者 TA 站在哪里，用什么样的姿势，穿什么样的衣服，然而你仍然能快速准确地识别出这个人。

1996 年的时候，法国著名的心理学家、神经科学家 Simon J. Thorpe 的论文证明出视觉认知能力是人类大脑当中最为了不起的能力，因为它的速度非常快，大概是 150 毫秒。在 150 毫秒之内，我们的大脑能够把非常复杂的含动物和不含动物的图像区别出来。那个时候计算机与人类存在天壤之别，这激励着计算机科学家，他们希望解决的最为基本的问题就是图像识别问题。

在 ImageNet 之外，在单纯的物体识别之外，我们还能做些什么？

过了 20 年到现在，计算机领域内的专家们也针对物体识别发明了几代技术，这个就是众所周知的 ImageNet。我们在图像识别领域内取得了非常大的进步：8 年的时间里，在 ImageNet 挑战赛中，计算机对图像分类的错误率降低了 10 倍。同时，这 8 年当中一项巨大的革命也出现了： 2012 年，卷积神经网络（convolutionary neural network）和 GPU（图形处理器，Graphic Processing Unit）技术的出现，对于计算机视觉和人工智能研究来说是个非常令人激动的进步。作为科学家，我也在思考，在 ImageNet 之外，在单纯的物体识别之外，我们还能做些什么？

谷歌李飞飞：人工智能研究道路漫长而曲折我们依旧在起点龟速前进

8年的时间里，在ImageNet挑战赛中，计算机对图像分类的错误率降低了10倍。

通过一个例子告诉大家：两张图片，都包含一个动物和一个人，如果只是单纯的观察这两张图中出现的事物，这两张图是非常相似的，但是他们呈现出来的故事却是完全不同的。当然你肯定不想出现在右边这张图的场景当中。

这里体现出了一个非常重要的问题，也就是人类能够做到的、最为重要、最为基础的图像识别功能——理解图像中物体之间的关系。为了模拟人类，在计算机的图像识别任务中，输入的是图像，计算机所输出的信息包括图像中的物体、它们所处的位置以及物体之间的关系。目前我们有一些前期工作，但是绝大多数由计算机所判断的物体之间的关系都是十分有限的。

最近我们开始了一项新的研究，我们使用深度学习算法和视觉语言模型，让计算机去了解图像中不同物体之间的关系。

计算机能够告诉我们不同物体之间的空间关系，能在物体之间进行比较，观察它们是否对称，然后了解他们之间的动作，以及他们之间的介词方位关系。所以这是一个更为丰富的方法，去了解我们的视觉世界，而不仅仅是简单识别一堆物体的名称。

Visual Relationship Detection with Language Priors

更有趣的是，我们甚至可以让计算机实现 Zero short（0 样本学习）对象关系识别。举个例子，用一张某人坐在椅子上、消防栓在旁边的图片训练算法。然后再拿出另一张图片，一个人坐在消防栓上。虽然算法没见过这张图片，但能够表达出这是“一个人坐在消防栓上”。类似的，算法能识别出“一匹马戴着帽子”，虽然训练集里只有“人骑马”以及“人戴着帽子”的图片。

让 AI 读懂图像

在物体识别问题已经很大程度上解决以后，我们的下一个目标是走出物体本身，关注更为广泛的对象之间的关系、语言等等。

ImageNet 为我们带来了很多，但是它从图像中识别出的信息是非常有限的。COCO 软件则能够识别一个场景中的多个物体，并且能够生成一个描述场景的短句子。但是视觉信息数据远不止这些。

经过三年的研究，我们发现了一个可以有更为丰富的方法来描述这些内容，通过不同的标签，描述这些物体，包括他们的性质、属性以及关系，然后通过这样的一个图谱建立起他们之间的联系，我们称之为Visual Genome dataset（视觉基因组数据集）。这个数据集中包含 10多万张图片，100 多万种属性和关系标签，还有几百万个描述和问答信息。在我们这样一个数据集中，能够非常精确地让我们超越物体识别，来进行更加精确的对于物体间关系识别的研究。

那么我们到底要怎么使用这个工具呢？场景识别就是一个例子：它单独来看是一项简单的任务，比如在谷歌里搜索“穿西装的男人”或者“可爱的小狗”，都能直接得到理想的结果。但是当你搜索“穿西装的男人抱着可爱的小狗”的时候，它的表现就变得糟糕了，这种物体间的关系是一件很难处理的事情。

绝大多数搜索引擎的这种算法，在搜索图像的时候，可能很多还是仅仅使用物体本身的信息，算法只是简单地了解这个图有什么物体，但是这是不够的。比如搜索一个坐在椅子上的男性的图片，如果我们能把物体之外、场景之内的关系全都包含进来，然后再想办法提取精确的关系，这个结果就会更好一些。

2015 年的时候，我们开始去探索这种新的呈现方法，我们可以去输入非常长的描述性的段落，放进 ImageNet 数据集中，然后反过来把它和我们的场景图进行对比，我们通过这种算法能够帮助我们进行很好的搜索，这就远远地超过了我们在之前的这个图像搜索技术当中所看到的结果。

Google图片的准确率已经得到了显著提升

这看起来非常棒，但是大家会有一个问题，在哪里能够找到这些场景图像呢？构建起一个场景图是一件非常复杂并且很困难的事情。目前 Visual Genome 数据集中的场景图都是人工定义的，里面的实体、结构、实体间的关系和到图像的匹配都是我们人工完成的，过程挺痛苦的，我们也不希望以后还要对每一个场景都做这样的工作。

所以我们下一步的工作，就是希望能够出现自动地产生场景图的一个技术。所以我们在今年夏天发表的一篇 CVPR 文章中做了这样一个自动生成场景图的方案：对于一张输入图像，我们首先得到物体识别的备选结果，然后用图推理算法得到实体和实体之间的关系等等；这个过程都是自动完成的。

Scene Graph Generation by Iterative Message Passing

人工智能可以像人类一样看懂视频？

Visual Genome 数据集能让计算机更好地了解场景信息，但是还是不够的。而且实际上到现在为止，我们仅仅探索了认知心理学家所讨论的一个概念——现场感知（scene gist perception）：只需要轻轻一瞥，就能把握主整个场景中的物体和它们之间的关系。那么在此之外呢？

小编想回过头去看看十年前我在加州理工学院读博士的时候做的一个心理学实验，小编用 10 美元/小时的费用招募人类被试，通过显示器给他们快速呈现出一系列照片，每张照片闪现之后用一个类似墙纸一样的图像盖住它，目的是把他们视网膜暂留的信息清除掉。然后让他们尽可能多地写下自己看到的东西。有些照片只显示了 1/40 秒（27毫秒），有些照片则显示了 0.5 秒的时间，我们的被试能够在这么短的时间里理解场景信息。如果小编给的实验费用更高的话，大家甚至能做的更好。进化给了我们这样的能力，只看到一张图片就可以讲出一个很长的故事。

2015 年开始，我们使用卷积神经网络和递归神经网络算法比如 LSTM 来建立图像和语言之间的关系。从此之后我们就可以让计算机给几乎任何东西配上一个句子。比如这两个例子，“一位穿着橙色马甲的工人正在铺路”和“穿着黑色T恤的男人正在弹吉他”。

不过图像所包含的信息很丰富，一个简短的句子不足以涵盖所有，所以我们下一步的工作就是稠密捕获（dense capture）。让计算机将一张图片分为几个部分，然后分别对各个部分进行描述，而不是仅仅用一个句子描述整个场景。

除了此之外，我们今年所做的工作迈上了一个新的台阶，计算机面对图像不只是简单的说明句子，还要生成文字段落，把它们以具有空间意义的方式连接起来。这与认知心理学家所做的实验当中人类的描述结果是非常接近的。

COCO 能够根据图片写出几个句子（粉色部分）

新算法能够生成一个段落（蓝色部分）

A Hierarchical Approach for Generating Descriptive Image Paragraphs

但是我们并没有停止在这里，我们开始让计算机识别视频。这是一个崭新且丰富的计算机视觉研究领域。互联网上有很多视频，有各种各样的数据形式，了解这些视频是非常重要的。我们可以用跟上面相似的稠密捕获模型去描述更长的故事片段。把时间的元素加入进去，计算机就能够识别一段视频并对它进行描述。

视觉认知和逻辑推理的结合

最后，小编想谈谈在简单认知以外，我们如何让人工智能达到任务驱动的水平。从一开始人类就希望用语言给机器人下达指定，然后机器人用视觉方法观察世界、理解并完成任务。

在 20 世纪七八十年代的时候，人工智能的先驱们就已经在研究如何让计算机根据他们的指令完成任务了。比如下面这个例子，人类说：“蓝色的角锥体很好。我喜欢不是红色的立方体，但是我也不喜欢任何一个垫着角锥体的东西。那我喜欢那个灰色的盒子吗？” 那么机器或者人工智能就会回答：“不，因为它垫着一个角锥体”。它能够对这个复杂的世界做理解和推理。

最近，我们和 Facebook 合作重新研究这类问题，创造了带有各种几何体的场景，我们命名为 Clever dataset。这个数据集包含成对的问题和答案，这其中会涉及到属性的辨别、计数、对比、空间关系等等。我们会给人工智能提问，看它会如何理解、推理、解决这些问题。

我们将人工智能和人类对这类推理问题的回答做了个比较：人类能达到超过 90% 的正确率，机器虽然能做到接近 70% 了，但是仍然有巨大的差距。有这个差距就是因为人类能够组合推理，机器则做不到。

因此我们开始寻找一种能够让人工智能表现得更好的方法：我们把一个问题分解成带有功能的程序段，然后在程序段基础上训练一个能回答问题的执行引擎。这个方案在尝试推理真实世界问题的时候就具有高得多的组合能力。这项工作我们刚刚发表于 ICCV。

比如我们提问“紫色的东西是什么形状的？”，它就会回答“是一个立方体”，并且能够准确定位这个紫色立方体的位置。这表明了它的推理是正确的。它还可以数出东西的数目。这都体现出了算法可以对场景做推理。

总的来看，我给大家分享的是一系列超越 ImageNet 的工作：

首先，计算机视觉能够做到除物体识别之外的关系识别、复杂语义表征和场景图景的构建；

这之后，我们使用视觉+语言处理单句标注、段落生成、视频理解、联合推理；

最后是任务驱动的视觉问题，这里还是一个刚刚起步的领域，我相信视觉和逻辑的组合会在这个领域真正携起手来。

人类视觉已经发展了很久，计算机的视觉识别虽然在出现后的 60 年里有了长足的进步，但也仍然只是一门新兴学科。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6172

浏览量
105629
AI

AI

+关注

关注
87

文章
31133

浏览量
269455
人工智能

人工智能

+关注

关注
1792

文章
47425

浏览量
238955

原文标题：谷歌李飞飞：我们依旧站在人工智能研究的起点

文章出处：【微信号：AItists，微信公众号：人工智能学家】欢迎添加关注！文章转载请注明出处。

李想：理想汽车押注人工智能，视其为未来核心

，而是更加先进、更加全面的人工智能。李想透露，理想汽车每年在研发上的投入高达一百亿元，其中一半资金都用于人工智能领域的发展。他认为，随着大模型技术的出现，人类社会将迎来根本性的变革。互联网已经实现了信息的平权，

发表于 12-26 10:58 •699次阅读

嵌入式和人工智能究竟是什么关系?

应用场景。例如，在智能家居领域，嵌入式系统可以控制各种智能设备，如智能灯泡、智能空调等，而

发表于 11-14 16:39

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

了电力的实时平衡和优化，有效降低了电网的运行成本和故障率。此外，书中还讨论了人工智能在能源科学研究中的挑战和机遇。这些挑战包括数据质量、算法优化、隐私保护等方面，而机遇则体现在技术创新、产业升级

发表于 10-14 09:27

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

很幸运社区给我一个阅读此书的机会，感谢平台。《AI for Science：人工智能驱动科学创新》第4章关于AI与生命科学的部分，为我们揭示了人工智能技术在生命科学领域中的广泛应用和深远影响。

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

，推动科学研究的深入发展。总结通过阅读《AI for Science：人工智能驱动科学创新》第二章，我对AI for Science的技术支撑有了更加全面和深入的理解。我深刻认识到AI在科学

发表于 10-14 09:16

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

，无疑为读者铺设了一条探索人工智能（AI）如何深刻影响并推动科学创新的道路。在阅读这一章后，我深刻感受到了人工智能技术在科学领域的广泛应用潜

发表于 10-14 09:12

risc-v在人工智能图像处理应用前景分析

定制性。这些特点使得RISC-V在多个领域，包括人工智能图像处理领域，具有显著的优势。二、RISC-V在人工智能图像处理中的优势开源性和灵活性： RISC-V的开源性意味着任何人

发表于 09-28 11:00

人工智能ai4s试读申请

目前人工智能在绘画对话等大模型领域应用广阔，ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题，本书对ai4s基本原理和原则，方法进行描诉，有利于总结经验，拟按照要求准备相关体会材料。看能否有助于入门和提高ss

发表于 09-09 15:36

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

大力发展AI for Science的原因。第2章从科学研究底层的理论模式与主要困境，以及人工智能三要素（数据、算法、算力）出发，对AI for Science的技术支撑进行解读。第3章介绍了在

发表于 09-09 13:54

FPGA在人工智能中的应用有哪些？

FPGA（现场可编程门阵列）在人工智能领域的应用非常广泛，主要体现在以下几个方面：一、深度学习加速训练和推理过程加速：FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性

发表于 07-29 17:05

李飞飞最新解码空间智能,DePIN破局最后一米,AIoT即将绽放异彩

在人工智能的领域里，有一个概念正悄然崛起，它被称为“空间智能”。最近，一位人工智能界的传奇人物将它推到了聚光灯下。这个人就是李

发表于 05-26 08:04 •387次阅读

<b class='flag-5'>李</b><b class='flag-5'>飞飞</b>最新解码空间<b class='flag-5'>智能</b>,DePIN破局最后一米,AIoT即将绽放异彩

新火种AI|AI教母李飞飞初创AI公司，开启最前沿AI算法研究

AI教母李飞飞首次创业，瞄准“空间智能”。

发表于 05-06 16:24 •319次阅读

新火种AI|AI教母<b class='flag-5'>李</b><b class='flag-5'>飞飞</b>初创AI公司，开启最前沿AI算法<b class='flag-5'>研究</b>

谷歌宣布在医疗保健领域推出人工智能计划

谷歌最近公布了一系列激动人心的计划，将先进的人工智能模型引入医疗保健领域。据谷歌透露，其研究团队正联手旗下Fitbit公司，共同研发一项创新的人工智

发表于 03-21 10:54 •665次阅读

嵌入式人工智能的就业方向有哪些?

。国内外科技巨头纷纷争先入局，在微软、谷歌、苹果、脸书等积极布局人工智能的同时，国内的BAT、华为、小米等科技公司也相继切入到嵌入式人工智能的赛道。那么嵌入式AI可就业的方向有哪些呢

发表于 02-26 10:17

谷歌最新人工智能模型Gemini Pro已在欧洲上市

近日，谷歌宣布其最新人工智能模型Gemini Pro已在欧洲市场上市，向欧洲用户开放。Gemini Pro是谷歌最大的人工智能(AI)模型之一，被视为巴德(Bard)的升级版。

发表于 02-04 15:10 •1227次阅读

搜索历史

谷歌李飞飞：人工智能研究道路漫长而曲折我们依旧在起点龟速前进

评论

李想：理想汽车押注人工智能，视其为未来核心

嵌入式和人工智能究竟是什么关系?

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

risc-v在人工智能图像处理应用前景分析

人工智能ai4s试读申请

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

FPGA在人工智能中的应用有哪些？

李飞飞最新解码空间智能,DePIN破局最后一米,AIoT即将绽放异彩

新火种AI|AI教母李飞飞初创AI公司，开启最前沿AI算法研究

谷歌宣布在医疗保健领域推出人工智能计划

嵌入式人工智能的就业方向有哪些?

谷歌最新人工智能模型Gemini Pro已在欧洲上市

搜索历史

谷歌李飞飞：人工智能研究道路漫长而曲折 我们依旧在起点龟速前进

评论

谷歌李飞飞：人工智能研究道路漫长而曲折我们依旧在起点龟速前进