视觉对话能力让AI迈上新台阶-电子发烧友网

正如《2001太空漫游》《流浪地球》等科幻大片中无障碍的人机对话系统所描绘的那样，拥有智能视觉对话能力的AI随着技术的不断突破，正在向我们走来。

每个人都有这样的回忆，小时候语文老师教我们看图说话，许多小朋友脑洞大开，说出来的答案让人啼笑皆非。实际上，看图说话的能力在年幼时期需要训练，而对于大一点孩子来说就不成问题了。如今，机器人也能做到看图说话了。

近日，来自中国AI在这项能力上已经打破了世界纪录。在第二届全球AI视觉对话竞赛（Visual Dialogue Challenge）中，阿里AI击败了微软、首尔大学等十支参赛队伍，一举获得冠军。

阿里AI在视觉对话竞赛中得冠

会“看图说话”的AI有多聪明？

这场视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室（FAIR）等机构联合全球视觉技术领域顶级学术会议CVPR发起，是目前视觉对话领域最权威的竞赛之一。

该竞赛要求参赛的AI在看完近万张图片后，回答出人类对于任一图片任一内容的提问。这要求AI不仅能够描述出图片中内容的概况，还要经得起人类对图片各种细节的追问。比如，在一张撑着雨伞的人物图片中，说出伞是什么颜色的，有多少人在图中，附近有什么物品和建筑物等等信息。

视觉对话中AI可以从容应对人类提问（左为AI、右为人类）

竞赛结果显示，阿里AI以74.57%的准确率获得冠军，将上一届比赛的纪录提高了16.82%，并且超过微软AI的64.78%的准确率。而在相同的数据集中，人类的准确率仅为64.27%，AI甚至胜过了人类。

传统的视觉AI主要针对目标的检测和识别，但对复杂场景中目标之间的逻辑关系理解、推理能力较弱，无法回答表达图片对象直接关系的复杂问题，也难以将图片信息转化为人类理解的语言输出。

这意味着，要实现视觉对话能力，传统的视觉AI在学会“看图”之后，还要有一种语言模型来支撑它“说话”。阿里AI的突破就在于提出了“递归探索对话模型”。

视觉对话AI与用户交流图像内容

这一模型通过标注信息学习出模仿人类认知复杂场景的思维方式，能识别图片里的实体以及它们之间的关系，推理出图片所描述的事件内容，并通过对上下文进行有效建模，综合集成了图像识别、关系推理与自然语言理解三大能力，能理解人类提出的问题及真实意图，给出自然准确的回复。

视觉对话能力让AI迈上新台阶

AI能“看图说话”，这样的应用其实距离我们并不遥远，微软之前推出了一款年龄测试工具How-old.net ，曾经刷爆微博和朋友圈，所应用的就是这一技术的应用。

目前微软还开放了能“看图说话”的AI系统，用户进入官网上传图片，稍等一会，就能看到系统对于图片的描述。其准确率虽然不低但依旧有待提升，以一张曾经广为流传的黑人问号表情图片为例，AI很快给出了客观的回答：“我觉得这是篮球队员尼克·杨露出牙齿微笑。”

AI视觉对话识别图片信息

以“看图说话”为代表的视觉对话是近年来快速崛起的AI研究方向，目的在于教会机器用自然语言与人类讨论视觉内容，这能够使机器拥有了对真实视觉世界的理解与推断能力，也意味着AI的认知能力将迈上新的台阶。

可以预见，这项技术未来将被应用在人机交互诸多场景：

在火灾、地震后在废墟中寻找幸存者的救援机器人，能够代替人类之眼，深入危险的现场，及时、高效地综合指挥指令和场景信息作出行动。

视觉对话技术有望人类提高地震救援效率

视障人士可以通过提问AI，理解图像中的内容，了解自身所处的周围环境，为其生活起居带来更多的便利。

无人驾驶车辆也可以在行驶中通过视觉对话，更加准确理解人类意图征询人类的意见，让乘客的乘坐体验更好。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器视觉

机器视觉

+关注

关注
162

文章
4425

浏览量
120961
AI

AI

+关注

关注
87

文章
32069

浏览量
270959

原文标题：机器人看图说话能力比肩人类！中国AI超越微软，打破世界纪录

文章出处：【微信号：jingzhenglizixun，微信公众号：机器人博览】欢迎添加关注！文章转载请注明出处。

天津检验中心智创团队:致力于构建全球领先的智能网联汽车测试能力

在刚刚过去的2024年，天津检验中心新“智”突破创效团队坚持党建引领，全面贯彻集团新质创效年工作任务，圆满完成各项工作任务，实现部门战斗力、创新力和凝聚力的整体提升，经济效益迈上新台阶，科技创新实现

发表于 02-12 11:43 •724次阅读

鼎捷雅典娜接入DeepSeek大模型，加速 AI 应用创新布局

鼎捷数智（股票代码：300378）近日宣布，DeepSeek大模型已全面集成至鼎捷IndepthAI智能体平台及鼎捷全线智能应用，标志着鼎捷以“智能+”战略为引领，AI布局再上新台阶。通过接入

发表于 02-10 15:18 •370次阅读

鼎捷雅典娜接入DeepSeek大模型，加速 <b class='flag-5'>AI</b> 应用创新布局

HarmonyOS NEXT 应用开发练习：AI智能对话框

显示发送的时间戳，以便用户了解消息的发送时间。这个DEMO展示了如何使用ArkTS和扩展后的ChatUI框架（或类似功能的库）在HarmonyOS NEXT上创建一个功能丰富的AI智能对话框。我们可以根据需要进一步定制和扩展这

发表于 01-03 11:29

AI对话魔法 Prompt Engineering 探索指南

Engineering 就是设计和优化与AI对话的“提示词”或“指令”，让AI能准确理解并提供有用的回应。 Prompt Engineering 主要包括以下几个方面： 1.明确目标

发表于 11-07 10:11 •999次阅读

<b class='flag-5'>AI</b><b class='flag-5'>对话</b>魔法 Prompt Engineering 探索指南

中科曙光推动液冷技术产业加速落地

当前，我国算力基础设施建设如火如荼，算力规模不断迈上新台阶。算力设施的高功耗，对冷却设备和技术提出了更高要求。传统液冷数据中心面临着三个痛点难题：缺乏尖端实验和研发环境、产品化能力不足

发表于 09-20 15:48 •738次阅读

对话蓝牙技术联盟首席执行官Neville Meijers

蓝牙技术联盟（Bluetooth SIG）于近日宣布Neville Meijers担任新任首席执行官。Neville Meijers将为蓝牙技术联盟带来长期积累的变革领导力和坚持不懈的创新精神，他曾以此帮助电信和无线企业迈上新台阶

发表于 09-04 09:27 •470次阅读

消息称苹果正在洽谈投资OpenAI

科技巨头苹果公司近期传出新动向，据可靠消息透露，该公司正积极与人工智能领域的先锋OpenAI进行投资洽谈。此次合作的具体金额及细节尚未对外公布，但业界普遍预计，这一举动将进一步巩固OpenAI在AI领域的领先地位，并推动其估值迈上

发表于 09-02 16:47 •656次阅读

AWS与Workday深化合作，推进生成式AI功能开发

在云计算与人工智能融合发展的新篇章中，亚马逊旗下的Amazon Web Services（AWS）与领先的企业管理软件提供商Workday宣布深化合作，共同探索并开发前沿的生成式人工智能（AI）功能。此次强强联合，标志着双方在推动企业客户数字化转型、提升运营效率及优化人才管理等方面的合作

发表于 07-19 16:11 •664次阅读

纳宏光电荣获ISO9001:2015质量管理体系认证及IATF16949:2016车规质量体系认证，品质管理再上新台阶

认证。这两大认证的通过，不仅标志着纳宏光电在产品质量管理和汽车行业标准方面迈上了新台阶，为纳宏的光电持续发展和市场拓展奠定了坚实基础，也进一步彰显了纳宏光电致力于为

发表于 07-08 09:26 •519次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

大模型语音问答、拍照识图、大模型绘图等丰富供能示例，支持语音唤醒、多轮语音交互。 2智能对话除了大模型语音对话，还集成了可离线运行的坐姿检测算法，是一个大模型在线服务+离线AI能力

发表于 06-18 17:33

【AIBOX快速入门】2步玩转AI对话

随着目前AI的高速发展，大批量AI硬件应运而生，但使用门槛普遍较高。为了解决这类问题，Firefly开源团队推出了基于Web的AI对话应用：FireflyChat，

发表于 05-30 08:02 •740次阅读

台阶仪测量膜厚怎么测

可以通过覆盖同样材料的基片或使用其他方法形成。2.仪器设置：在台阶仪上设置扫描参数，包括扫描速率（Speed）、扫描长度（length）、扫描类型（profile）

发表于 05-22 09:53 •1910次阅读

华为助力电信安全公司和江苏电信实现DDoS攻击“闪防”能力

攻击“闪防”解决方案商用试点，标志着中国电信业务安全能力迈上新台阶，DDoS攻击“闪防”解决方案向产品化迈出坚实的一步。

发表于 05-19 11:12 •929次阅读

和芯星通获ISO14001环境管理和ISO45001职业健康安全管理体系认证

近日，和芯星通正式通过ISO14001环境管理体系认证和ISO45001职业健康安全管理体系认证，标志着公司管理体系在制度化、规范化、精细化方面迈上新台阶，综合管理软实力进入新轨道。

发表于 04-09 18:25 •854次阅读

越影视觉，让AI看见这世界的繁花

视觉领域，将是AI最先爆发的地方

发表于 03-15 10:04 •1206次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

视觉对话能力让AI迈上新台阶

评论

天津检验中心智创团队:致力于构建全球领先的智能网联汽车测试能力

鼎捷雅典娜接入DeepSeek大模型，加速 AI 应用创新布局

HarmonyOS NEXT 应用开发练习：AI智能对话框

AI对话魔法 Prompt Engineering 探索指南

中科曙光推动液冷技术产业加速落地

对话蓝牙技术联盟首席执行官Neville Meijers

消息称苹果正在洽谈投资OpenAI

AWS与Workday深化合作，推进生成式AI功能开发

纳宏光电荣获ISO9001:2015质量管理体系认证及IATF16949:2016车规质量体系认证，品质管理再上新台阶

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

【AIBOX快速入门】2步玩转AI对话

台阶仪测量膜厚怎么测

华为助力电信安全公司和江苏电信实现DDoS攻击“闪防”能力

和芯星通获ISO14001环境管理和ISO45001职业健康安全管理体系认证

越影视觉，让AI看见这世界的繁花