0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里AI打破视觉对话识别纪录,AI的认知能力迈上新台阶!

PCB行业工程师技术交流 来源:YXQ 2019-07-02 16:01 次阅读

近日, 在第二届视觉对话竞赛Visual Dialogue Challenge中,阿里AI击败了微软、首尔大学等十支参赛队伍,获得冠军。

(阿里AI在视觉对话竞赛中得冠)

据了解,视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议CVPR发起,是目前视觉对话领域最权威的竞赛之一。

该竞赛要求参赛的AI在看完近万张图片后,回答出人类对于任一图片任一内容的提问。竞赛结果显示,阿里AI以74.57%的准确率获得冠军,将上一届比赛的纪录提高了16.82%。在相同的数据集中,人类的准确率仅为64.27%。

传统的视觉AI主要针对目标的检测和识别,例如识别出图片是否是一只猫,但对复杂场景中目标之间的逻辑关系理解、推理能力较弱,无法回答“这只猫旁边的男生穿了什么颜色的衣服”等复杂问题,也难以将图片信息转化为人类理解的语言输出。

阿里AI的突破在于提出了“递归探索对话模型”,综合集成了图像识别、关系推理与自然语言理解三大能力,它通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式,能够有效识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,理解人类提出的问题及真实意图,给出自然准确的回复。

视觉对话是近年来快速崛起的AI研究方向,目的在于教会机器用自然语言与人类讨论视觉内容。如果说视觉识别技术,让机器具备了视觉能力;那么视觉对话技术,则使得机器拥有了对真实视觉世界的理解与推断能力,意味着AI的认知能力将迈上新的台阶。

据了解,这项技术未来将被应用在人机交互诸多场景:地震后在废墟中寻找幸存者的救援机器人,能够更加及时、高效地综合指挥指令和场景信息作出行动;视障人士可以通过提问阿里AI,理解网络照片中的内容,了解自身所处的周围环境;无人驾驶车辆对影响因子的意图理解会更为准确,乘客的乘坐体验更好。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30830

    浏览量

    268995
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1614

    浏览量

    47195

原文标题:不忘初心 奋勇当先——光华科技连续9年成为中国电子电路专用化学品民族企业No.1

文章出处:【微信号:ruziniubbs,微信公众号:PCB行业工程师技术交流】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何在STM32f4系列开发板上部署STM32Cube.AI

    已下载STM32Cube.AI扩展包,但是无法使用,感觉像是没有部署AI模型,我是想要通过摄像头拍照,上传图像后,经过开发板处理器进行AI模型处理识别过后,告诉我
    发表于 11-18 09:39

    唯创知音WT3000A模块 AI对话功能介绍

    AI
    WT-深圳唯创知音电子有限公司
    发布于 :2024年11月15日 16:01:15

    一杆有AI的路灯:感知环境监测路况还能“对话”无人驾驶AI灯杆屏

    一杆有AI的路灯:感知环境监测路况还能“对话”无人驾驶AI灯杆屏
    的头像 发表于 11-15 09:45 329次阅读
    一杆有<b class='flag-5'>AI</b>的路灯:感知环境监测路况还能“<b class='flag-5'>对话</b>”无人驾驶<b class='flag-5'>AI</b>灯杆屏

    莫拉维克悖论与多模态AI:迈向机器人认知的新时代

    莫拉维克悖论揭示了人工智能系统在处理高级推理与基本感知运动技能上的巨大差异。对于AI而言,复杂的逻辑任务似乎比人类习以为常的感知运动技能更容易实现。这一悖论凸显了当前AI与人类认知能力之间的鸿沟。
    的头像 发表于 10-26 15:00 600次阅读

    AI大模型在图像识别中的优势

    AI大模型在图像识别中展现出了显著的优势,这些优势主要源于其强大的计算能力、深度学习算法以及大规模的数据处理能力。以下是对AI大模型在图像
    的头像 发表于 10-23 15:01 644次阅读

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    人们对AI for Science的关注推向了高潮。 2. 跨学科融合与科学研究新范式 AI与生命科学的结合,不仅推动了生命科学本身的进步,还促进了多个学科之间的交叉融合。这种跨学科的合作模式,打破
    发表于 10-14 09:21

    人工智能ai4s试读申请

    目前人工智能在绘画对话等大模型领域应用广阔,ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题,本书对ai4s基本原理和原则,方法进行描诉,有利于总结经验,拟
    发表于 09-09 15:36

    基于迅为RK3588开发板的AI图像识别方案

    源源不断的动力。 ■ 无与伦比的视觉盛宴最高支持8K编码+8K解码,能够同时处理多路视频流,确保每一帧画面都流畅如丝,细腻入微。 ■ 智驭未来的AI力量RK3588内置了6Tops(即每秒处理6万亿次
    发表于 08-13 11:26

    基于瑞萨RZ/V2H AI微处理器的解决方案:高性能视觉AI系统

    复杂的实时物体识别及推理,同时功耗可与传统的嵌入式MPU相媲美,无需冷却风扇。这里介绍基于RZ/V2H的解决方案:高性能视觉AI系统。
    发表于 07-02 18:36 506次阅读
    基于瑞萨RZ/V2H <b class='flag-5'>AI</b>微处理器的解决方案:高性能<b class='flag-5'>视觉</b><b class='flag-5'>AI</b>系统

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    自定义大模型应用并接入到开发套件实现语音交互,由浅入深地展示如何开发自己的大模型助手。 离线AI能力示例SDK清单 序号AI 能力 1语音
    发表于 06-18 17:33

    梯云物联|AI提高物联网感知能力:让电梯更智能、安全!

    在当今日新月异的科技浪潮中,人工智能(AI)与物联网(IoT)的深度融合正在为各行各业带来革命性的变化。特别是在电梯行业中,AI技术的引入不仅极大地提升了物联网的感知能力,更让电梯变得更加智能和安全。
    的头像 发表于 06-03 11:49 525次阅读
    梯云物联|<b class='flag-5'>AI</b>提高物联网感<b class='flag-5'>知能力</b>:让电梯更智能、安全!

    【AIBOX快速入门】2步玩转AI对话

    随着目前AI的高速发展,大批量AI硬件应运而生,但使用门槛普遍较高。为了解决这类问题,Firefly开源团队推出了基于Web的AI对话应用:FireflyChat,让
    的头像 发表于 05-30 08:02 549次阅读
    【AIBOX快速入门】2步玩转<b class='flag-5'>AI</b><b class='flag-5'>对话</b>

    开发者手机 AI - 目标识别 demo

    功能简介 该应用是在Openharmony 4.0系统开发的一个目标识别AI应用,旨在从上到下打通Openharmony AI子系统,展示Openharmony系统的
    发表于 04-11 16:14

    搭载星火认知大模型的AI鼠标:一键呼出AI助手,办公更高效

    搭载星火认知大模型的AI鼠标:一键呼出AI助手,办公更高效 在这个AI时代,如果你想在激烈竞争的职场中不被淘汰,讯飞AI鼠标AM30就是你的
    的头像 发表于 03-25 11:52 489次阅读
    搭载星火<b class='flag-5'>认知</b>大模型的<b class='flag-5'>AI</b>鼠标:一键呼出<b class='flag-5'>AI</b>助手,办公更高效

    计算机视觉AI如何识别与理解图像

    计算机视觉是人工智能领域的一个重要分支,它致力于让机器能够像人类一样理解和解释图像。随着深度学习和神经网络的发展,人们对于如何让AI识别和理解图像产生了浓厚的兴趣。本文将探讨计算机视觉
    的头像 发表于 01-12 08:27 1427次阅读
    计算机<b class='flag-5'>视觉</b>:<b class='flag-5'>AI</b>如何<b class='flag-5'>识别</b>与理解图像