0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能可以像人一样描述图像?

姚小熊27 来源:人工智能实验室 作者:人工智能实验室 2020-10-16 10:58 次阅读

准确地描述图像,而不仅仅是像一个毫无头绪的机器人,长期以来一直是人工智能的目标。2016年,谷歌表示,其人工智能可以为图像添加几乎与人类一样的字幕,准确率为94%。现在微软说它已经更进一步:研究人员已经建立了一个比人类更精确的人工智能系统,以至于它现在位于nocaps图像捕获基准的排行榜首位。微软声称,它比自2015年以来一直使用的图像字幕模型好两倍。

虽然这本身就是一个值得注意的里程碑,但微软并不只是将这项技术独家。它现在提供新的字幕模型作为Azure认知服务的一部分,这样任何开发者都可以把它带到他们的应用程序中。今天,它也可以在Seeing AI中使用,这是微软为盲人和视障用户开发的应用程序,可以帮助他们了解周围的世界。今年晚些时候,字幕模式还将改进您在PowerPoint中用于Web、Windows和Mac的演示文稿,它还会在桌面平台上的Word和Outlook中弹出。

Azure AI首席副总裁埃里克博伊德说:“[图像字幕]是人工智能中最棘手的问题之一。它不仅代表着理解场景中的物体,还代表了它们是如何交互的,以及如何描述它们。”优化字幕技术可以帮助每一个用户:它让你更容易在搜索引擎中找到你正在寻找的图像。对于视障用户来说,它可以让网络和软件导航变得非常好。

看到公司吹嘘他们的人工智能研究创新并不少见,但这些发现迅速部署到运输产品中的情况要罕见得多。Azure AI认知服务CTO黄学冬,考虑到对用户的潜在好处,力推将其快速整合到Azure中。他的团队用标有特定关键字的图像训练了这个模型,这帮助它提供了一种大多数人工智能框架所没有的视觉语言。通常,这些类型的模型使用图像和完整的字幕进行训练,这使得模型更难了解特定对象是如何交互的。

黄学冬在一篇博客文章中说:“这种视觉词汇的预训练本质上是训练系统所需的教育;我们正在努力教育这种运动记忆。”这就是为什么这个新模型在nocaps基准中占据了一席之地,该基准专注于确定人工智能对他们以前从未见过的图像的字幕能力有多好。

但是,虽然打破基准意义重大,但对微软新模式的真正考验将是它在现实世界中的运作方式。根据Boyd的说法,看到人工智能开发人员Saqib Shaik,他自己也是一个盲人,也在微软推动更好的可访问性,他将其描述为比他们之前提供的产品有了戏剧性的改进。现在微软已经建立了一个新的里程碑,看看谷歌和其他研究人员的竞争模型如何竞争将是一件有趣的事情。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6600

    浏览量

    104143
  • 人工智能
    +关注

    关注

    1792

    文章

    47354

    浏览量

    238837
收藏 人收藏

    相关推荐

    嵌入式和人工智能究竟是什么关系?

    领域,如工业控制、智能家居、医疗设备等。 人工智能是计算机科学的个分支,它研究如何使计算机具备人类一样思考、学习、推理和决策的能力。
    发表于 11-14 16:39

    Vicor技术如何改进生成式人工智能的供电

    生成式人工智能(genAI)带来的文化革命可能互联网普及一样对人类产生深远影响。从您的角度来看,目前情况如何?
    的头像 发表于 10-16 09:54 318次阅读
    Vicor技术如何改进生成式<b class='flag-5'>人工智能</b>的供电

    《AI for Science:人工智能驱动科学创新》第6章AI与能源科学读后感

    幸得好书,特此来分享。感谢平台,感谢作者。受益匪浅。 在阅读《AI for Science:人工智能驱动科学创新》的第6章后,我深刻感受到人工智能在能源科学领域中的巨大潜力和广泛应用。这
    发表于 10-14 09:27

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    很幸运社区给我个阅读此书的机会,感谢平台。 《AI for Science:人工智能驱动科学创新》第4章关于AI与生命科学的部分,为我们揭示了人工智能技术在生命科学领域中的广泛应用和深远影响。在
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第人工智能驱动的科学创新学习心得

    周末收到本新书,非常高兴,也非常感谢平台提供阅读机会。 这是本挺好的书,包装精美,内容详实,干活满满。 《AI for Science:人工智能驱动科学创新》这本书的第章,作为整
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    RISC-V在人工智能图像处理领域的应用前景十分广阔,这主要得益于其开源性、灵活性和低功耗等特点。以下是对RISC-V在人工智能图像处理应用前景的详细分析:
    发表于 09-28 11:00

    请问studio中可以裸机一样调用定时器中断吗?

    studio中可以裸机一样调用定时器中断吗?我调用后显示出错了,使用hal库还需要添加什么吗
    发表于 09-13 08:18

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    ! 《AI for Science:人工智能驱动科学创新》 这本书便将为读者徐徐展开AI for Science的美丽图景,与大家起去了解: 人工智能究竟帮科学家做了什么? 人工智能
    发表于 09-09 13:54

    FPGA在人工智能中的应用有哪些?

    FPGA(现场可编程门阵列)在人工智能领域的应用非常广泛,主要体现在以下几个方面: 、深度学习加速 训练和推理过程加速:FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性
    发表于 07-29 17:05

    人工智能如何改变着各行各样

    人工智能的风起云涌,几乎颠覆了千行百业创新的节奏,今天的人工智能就如同挥舞着“指挥棒”一样,改变着各行各样本来的“模样”。
    的头像 发表于 07-19 10:58 505次阅读
    <b class='flag-5'>人工智能</b>如何改变着各行各样

    图像识别属于人工智能

    属于。图像识别是人工智能(Artificial Intelligence, AI)领域的个重要分支。 图像识别概述 1.1 定义
    的头像 发表于 07-16 10:44 1173次阅读

    Meta高管称大语言模型永远无法人类一样

    Meta的人工智能主管杨立昆近日表示,尽管ChatGPT等生成式人工智能产品备受瞩目,但其背后的大型语言模型(LLM)永远无法实现像人类一样的推理和计划能力。
    的头像 发表于 05-27 09:50 447次阅读

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2)

    ://t.elecfans.com/v/27221.html *附件:初学者完整学习流程实现手写数字识别案例_V2-20240506.pdf 人工智能 语音对话机器案例 26分03秒 https
    发表于 05-10 16:46

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V1)

    *附件:初学者完整学习流程实现手写数字识别案例.pdf 人工智能 语音对话机器案例 26分03秒 https://t.elecfans.com/v/27185.html *附件:语音对话机器
    发表于 04-01 10:40

    嵌入式人工智能的就业方向有哪些?

    嵌入式人工智能的就业方向有哪些? 在新轮科技革命与产业变革的时代背景下,嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下,众多名企也纷纷在嵌入式人工智能
    发表于 02-26 10:17