图像捕获是AI中最难的问题之一-电子发烧友网

长期以来，AI的目标就是准确地描述图像，而不仅仅是像笨拙的机器人。谷歌在2016年表示，其人工智能可以为人类提供几乎与人类一样的字幕图像，准确度达到94%。现在，微软表示，它走得更远：它的研究人员建立了一个AI系统，甚至比人类更准确-以至于现在坐上了榜首的nocaps图像字幕标杆。微软声称其自2015年以来一直使用的图像字幕模型要好两倍。

尽管这本身就是一个显着的里程碑，但微软不仅仅是将这项技术保留在自己手中。现在，它作为Azure认知服务的一部分提供了新的字幕模型，因此任何开发人员都可以将其引入他们的应用程序中。今天，它也可以在Seeing AI中使用，Seeing AI是面向盲人和视障用户的Microsoft应用程序，可以描述周围的世界。今年下半年，字幕模型还将改善您在PowerPoint中针对Web，Windows和Mac的演示文稿。它还会在桌面平台的Word和Outlook中弹出。

Azure AI的CVP Eric Boyd在接受Engadget采访时说：“图像捕获是AI中最难的问题之一。它不仅代表理解场景中的对象，还包括它们之间的交互方式，以及如何描述它们。”精细的字幕技术可以为每个用户提供帮助：它使在搜索引擎中查找所需图像变得更加容易;对于视障用户，它可以使浏览网络和软件变得更加出色。

看到公司吹捧他们的AI研究创新并不少见，但是将这些发现迅速部署到运输产品中却很少见。Azure AI认知服务的CTO Huang Xuedong出于对用户的潜在好处，推动将其迅速集成到Azure中。他的团队使用标记有特定关键字的图像对模型进行了训练，这有助于使它成为大多数AI框架所没有的视觉语言。通常，这些类型的模型是使用图像和完整标题训练的，这使得模型更难于学习特定对象的交互方式。

“视觉词汇预训练本质上是训练系统所需的教育;我们正在尝试教育这种运动记忆，”黄在博客文章中说。这就是这种新模型在nocaps基准测试中的优势，该基准测试侧重于确定AI可以如何为字幕创建字幕，这些字幕从未见过。

但是，尽管要打破基准很重要，但微软新模型的真正考验将是它在现实世界中的功能。据博伊德说，Seeing AI开发人员Saqib Shaik也在自己的盲人手中推动了Microsoft的更大可访问性，他说这是对他们先前产品的巨大改进。既然微软已经设定了一个新的里程碑，那么有趣的是，看看来自Google和其他研究人员的竞争模型也将如何竞争。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6591

浏览量
104032
机器人

机器人

+关注

关注
211

文章
28390

浏览量
206959
AI

AI

+关注

关注
87

文章
30763

浏览量
268917

高通AI Hub：轻松实现Android图像分类

高通AI Hub为开发者提供了一个强大的平台，以优化、验证和部署在Android设备上的机器学习模型。这篇文章将介绍如何使用高通AI Hub进行图像分类的程式码开发，并提供

发表于 11-26 01:03 •211次阅读

高通<b class='flag-5'>AI</b> Hub：轻松实现Android<b class='flag-5'>图像</b>分类

AI图像识别摄像机

随着科技的迅猛发展，人工智能（AI）在各个领域的应用越来越广泛，其中图像识别技术尤为引人注目。AI图像识别摄像机作为这一技术的重要应用

发表于 11-08 10:38 •233次阅读

<b class='flag-5'>AI</b><b class='flag-5'>图像</b>识别摄像机

AI大模型的训练数据来源分析

AI大模型的训练数据来源广泛且多元化，这些数据源对于构建和优化AI模型至关重要。以下是对AI大模型训练数据来源的分析：一、公开数据集公开数据集是

发表于 10-23 15:32 •561次阅读

AI大模型在图像识别中的优势

AI大模型在图像识别中展现出了显著的优势，这些优势主要源于其强大的计算能力、深度学习算法以及大规模的数据处理能力。以下是对AI大模型在图像识别中优势的介绍：

发表于 10-23 15:01 •624次阅读

图像采集卡：增强视觉数据采集

。什么是图像采集卡？图像采集卡，是一种专门用于捕获和处理来自不同来源的视频信号或图像的硬件组件。它们充当成像设备（例如相机或视频源）与计算机

发表于 09-24 11:06 •302次阅读

Freepik携手Magnific AI推出AI图像生成器

近日，设计资源巨头Freepik携手Magnific AI，共同推出了革命性的AI图像生成器——Freepik Mystic，这一里程碑式的发布标志着

发表于 08-30 16:23 •1129次阅读

是德DSOX4032A示波器波形捕获率

在电子工程领域，示波器是不可或缺的工具之一。而其中，是德DSOX4032A示波器以其卓越的性能和精准的测量能力备受青睐。今天，我们就来深入了解一下是德DSOX4032A示波器的波形捕获率。一

发表于 08-30 15:38 •267次阅读

OpenAI发布图像检测分类器，可区分AI生成图像与实拍照片

据OpenAI介绍，初步测试结果表明，该分类器在辨别非AI生成图像与DALL·E 3生成图像时，成功率高达近98%，仅有不到0.5%的非AI图像

发表于 05-09 09:57 •455次阅读

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

UL去年发布的首个Windows版Procyon AI推理基准测试，以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精确且易于理解的工作负载，用以保证各支持硬件间

发表于 03-25 16:16 •877次阅读

AI女友比AI男友更受欢迎？前者是后者的700%+

生成式 AI 催生了各种新的应用类别，但其中最大的影响之一是重新激活了 AI 约会和陪伴……

发表于 03-18 09:07 •416次阅读

求一种油冷扁线电机开发多物理域设计高效解决方案

散热冷却是电机设计过程中最难处理的问题之一。只有提升电机的散热效果，才能实现更高的功率密度和转矩密度。

发表于 03-13 10:36 •550次阅读

cycx3_uvc_ov5640如何添加Method 1支持的静态图像捕获功能？

根据例程 cycx3_uvc_ov5640可以实现 Method 2拍照功能，我们的设备需要按键拍照功能，请问如何添加 Method 1 支持的静态图像捕获功能，如何实现此功能？

发表于 03-06 06:10

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大，而Stable Diffusion是许多其他文本到图像生成

发表于 02-19 16:03 •934次阅读

计算机视觉：AI如何识别与理解图像

计算机视觉是人工智能领域的一个重要分支，它致力于让机器能够像人类一样理解和解释图像。随着深度学习和神经网络的发展，人们对于如何让AI识别和理解图像

发表于 01-12 08:27 •1418次阅读

一个通道如何捕获PWM的频率和占空比？

一，前言正常情况是双通道捕获PWM波，这种方法简单且准确，但是它占用的资源太多了，因为它使用定时器的两个通道，且这两个通道映射在一个通道上，同时配置一路

发表于 12-30 08:00 •3129次阅读