微软开发了一种新的AI图像字幕算法-电子发烧友网

微软开发了一种新的图像字幕算法，在某些有限的测试中，其准确率超过了人类。该人工智能系统已被用于更新该公司为视障人士提供的助理应用程序 “Seeing AI”，并将很快被纳入Word、Outlook和PowerPoint等其他微软产品中。在那里，它将被用于为图像创建alt文本等任务，这一功能对于提高无障碍性尤为重要。

这些应用包括微软自己的Seeing AI，该公司于2017年首次发布。Seeing AI利用计算机视觉为视障人士描述通过智能手机摄像头看到的世界。它可以识别家庭物品，阅读和扫描文本，描述场景，甚至识别朋友。它还可以用来描述其他应用中的图像，包括电子邮件客户端、社交媒体应用和WhatsApp等消息应用。

微软没有披露Seeing AI的用户数量，但Azure AI的企业副总裁Eric Boyd告诉The Verge，该软件是 “为盲人或低视力人士提供的领先应用之一”。Seeing AI已经连续三年被盲人和低视力iOS用户社区AppleVis评选为最佳应用或最佳辅助应用。

微软新的图像字幕算法将显著提高Seeing AI的性能，因为它不仅能识别物体，还能更精确地描述它们之间的关系。因此，该算法可以在看一张图片时，不仅能说出图片中包含哪些物品和物体（如 “一个人、一把椅子、一个手风琴”），还能说出它们之间的互动关系（如 “一个人坐在椅子上，正在拉手风琴”）。微软表示，该算法是其之前自2015年开始使用的图像字幕系统的两倍。

该算法在9月份发表的一篇预印论文中进行了描述，在一个被称为 “nocaps ”的图像字幕基准测试上取得了有史以来最高的分数。这是一个业界领先的图像字幕评分板，不过它有自己的限制条件。nocaps基准测试由超过166，000个人类生成的字幕组成，描述了从Open Images Dataset中提取的约15，100张图片。这些图片涵盖了一系列场景，从运动到假日抓拍，再到美食摄影等等。
责任编辑：YYX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6600

浏览量
104115
AI

AI

+关注

关注
87

文章
30981

浏览量
269266

AI图像识别摄像机

？AI图像识别摄像机是一种集成了先进算法和深度学习模型的智能监控设备。这些摄像机不仅能够捕捉视频画面，还能实时分析和处理所拍摄的内容，从而实现对特定对象、场景或行

发表于 11-08 10:38 •263次阅读

<b class='flag-5'>AI</b><b class='flag-5'>图像</b>识别摄像机

爱普生开发了一种烤箱控制的晶体振荡器，其功耗比传统OCXOs1低56%

爱普生开发了一种烤箱控制的晶体振荡器，其功耗比传统OCXOs1低56%-该振荡器小巧且节能，是下一代通信基础设施中参考信号源应用的理想选择-精工爱普生公司（TSE:6724，“爱普生”）开发了

发表于 10-29 11:28 •199次阅读

BitEnergy AI公司开发出一种新AI处理方法

BitEnergy AI公司，一家专注于人工智能（AI）推理技术的企业，其工程师团队创新性地开发了一种名为线性复杂度乘法（L-Mul）的

发表于 10-22 15:15 •403次阅读

平衡创新与伦理：AI时代的隐私保护和算法公平

成了一把双刃剑，其锐利的一面正逐渐指向我们的核心价值。面对这些挑战，制定一套有效的AI治理框架和隐私保护机制变得迫在眉睫。确保AI决策

发表于 07-16 15:07

图像识别算法的提升有哪些

方法。数据增强数据增强是提高图像识别算法性能的一种有效方法。通过对训练数据进行变换和扩展，可以增加数据的多样性，提高模型的泛化能力。常见的数据增强方法包括： 2.1 旋转、缩放、平移和翻转通过对

发表于 07-16 11:12 •662次阅读

图像识别算法的优缺点有哪些

图像识别算法是一种利用计算机视觉技术对图像进行分析和理解的方法，它在许多领域都有广泛的应用，如自动驾驶、医疗诊断、安全监控等。然而，图像识别

发表于 07-16 11:09 •1675次阅读

Whatsapp正在开发一种新的生成人工智能功能

据悉，Whatsapp正在开发一种新的生成人工智能功能，该功能应允许用户制作自己的个性化头像，用于任何想象中的场景。WABetaInfo在新的Android版WhatsApp测试版2.24.14.7

发表于 07-14 17:50 •1007次阅读

rup是一种什么模型

RUP（Rational Unified Process，统一建模语言）是一种软件开发过程模型，它是一种迭代和增量的软件开发方法。RUP是由

发表于 07-09 10:13 •1293次阅读

日本九州大学开发了名为QDyeFinder的人工智能(AI)工具

在探索大脑这一宇宙中最复杂结构的征途中，科学家们不断突破技术的边界，以更精细、更高效的方式揭示其奥秘。近期，日本九州大学的研究团队在《自然·通讯》杂志上发表了一项革命性的研究成果，他们开发了一

发表于 07-03 14:43 •496次阅读

基于一种AI辅助可穿戴微流控比色传感器系统

存在的挑战限制了这项技术的实际应用。据麦姆斯咨询报道，为了克服这些挑战，来自中国石油大学（华东）的研究人员开发了一种人工智能（AI）辅助的可穿戴微流控比色传感器系统（AI-WMCS）

发表于 06-29 10:57 •1.1w次阅读

微软网页版PPT新增语音识别及字幕生成功能

据报道，微软计划于今年六月份推出网页版PowerPoint全新语音识别功能。此项功能将能够监控PowerPoint视频中的声音，进而自动生成字幕。

发表于 05-16 14:36 •430次阅读

微软在天气预报领域突破，新AI模型精准预测未来30天

微软在天气预报领域取得显著成果。其Start团队成功研发了一种全新AI模型，能够更精准地预测未来30天的天气状况。

发表于 05-10 11:23 •823次阅读

微软开发新AI语言模型MAI-1，挑战行业巨头

据最新消息，微软正积极开发一款新型AI语言模型MAI-1，以提升在快速发展的AI市场中的竞争力。

发表于 05-08 10:27 •454次阅读

博世与微软合作开发生成式AI产品

全球知名科技公司博世与微软联合宣布，双方已建立合作关系，共同致力于开发先进的生成式AI产品。这一合作的核心目标在于通过利用生成式AI技术来进

发表于 03-05 11:17 •912次阅读

利用AI实现自动图像标注不是梦

一次次的将图像添加标签进行分类，如此机械式的操作是否令你心烦？为不多不少的图像分类标注工作不得不增加一个岗位？你是否因图像标注需求和数据安全

发表于 01-04 08:29 •1325次阅读

搜索历史

微软开发了一种新的AI图像字幕算法

评论

AI图像识别摄像机

爱普生开发了一种烤箱控制的晶体振荡器，其功耗比传统OCXOs1低56%

BitEnergy AI公司开发出一种新AI处理方法

平衡创新与伦理：AI时代的隐私保护和算法公平

图像识别算法的提升有哪些

图像识别算法的优缺点有哪些

Whatsapp正在开发一种新的生成人工智能功能

rup是一种什么模型

日本九州大学开发了名为QDyeFinder的人工智能(AI)工具

基于一种AI辅助可穿戴微流控比色传感器系统

微软网页版PPT新增语音识别及字幕生成功能

微软在天气预报领域突破，新AI模型精准预测未来30天

微软开发新AI语言模型MAI-1，挑战行业巨头

博世与微软合作开发生成式AI产品

利用AI实现自动图像标注不是梦