微软视觉语言模型有显著超越人类的表现-电子发烧友网

视觉语言（Vision-Language，VL）系统允许为文本查询搜索相关图像（或反之），并使用自然语言描述图像的内容。一般来说，一个VL系统使用一个图像编码模块和一个视觉语言融合模块。微软研究部门最近开发了一种新的图像编码对象属性检测模型，称为VinVL（Visual features in Vision-Language），有着显著超越人类的表现。

当VinVL与OSCAR和vivo等VL融合模块结合后，微软新的VL系统能够在竞争最激烈的VL排行榜上取得第一，包括视觉问题回答（VQA）、微软COCO图像字幕和新颖对象字幕（nocaps）。微软研究团队还强调，在nocaps排行榜上，这种新的VL系统在CIDEr（92.5对85.3）方面的表现明显超过了人类的同形式表现。

微软解释道：

VinVL在改善VL理解的图像编码方面表现出了巨大的潜力。我们新开发的图像编码模型可以使广泛的VL任务受益，正如本文中的例子所说明的那样。尽管我们获得了很有希望的结果，比如在图像字幕基准上超越了人类的表现，但我们的模型绝不是达到VL理解的人类水平的智能。未来有趣的工作方向包括（1）利用海量图像分类/标记数据，进一步扩大对象属性检测预训练的规模；（2）将跨模态VL表征学习的方法扩展到构建感知基础的语言模型，可以像人类一样将视觉概念建立在自然语言中，反之亦然。

微软VinVL正在被整合到Azure认知服务中，Azure认知服务为微软的各种服务提供支撑，如Seeing AI、Office和LinkedIn中的图像字幕等。微软研究团队还将向公众发布VinVL模型和源代码。
责编AJX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6590

浏览量
104024
图像

图像

+关注

关注
2

文章
1083

浏览量
40449
模型

模型

+关注

关注
1

文章
3226

浏览量
48807

NaVILA：加州大学与英伟达联合发布新型视觉语言模型

日前，加州大学的研究人员携手英伟达，共同推出了一款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现出了独特的应用潜力，为智能机器人的自主导航提供了一种全新的解决方案。

发表于 12-13 10:51 •242次阅读

大语言模型：原理与工程实践+初识2

的一系列变革。大语言模型是深度学习的应用之一，可以认为，这些模型的目标是模拟人类交流，为了理解和生成人类

发表于 05-13 00:09

大语言模型：原理与工程时间+小白初识大语言模型

解锁我理解的是基于深度学习，需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。对于常说的RNN是处理短序列的数据时表现出色，耳真正厉害的是Transformer，此框架被推出后直接

发表于 05-12 23:57

微软准备推出全新人工智能语言模型

微软近期传出消息，正在秘密研发一款全新的人工智能语言模型，这款模型在规模上预计将具备与谷歌和OpenAI等业界巨头相抗衡的实力。据悉，这款新模型

发表于 05-08 09:30 •420次阅读

【大语言模型：原理与工程实践】大语言模型的应用

类任务上表现出色，甚至在零样本条件下也能取得良好效果。另一类则需要逐步推理才能完成的任务，类似于人类的系统2，如数字推理等。然而，随着参数量的增加，大语言模型在这类任务上并未出现质的飞

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的评测

，还已成为知名企业办公文档工具的重要组成部分，助力用户日常生活、学习和职业发展。值得注意的是，大语言模型在文案创作方面的表现存在显著差异。因此，在评测大

发表于 05-07 17:12

【大语言模型：原理与工程实践】大语言模型的预训练

如此卓越的性能，就是通过其核心能力对海量数据进行预训练，再进行微调或对其什么型更好的根据人类的指令和偏好，发挥这些性能。随着语言模型参数的不断增加，模型完成各个任务的效果也得到了不同程

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

处理各种自然语言任务时都表现出了惊人的能力。这促使一个新的研究方向诞生——基于Transformer 的预训练语言模型。这类模型的核心思想是

发表于 05-05 12:17

【大语言模型：原理与工程实践】揭开大语言模型的面纱

维基百科、网页内容和书籍等，不仅掌握了语言的语法、语义和上下文信息，还能生成结构连贯、语义合理的句子和段落。大语言模型的一个显著特点是其庞大的参数量，已达数亿甚至数十亿级别。这种规模赋

发表于 05-04 23:55

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的 NVIDIA GPU 上运行的大

发表于 04-28 10:36 •547次阅读

全球最强大模型易主，GPT-4被超越

近日，AI领域的领军企业Anthropic宣布推出全新的Claude 3系列模型，其中包括最强版Claude 3 Opus。据该公司称，Claude 3系列在推理、数学、编码、多语言理解和视觉方面全面

发表于 03-05 09:58 •648次阅读

谷歌模型软件有哪些功能

谷歌模型软件通常指的是谷歌推出的一系列人工智能模型和软件工具，其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind团队开发的一款大型语言模型，

发表于 03-01 16:20 •650次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •408次阅读

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

近期的大语言模型（LLM）在自然语言理解和生成上展现出了接近人类的强大能力，远远优于先前的BERT等预训练模型（PLM）。

发表于 01-04 14:06 •455次阅读

2023年科技圈热词“大语言模型”，与自然语言处理有何关系

。 2023年，大语言模型及其在人工智能领域的应用已然成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉

发表于 01-02 09:28 •2920次阅读

搜索历史

微软视觉语言模型有显著超越人类的表现

评论

NaVILA：加州大学与英伟达联合发布新型视觉语言模型

大语言模型：原理与工程实践+初识2

大语言模型：原理与工程时间+小白初识大语言模型

微软准备推出全新人工智能语言模型

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】大语言模型的评测

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】揭开大语言模型的面纱

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

全球最强大模型易主，GPT-4被超越

谷歌模型软件有哪些功能

机器人基于开源的多模态语言视觉大模型

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

2023年科技圈热词“大语言模型”，与自然语言处理有何关系