如何在多模态的语境中利用Transformer强大的表达能力？-电子发烧友网

曾几何时，多模态预训练已经不是一个新的话题，各大顶会诸多论文仿佛搭上Visual和BERT，就能成功paper+=1，VisualBERT、ViLBERT层出不穷，傻傻分不清楚。..。..这些年NLPer在跨界上忙活的不亦乐乎，提取视觉特征后和文本词向量一同输入到万能的Transformer中，加大力度预训练，总有意想不到的SOTA。

如何在多模态的语境中更细致准确地利用Transformer强大的表达能力呢？Facebook最新的 Transformer is All You Need 也许可以给你答案。

这篇貌似标题党的文章开宗明义，针对文本+视觉的多模态任务，用好Transformer就够了，与许多前作不同，这次提出的模型一个模型可以解决多个任务：目标检测、自然语言理解、视觉问答，各个模型板块各司其职、条理清晰：视觉编码器、文本编码器、特征融合解码器，都是建立在多层Transformer之上，最后添加为每个任务设计的处理器，通过多任务训练，一举刷新了多个任务的榜单。

文本编码器用Transformer提取文本特征是个老生常谈的问题，从BERT石破天惊开始，纯文本领域近乎已被Transformer蚕食殆尽，所以该文也不能免俗，直接借用BERT的结构提取文本内容，区别在于，为了解决多个任务，在文本序列前添加了一个针对不同任务的参数向量，在最后输出隐藏状态到解码器时再去掉。

视觉编码器本文将Transformer强大的表达能力运用到视觉特征的提取中，由于图片像素点数量巨大，首先通过基于卷积神经网络的ResNet-50提取卷积特征，极大程度上地降低了特征数量，最终得到的feature map大小为，然后用全联接层调整单个特征的维度到，再利用多层Transformer中的注意力机制提取各个feature之间的关系，由于Transformer的输入是序列，文章将拉成一条长为的序列，另外和文本编码器类似，同样添加了与下游任务相关的。

其中是调整维度的全联接层，是多层Transformer编码器。

模态融合解码器多模态的关键之一就在于怎么同时利用多个模态，在本文中是通过Transformer的解码器实现的，这个解码器首先将任务相关的query做self-attention，再将结果与文本编码器和视觉编码器的结果做cross-attention，针对单一模态的任务，选取对应编码器的输出即可，针对多模态的任务，取两个编码器输出的拼接。

任务处理器（task-specific output head）之前多模态预训练模型往往只针对某一项任务，而本文提出的一个模型可以解决多个文本+视觉任务，与BERT可以解决多个文本任务类似，本文的模型在模态融合解码器的结果上添加为每个任务设计的处理器，这个处理器相对简单，用于从隐藏状态中提取出与特定任务相匹配的特征。

目标检测：添加box_head和class_head两个前馈神经网络从最后一层隐藏状态中提取特征用来确定目标位置和预测目标类型。

自然语言理解、视觉问答：通过基于全联接层的分类模型实现，将模态融合解码器结果的第一位隐藏状态输入到两层全联接层并以GeLU作为激活函数，最后计算交叉熵损失。

实验与总结本文提出的多模态预训练模型各个板块划分明确，通过多层Transformer分别提取特征，再利用解码器机制融合特征并完成下游任务，同时借助最后一层任务相关的处理器，可以通过一个模型解决多个任务，同时也让多任务预训练成为可能，并在实验中的各个数据集上得到了论文主要进行了两部分实验：

多任务学习：

这里的多任务涉及目标检测和视觉问答两个任务，在目标检测上运用COCO和VG两个数据集，在视觉问答上运用VQAv2数据集。对比了单一任务和多任务同时训练的结果，同时对比了不同任务共用解码器的结果。

从结果中我们可以看出，单纯的使用多任务训练并不一定可以提高结果，不同任务间虽然相关但是却不完全相同，这可能是任务本身差异或者数据集的特性所导致，第二行和第五行可以很明显地看出COCO上的目标检测和VQAv2的视觉问答相结合后，结果有显著的下降，然而VG上的目标检测却能够和视觉问答很好地结合，通过三个数据集上的共同训练，可以得到最高的结果。

多模态学习：

这一实验中，为了体现所提出模型能够有效解决多个多种模态的不同任务，论文作者在之前COCO、VG、VQAv2的基础上，增加了单一文本任务GLUE的几个数据集（QNLI、QQP、MNLI、SST-2）和视觉推断数据集SNLI-VE，从数据集的数量上可以看出本文模型的全能性。与本文对比的有纯文本的BERT、基于Transformer的视觉模型DETR、多模态预训练模型VisualBERT。

仔细看各个数据集上的结果，不难看出本文提出的模型其实并不能在所有数据集多上刷出SOTA，比如COCO上逊色于DETR，SNLI-VE逊色于VisualBERT，SST-2逊色于BERT，其他数据集上都有一定的提高，但是模型却胜在一个“全”字，模型的结构十分清晰明了，各个板块的作用十分明确，同时针对不同任务的处理器也对后续多模态任务富有启发性。

原文标题：【Transformer】没有什么多模态任务是一层Transformer解决不了的！

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3638

浏览量
134417
Transforme

Transforme

+关注

关注
0

文章
12

浏览量
8787
多模

多模

+关注

关注
1

文章
28

浏览量
10850

原文标题：【Transformer】没有什么多模态任务是一层Transformer解决不了的！

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •118次阅读

使用ReMEmbR实现机器人推理与行动能力

视觉语言模型（VLM）通过将文本和图像投射到同一个嵌入空间，将基础大语言模型（LLM）强大的语言理解能力与视觉 transformer（ViT）的视觉能力相结合。VLM 可以处理非结构

发表于 11-19 15:37 •225次阅读

使用ReMEmbR实现机器人推理与行动<b class='flag-5'>能力</b>

未来AI大模型的发展趋势

上得到了显著提升。未来，算法和架构的进一步优化将推动AI大模型在性能上实现新的突破。多头自注意力机制、前馈神经网络等关键技术的改进，将增强模型的表达能力和泛化能力。多模态融合：

发表于 10-23 15:06 •589次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多模态

发表于 10-18 09:39 •411次阅读

云知声山海多模态大模型UniGPT-mMed登顶MMMU测评榜首

近日，多模态人工智能模型基准评测集MMMU更新榜单，云知声山海多模态大模型UniGPT-mMed以通用能力、医疗专业

发表于 10-12 14:09 •281次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

习语言的表达方式和生成能力。通过预测文本中缺失的部分或下一个词，模型逐渐掌握语言的规律和特征。常用的模型结构 Transformer架构：大语言模型通常基于

发表于 08-02 11:03

科普讲座 | 让AIGC提高你的专业表达和创作能力

的专题讲座，激发工程师专业文章创作灵感，提高个人的专业表达能力，从而在电力电子领域展现更加卓越的才华！举办时间7月2日1900讲座内容：技术：AIGC时代到来方法：让A

发表于 06-23 08:14 •322次阅读

智源研究院揭晓大模型测评结果，豆包与百川智能大模型表现优异

在多模态理解图文问答任务中，开源和闭源模型表现相当，而国产模型则表现出色。此外，在中文语境下的文生图能力方面，国产

发表于 05-20 09:26 •724次阅读

阿里云通义大模型助力“小爱同学”强化多模态AI生成能力

小米的人工智能助手“小爱同学”近期与阿里云通义大模型达成战略合作，共同提升其多模态AI生成能力，特别是在图片生成与理解方面。这次合作不仅将强化“小爱同学”的功能，还将在小米的多个产品线，包括小米汽车和手机等设备上得到实际应用。

发表于 05-13 09:19 •799次阅读

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo 4月23日，商汤科技董事长兼CEO徐立在2024商汤技术交流日上发布了行业首个云、端、边全栈大模型产品矩阵，能够满足不同规模

发表于 04-24 16:49 •1098次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

李未可科技多模态 AI 大模型正式发布，积极推进 AI 在终端的场景应用 4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多

发表于 04-18 17:01 •586次阅读

基于Transformer的多模态BEV融合方案

由于大量的相机和激光雷达特征以及注意力的二次性质，将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。

发表于 01-23 11:39 •818次阅读

什么是多模态？多模态的难题是什么？

单模态大模型，通常大于100M～1B参数。具有较强的通用性，比如对图片中任意物体进行分割，或者生成任意内容的图片或声音。极大降低了场景的定制成本。

发表于 01-17 10:03 •4580次阅读

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频

发表于 12-28 11:45 •519次阅读

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如

发表于 12-28 11:19 •1251次阅读