0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在多模态的语境中利用Transformer强大的表达能力?

深度学习自然语言处理 来源:夕小瑶的卖萌屋 作者:子龙 2021-03-29 16:47 次阅读

曾几何时,多模态预训练已经不是一个新的话题,各大顶会诸多论文仿佛搭上Visual和BERT,就能成功paper+=1,VisualBERT、ViLBERT层出不穷,傻傻分不清楚。..。..这些年NLPer在跨界上忙活的不亦乐乎,提取视觉特征后和文本词向量一同输入到万能的Transformer中,加大力度预训练,总有意想不到的SOTA。

如何在多模态的语境中更细致准确地利用Transformer强大的表达能力呢?Facebook最新的 Transformer is All You Need 也许可以给你答案。

a12e796a-8e8f-11eb-8b86-12bb97331649.png

这篇貌似标题党的文章开宗明义,针对文本+视觉的多模态任务,用好Transformer就够了,与许多前作不同,这次提出的模型一个模型可以解决多个任务:目标检测、自然语言理解、视觉问答,各个模型板块各司其职、条理清晰:视觉编码器、文本编码器、特征融合解码器,都是建立在多层Transformer之上,最后添加为每个任务设计的处理器,通过多任务训练,一举刷新了多个任务的榜单。

a1a44924-8e8f-11eb-8b86-12bb97331649.png

文本编码器用Transformer提取文本特征是个老生常谈的问题,从BERT石破天惊开始,纯文本领域近乎已被Transformer蚕食殆尽,所以该文也不能免俗,直接借用BERT的结构提取文本内容,区别在于,为了解决多个任务,在文本序列前添加了一个针对不同任务的参数向量,在最后输出隐藏状态到解码器时再去掉。

视觉编码器本文将Transformer强大的表达能力运用到视觉特征的提取中,由于图片像素点数量巨大,首先通过基于卷积神经网络的ResNet-50提取卷积特征,极大程度上地降低了特征数量,最终得到的feature map大小为,然后用全联接层调整单个特征的维度到,再利用多层Transformer中的注意力机制提取各个feature之间的关系,由于Transformer的输入是序列,文章将拉成一条长为的序列,另外和文本编码器类似,同样添加了与下游任务相关的。

其中是调整维度的全联接层,是多层Transformer编码器。

模态融合解码器多模态的关键之一就在于怎么同时利用多个模态,在本文中是通过Transformer的解码器实现的,这个解码器首先将任务相关的query做self-attention,再将结果与文本编码器和视觉编码器的结果做cross-attention,针对单一模态的任务,选取对应编码器的输出即可,针对多模态的任务,取两个编码器输出的拼接。

任务处理器(task-specific output head)之前多模态预训练模型往往只针对某一项任务,而本文提出的一个模型可以解决多个文本+视觉任务,与BERT可以解决多个文本任务类似,本文的模型在模态融合解码器的结果上添加为每个任务设计的处理器,这个处理器相对简单,用于从隐藏状态中提取出与特定任务相匹配的特征。

目标检测:添加box_head和class_head两个前馈神经网络从最后一层隐藏状态中提取特征用来确定目标位置和预测目标类型。

自然语言理解、视觉问答:通过基于全联接层的分类模型实现,将模态融合解码器结果的第一位隐藏状态输入到两层全联接层并以GeLU作为激活函数,最后计算交叉熵损失。

实验与总结本文提出的多模态预训练模型各个板块划分明确,通过多层Transformer分别提取特征,再利用解码器机制融合特征并完成下游任务,同时借助最后一层任务相关的处理器,可以通过一个模型解决多个任务,同时也让多任务预训练成为可能,并在实验中的各个数据集上得到了论文主要进行了两部分实验:

多任务学习:

这里的多任务涉及目标检测和视觉问答两个任务,在目标检测上运用COCO和VG两个数据集,在视觉问答上运用VQAv2数据集。对比了单一任务和多任务同时训练的结果,同时对比了不同任务共用解码器的结果。

a1f97444-8e8f-11eb-8b86-12bb97331649.png

从结果中我们可以看出,单纯的使用多任务训练并不一定可以提高结果,不同任务间虽然相关但是却不完全相同,这可能是任务本身差异或者数据集的特性所导致,第二行和第五行可以很明显地看出COCO上的目标检测和VQAv2的视觉问答相结合后,结果有显著的下降,然而VG上的目标检测却能够和视觉问答很好地结合,通过三个数据集上的共同训练,可以得到最高的结果。

多模态学习:

这一实验中,为了体现所提出模型能够有效解决多个多种模态的不同任务,论文作者在之前COCO、VG、VQAv2的基础上,增加了单一文本任务GLUE的几个数据集(QNLI、QQP、MNLI、SST-2)和视觉推断数据集SNLI-VE,从数据集的数量上可以看出本文模型的全能性。与本文对比的有纯文本的BERT、基于Transformer的视觉模型DETR、多模态预训练模型VisualBERT。

a2736164-8e8f-11eb-8b86-12bb97331649.png

仔细看各个数据集上的结果,不难看出本文提出的模型其实并不能在所有数据集多上刷出SOTA,比如COCO上逊色于DETR,SNLI-VE逊色于VisualBERT,SST-2逊色于BERT,其他数据集上都有一定的提高,但是模型却胜在一个“全”字,模型的结构十分清晰明了,各个板块的作用十分明确,同时针对不同任务的处理器也对后续多模态任务富有启发性。

原文标题:【Transformer】没有什么多模态任务是一层Transformer解决不了的!

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3579

    浏览量

    134036
  • Transforme
    +关注

    关注

    0

    文章

    12

    浏览量

    8778
  • 多模
    +关注

    关注

    1

    文章

    28

    浏览量

    10837

原文标题:【Transformer】没有什么多模态任务是一层Transformer解决不了的!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    未来AI大模型的发展趋势

    上得到了显著提升。未来,算法和架构的进一步优化将推动AI大模型在性能上实现新的突破。 多头自注意力机制、前馈神经网络等关键技术的改进,将增强模型的表达能力和泛化能力模态融合 :
    的头像 发表于 10-23 15:06 405次阅读

    利用OpenVINO部署Qwen2模态模型

    模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,模态
    的头像 发表于 10-18 09:39 270次阅读

    云知声山海模态大模型UniGPT-mMed登顶MMMU测评榜首

    近日,模态人工智能模型基准评测集MMMU更新榜单,云知声山海模态大模型UniGPT-mMed以通用能力、医疗专业
    的头像 发表于 10-12 14:09 242次阅读
    云知声山海<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型UniGPT-mMed登顶MMMU测评榜首

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    习语言的表达方式和生成能力。通过预测文本缺失的部分或下一个词,模型逐渐掌握语言的规律和特征。 常用的模型结构 Transformer架构:大语言模型通常基于
    发表于 08-02 11:03

    阿里云通义大模型助力“小爱同学”强化模态AI生成能力

    小米的人工智能助手“小爱同学”近期与阿里云通义大模型达成战略合作,共同提升其模态AI生成能力,特别是在图片生成与理解方面。这次合作不仅将强化“小爱同学”的功能,还将在小米的多个产品线,包括小米汽车和手机等设备上得到实际应用。
    的头像 发表于 05-13 09:19 724次阅读

    商汤科技发布5.0模态大模型,综合能力全面对标GPT-4 Turbo

    商汤科技发布5.0模态大模型,综合能力全面对标GPT-4 Turbo 4月23日,商汤科技董事长兼CEO徐立在2024商汤技术交流日上发布了行业首个云、端、边全栈大模型产品矩阵,能够满足不同规模
    的头像 发表于 04-24 16:49 1048次阅读

    李未可科技正式推出WAKE-AI模态AI大模型

    李未可科技模态 AI 大模型正式发布,积极推进 AI 在终端的场景应用   4月18日,2024国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI
    发表于 04-18 17:01 559次阅读
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大模型

    基于Transformer模态BEV融合方案

    由于大量的相机和激光雷达特征以及注意力的二次性质,将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。
    发表于 01-23 11:39 711次阅读
    基于<b class='flag-5'>Transformer</b>的<b class='flag-5'>多</b><b class='flag-5'>模态</b>BEV融合方案

    自动驾驶和模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将文本与相应的视频
    发表于 12-28 11:45 487次阅读
    自动驾驶和<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型的发展历程

    从Google模态大模型看后续大模型应该具备哪些能力

    前段时间Google推出Gemini模态大模型,展示了不凡的对话能力模态能力,其表现究竟如
    的头像 发表于 12-28 11:19 1175次阅读
    从Google<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型看后续大模型应该具备哪些<b class='flag-5'>能力</b>

    成都汇阳投资关于模态驱动应用前景广阔,上游算力迎机会!

    【Gemini 大模型主打模态,性能对标 GPT-4】 当地时间12月6日, 谷歌公司宣布推出其规模最大、功能最强的模态大模型 Gemini, 其最
    的头像 发表于 12-18 13:08 449次阅读
    成都汇阳投资关于<b class='flag-5'>多</b><b class='flag-5'>模态</b>驱动应用前景广阔,上游算力迎机会!

    人工智能领域模态的概念和应用场景

    随着人工智能技术的不断发展,模态成为了一个备受关注的研究方向。模态技术旨在将不同类型的数据和信息进行融合,以实现更加准确、高效的人工智能应用。本文将详细介绍
    的头像 发表于 12-15 14:28 8899次阅读

    大模型+模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更
    的头像 发表于 12-13 13:55 1594次阅读
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3种实现方法

    任意文本、视觉、音频混合生成,模态有了强大的基础引擎CoDi-2

    研究者表示,CoDi-2 标志着在开发全面的模态基础模型领域取得了重大突破。 今年 5 月,北卡罗来纳大学教堂山分校、微软提出一种可组合扩散(Composable Diffusion,简称
    的头像 发表于 12-03 20:20 664次阅读
    任意文本、视觉、音频混合生成,<b class='flag-5'>多</b><b class='flag-5'>模态</b>有了<b class='flag-5'>强大</b>的基础引擎CoDi-2

    哈工大提出Myriad:利用视觉专家进行工业异常检测的大型模态模型

    最近,大型模态(即视觉和语言)模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力,使其成为更易于理解的异常检测的有竞争力的潜在选择。然而,现有的通用 LMM
    的头像 发表于 11-21 16:08 1690次阅读
    哈工大提出Myriad:<b class='flag-5'>利用</b>视觉专家进行工业异常检测的大型<b class='flag-5'>多</b><b class='flag-5'>模态</b>模型