0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于图文多模态领域典型任务

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-09-01 17:14 次阅读

图文多模态领域典型任务如img-text retrieval、VQA、captioning、grounding等,目前的学术设定难度尚可。但是, 一旦知识范围扩展,到了open-ended scenario,任务难度立刻剧增 。但是DeepMind的Flamingo模型在这些挑战场景中使用同一个模型便做到了。当时看到论文中的这些例子,十分惊讶!

d0502f50-2915-11ed-ba43-dac502259ad0.png

可以看到,Flamingo模型不仅可以做到open-ended captioning、VQA等,甚至可以计数、算数。其中很多额外的知识,比如火烈鸟的发源地等知识,对于单模态的语言模型如GPT-3、T5、Chinchilla等可以说是难度不大。

但是对于传统的多模态模型而言,很难通过传统的img-text pair学到如此广阔的外部知识,因为很多知识是蕴含在基于文本的单模态中的(如维基百科) 。所以,DeepMind在多模态领域的发力点就在 站人语言模型的巨人肩膀上,冻住超大规模训练的语言模型,将多模态模型设计向NLP大模型靠拢。

Frozen

要介绍Flamingo模型,不得不先介绍DeepMind在NeurIPS 2021发表的前作Frozen。Frozen模型十分简单,作者使用一个预训练好的语言模型,并且完全冻结参数,只训练visual encoder。

模型结构:其中LM模型是在C4数据上训练的包含7B参数的transformer结构,visual encoder是NF-ResNet50。训练数据:训练时只采用了CC3M数据集,包含300万img-text pair,预训练数据量不大。Frozen框架如下。其中视觉特征可以看作是LM模型的prompt,冻结的语言模型就在视觉特征的“提示”下,做出应答。

d0915886-2915-11ed-ba43-dac502259ad0.png

Frozen模型结构

可以看到,通过一些img-text pair的约束,unfrozen的visual encoder是朝着frozen LM靠拢和对齐的。该算法在预训练时只使用了captioning语料CC3M,并且知识的丰富度也有限。那么,Frozen模型能做什么呢?

d0b8bcaa-2915-11ed-ba43-dac502259ad0.png

Frozen模型在下游场景的应用

虽然由caption数据(CC3M)训练,它竟然可以做VQA甚至基于知识的VQA,比如上图,你告诉它飞机是莱特兄弟发明的,它就能类比出苹果手机是乔布斯创造的。很显然, 这种外部知识肯定不是CC3M中有限的img-text pair能够给予的,无非是来源于从始至终未参与训练、冻结的LM模型 。接下来作者做了一系列实验,可以看到,其实Frozen距离SOTA模型仍十分遥远。

d0eb882e-2915-11ed-ba43-dac502259ad0.png

Frozen实验结果

可以看到,Frozen模型距离VQA和OKVQA数据集上的SOTA算法仍有十分巨大的gap。

几个有意思的现象:

如果模型看不到图片(blind模型),只依赖于LM模型,效果尚可,但是明显低于看得见图片的模型。 说明Frozen确实对img-text模态进行了对齐,学习到了如何参考图片信息再做出应答

few-shot甚至zero-shot就可以达到还不错的性能;

end-to-end finetune LM模型效果会下降,说明由大量单模态训练出的LM模型参数很容易被少量的img-text数据破坏掉。证明了本文观点,LM模型需要Frozen才能保留文本信息学到的知识!

Flamingo

介绍完了Frozen,那么DeepMind团队再接再厉,创造效果惊艳的Flamingo模型就顺理成章了。相比于Frozen,Flamingo模型的几点改进:

更强的LM模型: 70B参数的语言模型Chinchilla;

更多的可训练参数: visual encoder这次也冻结了,但是图片特征采样模型可以训练,更重要的是LM模型的各层中也嵌入了可学习的参数,可训练参数总量高达10B;

更恐怖的训练数据:不仅加入了ALIGN算法的18亿img-text pair,数百万的video-text pair。此外,还有大量的不匹配的图文信息,来源于MultiModal MassiveWeb (M3W) dataset,其中图片数量上亿,文本大概有182 GB。可以使用unpaired img-text数据进行训练也是Flamingo模型的一大亮点。总而言之,它的数据量十分恐怖,已经远远超过目前业界的多模态算法比如CLIP、ALIGN、SimVLM、BLIP等。

下面看看Flamingo的模型结构:

d119f61e-2915-11ed-ba43-dac502259ad0.png

Flamingo模型结构

可以看到, 不同于Frozen,这一次visual encoder也是冻结的。参数可以学习的就两部分,一个是Perceiver Resampler,一个是嵌入在LM模型中的Gated Block。Perceiver Resampler结构如下:

d14359aa-2915-11ed-ba43-dac502259ad0.png

Perceiver Resampler结构

Perceiver Resampler结构一目了然,一些可学习的embedding作为query,然后图片特征或者时续的视频特征attend到query上,作为最后的输出。

d17ae7bc-2915-11ed-ba43-dac502259ad0.png

gated xattn-dense结构

嵌入在LM模型中的gated xattn-dense的结构同样一目了然,使用文本信息作为query去aggregate视觉信息。其中text embedding作为query,visual embedding作为key和value。类比于transformer结构,唯一小的差别就是cross-attention和FFN之后额外加了一个gate。

介绍完了Flamingo的模型结构,简单看看它的爆表性能吧,可以说,下游场景中只用few-shot的情况下做到这种程度,让人惊讶...... 在一些答案集合固定的任务中,比如传统的VQAv2中优势不明显, 但是open-ended的knowledge-based VQA任务中,比如OKVQA,只用few-shot就可以刷新当前SOTA 在盲人场景的VizWiz以及OCR信息特别多的TextVQA等任务中,效果同样可圈可点。一些基于视频的QA比如NextQA和iVQA效果同样刷新当前最好性能......

d19fff34-2915-11ed-ba43-dac502259ad0.png

如果Flamingo不使用few-shot模式,而进行fine-tune模式,论文中显示,同样可以刷新不少业界SOTA指标,这里就不列举了。最后再列出几个让人惊叹的示例结束本文,准备再去好好研究一番论文细节。

多模态描述,多模态问答,多模态对话,多模态推荐……以前很多人觉得很遥远,但是近年来进展飞速,距离实际场景的gap也在逐步缩小,未来可期~

d1e3fb1c-2915-11ed-ba43-dac502259ad0.png

d215a90a-2915-11ed-ba43-dac502259ad0.png

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    547

    浏览量

    10395
  • 数据集
    +关注

    关注

    4

    文章

    1212

    浏览量

    24952
  • nlp
    nlp
    +关注

    关注

    1

    文章

    489

    浏览量

    22184

原文标题:站在NLP巨人模型的肩膀才是多模态的未来?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    lABCIWQmultyWindows模态窗口2010

    lABCIWQmultyWindows模态窗口2010。
    发表于 05-17 17:47 0次下载

    文化场景下的模态情感识别

    自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.本文探讨了在文化场景下的模态情感识别问题.我们从语音声学和面部表情等模态分别提取了不同的情感特征。包括传统的手工定制
    发表于 12-18 14:47 0次下载

    如何让Transformer在多种模态下处理不同领域的广泛应用?

    一个模型完成了CV,NLP方向的7个任务,每个任务上表现都非常好。   Transformer架构在自然语言处理和其他领域的机器学习(ML)任务中表现出了巨大的成功,但大多仅限于单个
    的头像 发表于 03-08 10:30 2890次阅读
    如何让Transformer在多种<b class='flag-5'>模态</b>下处理不同<b class='flag-5'>领域</b>的广泛应用?

    模态MR和特征融合的GBM自动分割算法

    模态MR和特征融合的GBM自动分割算法
    发表于 06-27 11:45 32次下载

    简述文本与图像领域模态学习有关问题

    来自:哈工大SCIR 本期导读:近年来研究人员在计算机视觉和自然语言处理方向均取得了很大进展,因此融合了二者的模态深度学习也越来越受到关注。本期主要讨论结合文本和图像的模态
    的头像 发表于 08-26 16:29 6981次阅读

    如何使用模态信息做prompt

    Multimodal Conditionality for Natural Language Generation 研究的任务场景则是以模态信息作为条件做 conditional 的 NLG
    的头像 发表于 11-03 09:39 1959次阅读
    如何使用<b class='flag-5'>多</b><b class='flag-5'>模态</b>信息做prompt

    DocumentAI的模型、任务和基准数据集

    随着最近几年模态大火的,越来越多的任务都被推陈出新为模态版本。譬如,传统对话任务,推出了考虑
    的头像 发表于 08-22 09:55 1931次阅读

    一个真实闲聊模态数据集TikTalk

    随着大量预训练语言模型在文本对话任务中的出色表现,以及模态的发展,在对话中引入模态信息已经引起了大量学者的关注。
    的头像 发表于 02-09 09:31 2074次阅读

    中文模态对话数据集

    随着大量预训练语言模型在文本对话任务中的出色表现,以及模态的发展,在对话中引入模态信息已经引起了大量学者的关注。目前已经提出了各种各样的
    的头像 发表于 02-22 11:03 1495次阅读
    中文<b class='flag-5'>多</b><b class='flag-5'>模态</b>对话数据集

    如何利用LLM做模态任务

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放模态输入接口并且不会透露任何模型上技术细节。因此,现阶段,如何利用LLM做一些
    的头像 发表于 05-11 17:09 993次阅读
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>任务</b>?

    更强更通用:智源「悟道3.0」Emu模态大模型开源,在模态序列中「补全一切」

    当前学界和工业界都对模态大模型研究热情高涨。去年,谷歌的 Deepmind 发布了模态视觉语言模型 Flamingo ,它使用单一视觉语言模型处理多项
    的头像 发表于 07-16 20:45 789次阅读
    更强更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型开源,在<b class='flag-5'>多</b><b class='flag-5'>模态</b>序列中「补全一切」

    基于视觉的模态触觉感知系统

    传统的模态/多任务触觉感知系统通过集成多种传感单元来达到模态触觉信息的解耦,但其往往导致系统结构的复杂性,以及需要应对来自不同刺激间的干
    发表于 10-18 11:24 1118次阅读
    基于视觉的<b class='flag-5'>多</b><b class='flag-5'>模态</b>触觉感知系统

    人工智能领域模态的概念和应用场景

    随着人工智能技术的不断发展,模态成为了一个备受关注的研究方向。模态技术旨在将不同类型的数据和信息进行融合,以实现更加准确、高效的人工智能应用。本文将详细介绍
    的头像 发表于 12-15 14:28 1.1w次阅读

    海康威视发布模态大模型文搜存储系列产品

    模态大模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态大模型与嵌入式智能硬件深度融合,发布
    的头像 发表于 02-18 10:33 207次阅读