0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简述文本与图像领域的多模态学习有关问题

自然语言处理爱好者 来源:哈工大SCIR 作者:李晓辰 2021-08-26 16:29 次阅读

来自:哈工大SCIR

本期导读:近年来研究人员在计算机视觉和自然语言处理方向均取得了很大进展,因此融合了二者的多模态深度学习也越来越受到关注。本期主要讨论结合文本和图像的多模态任务,将从多模态预训练模型中的几个分支角度,简述文本与图像领域的多模态学习有关问题。

1. 引言

近年来,计算机视觉和自然语言处理方向均取得了很大进展。而融合二者的多模态深度学习也越来越受到关注,在基于图像和视频的字幕生成、视觉问答(VQA)、视觉对话、基于文本的图像生成等方面研究成果显著,下图1展示了有关多模态深度学习的应用范畴。

在这些任务中,无论是文本还是语音,自然语言都起到了帮助计算机“理解”图像内容的关键作用,这里的“理解”指的是对齐语言中蕴含的语义特征与图像中蕴含的图像特征。本文主要关注于结合文本和图像的多模态任务,将从多模态预训练模型中的几个分支来分析目前图像与文本的多模态信息处理领域的有关问题。

2. 多模态预训练模型

学习输入特征的更好表示是深度学习的核心内容。在传统的NLP单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于Transformer结构的多模态预训练模型,通过海量无标注数据进行预训练,然后使用少量有标注数据进行微调即可。

多模态预训练模型根据信息融合的方式可分为两大类,分别是Cross-Stream类和Single-Stream类。

(1)Cross-Stream类模型是指将不同模态的输入分别处理之后进行交叉融合,例如ViLBERT[1]。2019年Lu Jiasen等人将输入的文本经过文本Embedding层后被输入到Transformer编码器中提取上下文信息。

使用预训练Faster R-CNN生成图片候选区域提取特征并送入图像Embedding层,然后将获取好的文本和图像表示通过Co-attention-transformer模块进行交互融合,得到最后的表征。

(2)Single-Stream类模型将图片、文本等不同模态的输入一视同仁,在同一个模型进行融合,例如VL-BERT[2]。2020年,Su Weijie等人提出了VL-BERT,它采用transformer作为主干,将视觉和语言嵌入特征同时输入模型。

3. 统一多模态模型

在之前的模型中,单模态数据集上训练的模型只能做各自领域的任务,否则它们的表现会大幅下降。要想学习多模态模型必须图文结合才行。这种多模态图文对数据数据量少,获取成本高。2021年,百度的Li Wei等人[3]提出的UNIMO模型,统一了单模态、多模态模型的训练方式,既可以利用海量的单模态数据,又能将多模态信号统一在一个语义空间内促进理解。

UNIMO的核心网络是Transformer,同时为图像和文本输入学习统一的语义表示。图像和文本数据分别通过预训练的Faster R-CNN和Bert进行特征提取和表示,多模态图文对数据被转换为图像表示序列和文本表示序列的拼接。

这三种类型数据共享模型参数,经过多层注意力机制后得到图像文本信息统一的语义表示,UNIMO结构如图4所示。其训练方式类似Bert, 此外论文还提出了一种跨模态对比学习的新预训练方法。

在多模态任务上, UNIMO超过了诸如ViLBERT、VLP、UNITER、Oscar、Villa等最新的多模预训练模型。而且在单模态任务上也取得了不错的效果,如图5(b)所示。

4. 视觉物体锚点模型

前面的几个模型只是将图像区域特征和文本特征连接起来作为输入,并不参考任何对齐线索,利用Transformer的self-attention机制,让模型自动学习整张图像和文本的语义对齐方式。Oscar的作者[4]提出把物体用作图像和文本语义层面上的锚点(Anchor Point),以简化图像和文本之间的语义对齐的学习任务。

使用Faster R-CNN等预训练物体检测器 ,将图像表示为一组图像区域特征,每个图像区域特征分配一个物体标签,同时使用预训练后的BERT得到物体标签的词嵌入表示。

该模型在共享空间中显式地将图像和文本关联在一起,物体则扮演图像、文本语义对齐中锚点的角色。在此例中,由于视觉重叠区域,“狗”和“沙发”在图像区域特征空间中相似,在单词嵌入空间中有所差异。

经过实验测试,该模型的性能在多个任务上已经超过SOTA模型。下表中 SoTAS、 SoTAB、和SoTAL分别表示小规模模型、与Bert-base和Bert-large规模相近的VLP模型。OscarB和OscarL分别是基于Bert-base和Bert-large训练的Oscar模型。

5. 总结

目前多模态研究已经取得了较大进展,但如果以构建能感知多模态信息并利用多模态信息跨越语义鸿沟的智能系统为目标,那么现在的研究仍处于初级阶段,既面临着挑战,也存在着机遇。在未来,多模态表示学习、多模态情感分析以及任务导向的大规模多模态人机交互系统等方向的发展值得我们关注。

Reference

[1] Lu J , Batra D , Parikh D , et al. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks[J]。 2019.

[2] Su W , Zhu X , Y Cao, et al. VL-BERT: Pre-training of Generic Visual-Linguistic Representations[J]。 2019.

[3] Li W , Gao C , Niu G , et al. UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning[J]。 2020.

[4] Li X , Yin X , Li C , et al. Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks[M]。 2020.

原文:李晓辰

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1078

    浏览量

    40364
  • 计算机视觉
    +关注

    关注

    8

    文章

    1694

    浏览量

    45889
  • 深度学习
    +关注

    关注

    73

    文章

    5456

    浏览量

    120855
  • 自然语言处理

    关注

    1

    文章

    593

    浏览量

    13473

原文标题:多模态预训练模型简述

文章出处:【微信号:NLP_lover,微信公众号:自然语言处理爱好者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用OpenVINO部署Qwen2模态模型

    模态大模型的核心思想是将不同媒体数据(如文本图像、音频和视频等)进行融合,通过学习不同模态
    的头像 发表于 10-18 09:39 215次阅读

    Meta发布模态LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一项重要技术突破,成功推出了模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息,还实现了对图像内容的精准理解,标志着Met
    的头像 发表于 09-27 11:44 337次阅读

    卷积神经网络在文本分类领域的应用

    在自然语言处理(NLP)领域文本分类一直是一个重要的研究方向。随着深度学习技术的飞速发展,卷积神经网络(Convolutional Neural Network,简称CNN)在图像
    的头像 发表于 07-01 16:25 548次阅读

    李未可科技正式推出WAKE-AI模态AI大模型

    文本生成、语言理解、图像识别及视频生成等模态交互能力。   该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互,同时
    发表于 04-18 17:01 547次阅读
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大模型

    韩国Kakao宣布开发模态大语言模型“蜜蜂”

    韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的模态大型语言模型。这种创新模型能够同时理解和处理图像文本数据,为更丰富的交互和查询响应提供了可能性。
    的头像 发表于 01-19 16:11 612次阅读

    自动驾驶和模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括
    发表于 12-28 11:45 477次阅读
    自动驾驶和<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型的发展历程

    语音识别技术最新进展:视听融合的模态交互成为主要演进方向

    电子发烧友网报道(文/李弯弯)所谓“模态”,英文是modality,用通俗的话说,就是“感官”,模态即将多种感官融合。模态交互技术是近年
    的头像 发表于 12-28 09:06 3446次阅读
    语音识别技术最新进展:视听融合的<b class='flag-5'>多</b><b class='flag-5'>模态</b>交互成为主要演进方向

    成都汇阳投资关于模态驱动应用前景广阔,上游算力迎机会!

    。Gemini 主打在模态领域的突出能力,在输入端, Gemin 可以适应文本与音视频交叉的输入序列,比如自然图像、图表、截图、pdf 和
    的头像 发表于 12-18 13:08 439次阅读
    成都汇阳投资关于<b class='flag-5'>多</b><b class='flag-5'>模态</b>驱动应用前景广阔,上游算力迎机会!

    人工智能领域模态的概念和应用场景

    随着人工智能技术的不断发展,模态成为了一个备受关注的研究方向。模态技术旨在将不同类型的数据和信息进行融合,以实现更加准确、高效的人工智能应用。本文将详细介绍
    的头像 发表于 12-15 14:28 8631次阅读

    大模型+模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强
    的头像 发表于 12-13 13:55 1571次阅读
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3种实现方法

    千亿参数模态大模型,“紫东太初”规模化应用加速

    文本图像等单模态大模型研究和应用的基础上,向模态大模型攻关,并于2021年7月正式发布了全球首个千亿参数
    的头像 发表于 12-08 00:09 1993次阅读

    任意文本、视觉、音频混合生成,模态有了强大的基础引擎CoDi-2

    研究者表示,CoDi-2 标志着在开发全面的模态基础模型领域取得了重大突破。 今年 5 月,北卡罗来纳大学教堂山分校、微软提出一种可组合扩散(Composable Diffusion,简称
    的头像 发表于 12-03 20:20 655次阅读
    任意<b class='flag-5'>文本</b>、视觉、音频混合生成,<b class='flag-5'>多</b><b class='flag-5'>模态</b>有了强大的基础引擎CoDi-2

    用语言对齐模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

    目前的 VL 预训练方法通常仅适用于视觉和语言模态,而现实世界中的应用场景往往包含更多的模态信息,如深度图、热图像等。如何整合和分析不同模态的信息,并且能够在多个
    的头像 发表于 11-23 15:46 630次阅读
    用语言对齐<b class='flag-5'>多</b><b class='flag-5'>模态</b>信息,北大腾讯等提出LanguageBind,刷新多个榜单

    探究编辑模态大语言模型的可行性

    不同于单模态模型编辑,模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态模型编辑入手,将单模态
    发表于 11-09 14:53 465次阅读
    探究编辑<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型的可行性

    北大&amp;华为提出:模态基础大模型的高效微调

    深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显
    的头像 发表于 11-08 16:20 764次阅读
    北大&amp;华为提出:<b class='flag-5'>多</b><b class='flag-5'>模态</b>基础大模型的高效微调