0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法

深度学习自然语言处理 来源:复旦DISC 作者:王雨晴 2021-10-13 10:48 次阅读

来自:复旦DISC

引言

本次分享我们将介绍三篇来自ACL2021的跨视觉语言模态的论文。这三篇文章分别介绍了如何在图像描述任务中生成契合用户意图的图像描述、端对端的视觉语言预训练模型和如何生成包含更多细节的图像描述。

文章概览

Control Image Captioning Spatially and Temporally

论文地址:https://aclanthology.org/2021.acl-long.157.pdf

该篇文章基于对比学习和注意力机制引导提出了LoopCAG模型。LoopCAG可以根据输入的鼠标轨迹,生成与鼠标轨迹相匹配的图像描述,从而增强了图片描述生成的可控性和可解释性。

E2E-VLP: End-to-End Vision-Language Pretraining Enhanced by Visual Learning

论文地址:https://arxiv.org/pdf/2106.01804.pdf

这篇文章提出了一个端到端的视觉语言预训练模型。模型不需要利用预训练的目标检测器抽取基于区域的视觉特征,直接以图片作为输入。并且设计了两个额外的视觉预训练任务帮助模型学习细粒度的信息,达到了和两阶段模型相似的效果,并且提高了运算效率。

Enhancing Descriptive Image Captioning with Natural Language Inference

论文地址:https://aclanthology.org/2021.acl-short.36.pdf

这篇文章通过推理图和PageRank对图像描述进行描述性打分。再通过参考抽样和加权指定奖励来生成具有更多细节的图像描述。模型生成了比一般方法具有更多细节的图像描述,这些图像描述可以包含基线方法生成的图像描述。

论文细节

1

动机

图像描述任务主要针对图片上比较突出的物体和物体关系展开描述,这样的图片描述没有考虑到用户意图。为了生成具备可控性和可解释性的图像描述,最近的工作提出了生成可控性的图像描述任务。为了生成符合用户意图的图像描述,通常会对描述加以情感、边界框和鼠标轨迹限制。与此同时,近期提出的 Localized-Narratives 数据集将鼠标轨迹作为图像描述任务的另一个输入,为图像描述生成任务中所涉及的语义概念进行空间和时序关系上的控制提供了可能。

模型

LoopCAG 可以总结为三部分:用于生成图片描述且以 Transformer 为主干网络的编码器-解码器;用于视觉对象空间定位的注意力引导(Attention Guidance)组件;用于句子级时序对齐的对比性约束(Contrastive Constraints)组件。

a20e2908-15e3-11ec-8fb8-12bb97331649.png

(1)Caption Generation

作者将视觉特征V和轨迹特征T分别编码,并叠加位置信息后得 和 ,然后串联在一起作为一个统一的序列输入编码器。解码器通过交叉注意力模块与编码器最后一层的隐藏状态相连,将视觉和轨迹信息结合起来作为生成的前置条件。解码器的优化目标是将以下目标函数最小化:

a22c1850-15e3-11ec-8fb8-12bb97331649.png

(2)Attention Guidance

为了定位物体,作者用轨迹作为中间桥梁联系物体和语义token。作者构建了一个监督矩阵来引导词语和视觉对象之间的注意力,即需要物体轨迹点尽可能多的落入对象边界框中。当注意力监督矩阵和模型的交叉注意力矩阵尽可能接近时,词语则可以准确的对应到图片的空间视觉物体上。

(3)Contrastive Constraints

作者使用对比损失函数来约束生成过程的时间顺序,对比损失的形式是 NCE 函数,用来学习区分轨迹-描述对之中的正例和负例。正例是指在顺序上自然对应的描述句和轨迹段,而其余的轨迹-描述对组合均为负例。

最后作者通过将所有损失的总和最小化来联合优化模型。

实验

作者在Localized-Narratives COCO 这个数据集上进行了训练和测试。在测试集上的结果如图所示,LoopCAG 方法在所有的自动评测指标上都达到了先进水平。从表中可以看出,ROUGE-L 的得分提升了2.0。由于 ROUGE-L 主要采用了对顺序敏感的最长共同子序列计分方式,这表明对比约束可以促进生成句子的顺序和用户意图的对应。

2

动机

基于海量图文对的多模态预训练在下游的跨模态任务中已经取得巨大的成功。现有的多模态预训练的方法主要基于两阶段训练,首先利用预训练的目标检测器抽取基于区域的视觉特征,然后拼接视觉表示和文本向量作为Transformer的输入进行训练。这样的模型存在两点问题,一个是第一阶段通常在特定数据集进行训练模型泛化能力不好,此外提取区域的视觉特征比较耗费时间。基于此作者提出了端到端的像素级别的视觉语言预训练模型。模型通过一个统一的Transformer框架同时学习图像特征和多模态表示

模型

本文的模型如图所示。E2E-VLP用一个CNN 模型提取图片视觉特征的同时用一个Transformer进行多模态特征学习。

a270188e-15e3-11ec-8fb8-12bb97331649.png

(1) Input Representations

模型首先用WordPiece tokenizer 分词进行序列化。图片则直接以三通道的像素矩阵输入。

(2) Cross-modal Encoder Pre-training:Transformer

模型用Resnet提取图片的特征向量。用Transformer模块接受图像-句子的序列输入,进行跨模态语义学习。

为了提取跨模态语义信息,模型设计了两个预训练任务。一个是与Bert类似的Masked Language Modeling,只是在该任务中除去上下文信息还可以利用图片信息避免语义混淆,第二个任务是进行图片文本匹配。

(3) Visual-enhanced Decoder

为了提取更细粒度的视觉特征,接入了物体检测和描述生成两个任务。在物体检测中,为了增强视觉语义特征的学习,除去常规的位置和物体种类预测,我们引入了属性预测这一任务。描述生成图片对应的描述。

实验

根据实验结果,E2E-VLP 和两阶段模型相比,也取得了比较好效果,可以理解和完成两种任务。同时在参数量上,E2E-VLP 则具有更加轻量的优势。

3

动机

现阶段的图像描述模型通常倾向于生成比较安全的较为笼统的描述,而忽略图像细节。为了生成包含更多细节的图像描述,作者基于更具有细节的图像描述通常包含笼统描述的全部信息这一观点提出了基于自然语言推断的描述关系模型。

方法

这篇文章的具体方法如下:

(1)Constructing Inference Graphs

首先用基于Bert的自然语言推断模型判断图像描述之间的关系,由于图像描述之间不存在冲突因此挪去了冲突关系。并对一张图的描述构建如图所示的推断关系图,并利用Pagerank的方法对推断图计算描述性评分。

(2)Descriptiveness Regularized Learning

由于传统图像描述的第一阶段生成描述和图像描述最小化交叉熵损失函数等同于生成描述和均匀分布的图像描述之间的KL Divergence,为了生成更具有描述性的图像描述。则采用归一化的描述性评分分布取代均匀分布,认为更具有描述性的图像描述具有更高的生成概率。

a2d4abbe-15e3-11ec-8fb8-12bb97331649.png

在第二阶段,最大化生成图像描述的期望收益时,也同时用描述性评分取代均匀分布来计算期望收益。

a2e2129a-15e3-11ec-8fb8-12bb97331649.png

实验

根据实验结果,模型在多数指标特别是CIDER评分上超过了Baseline,这是因为CIDER倾向于具有更加特殊的细节描述。

此外根据自然语言推断模型判断文章模型生成的图像描述对baseline的图像描述形成更多的包含关系。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1143

    浏览量

    40718
  • 编码器
    +关注

    关注

    45

    文章

    3639

    浏览量

    134429
  • 图像
    +关注

    关注

    2

    文章

    1083

    浏览量

    40449
  • 函数
    +关注

    关注

    3

    文章

    4327

    浏览量

    62573
  • cnn
    cnn
    +关注

    关注

    3

    文章

    352

    浏览量

    22204

原文标题:ACL2021 | 跨视觉语言模态任务与方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    (VLM)是一种具备多模态生成能力的先进AI模型。它能够智能地处理文本、图像以及视频等多种提示,并通过复杂的推理过程,实现对这些信息的准确理解和应用。NaVILA正是基于这一原理,通过将大型语言模型(LLM)与视觉编码器进行巧妙
    的头像 发表于 12-13 10:51 243次阅读

    一文理解多模态语言模型——下

    /understanding-multimodal-llms   《一文理解多模态语言模型 - 上》介绍了什么是多模态语言模型,以及构建多模态
    的头像 发表于 12-03 15:18 114次阅读
    一文理解多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b>模型——下

    一文理解多模态语言模型——上

    /understanding-multimodal-llms 在过去几个月中, OpenVINO™ 架构师 Yury阅读了众多有关多模态语言模型的论文和博客,在此基础上,推荐了一篇解读多模态
    的头像 发表于 12-02 18:29 306次阅读
    一文理解多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b>模型——上

    思必驰发布AI办公本Turbo,搭载专业级模态会议大模型

    近日,思必驰正式发布了其最新的AI办公本Turbo,该设备搭载了专业级的模态会议大模型。这一创新技术的引入,标志着思必驰在智能办公领域迈出了重要的一步。
    的头像 发表于 10-31 17:03 475次阅读

    SegVG视觉定位方法的各个组件

    视觉定位(Visual Grounding)旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系 统的普及,如视觉问答和图像描述,
    的头像 发表于 10-28 13:59 412次阅读
    SegVG<b class='flag-5'>视觉</b>定位<b class='flag-5'>方法</b>的各个组件

    利用OpenVINO部署Qwen2多模态模型

    模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,多模态大模型可以可以理解多种不同模态的输入
    的头像 发表于 10-18 09:39 413次阅读

    通义千问发布第二代视觉语言模型Qwen2-VL

    。Qwen2-VL系列模型在多模态处理领域取得了突破性进展,于多个权威测评中崭露头角,刷新了多项最佳成绩记录,展现出强大的视觉理解与语言交互能力。
    的头像 发表于 09-03 16:31 564次阅读

    鸿蒙ArkTS声明式开发:平台支持列表【半模态转场】模态转场设置

    通过bindSheet属性为组件绑定半模态页面,在组件插入时可通过设置自定义或默认的内置高度确定半模态大小。
    的头像 发表于 06-12 21:09 1035次阅读
    鸿蒙ArkTS声明式开发:<b class='flag-5'>跨</b>平台支持列表【半<b class='flag-5'>模态</b>转场】<b class='flag-5'>模态</b>转场设置

    鸿蒙ArkTS声明式开发:平台支持列表【全屏模态转场】模态转场设置

    通过bindContentCover属性为组件绑定全屏模态页面,在组件插入和删除时可通过设置转场参数ModalTransition显示过渡动效。
    的头像 发表于 06-12 15:47 2707次阅读
    鸿蒙ArkTS声明式开发:<b class='flag-5'>跨</b>平台支持列表【全屏<b class='flag-5'>模态</b>转场】<b class='flag-5'>模态</b>转场设置

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》

    的未来发展方向进行了展望,包括领域、模态和自动提示生成能力方向,为读者提供了对未来技术发展的深刻见解。《大语言模型原理与工程实践》是一本内容丰富、深入浅出的技术书籍。它不仅为读者提
    发表于 04-30 15:35

    字节发布机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能

    对此,ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。使用简单、少量的微调就可以把 VLM 变成
    的头像 发表于 01-23 16:02 520次阅读
    字节发布机器人领域首个开源<b class='flag-5'>视觉</b>-<b class='flag-5'>语言</b>操作大模型,激发开源VLMs更大潜能

    韩国Kakao宣布开发多模态语言模型“蜜蜂”

    韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据,为更丰富的交互和查询响应提供了可能性。
    的头像 发表于 01-19 16:11 682次阅读

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 408次阅读
    机器人基于开源的多<b class='flag-5'>模态</b><b class='flag-5'>语言</b><b class='flag-5'>视觉</b>大模型

    自动驾驶和多模态语言模型的发展历程

    模态语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将文本与相应的视频
    发表于 12-28 11:45 520次阅读
    自动驾驶和多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b>模型的发展历程

    语音识别技术最新进展:视听融合的多模态交互成为主要演进方向

    多种模态(声学、语言模型、视觉特征等)进行联合建模,基于深度学习的多模态语音识别取得了新进展。   多模态交互的原理及优势   多
    的头像 发表于 12-28 09:06 3842次阅读
    语音识别技术最新进展:视听融合的多<b class='flag-5'>模态</b>交互成为主要演进方向