ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法-电子发烧友网

来自：复旦DISC

引言

本次分享我们将介绍三篇来自ACL2021的跨视觉语言模态的论文。这三篇文章分别介绍了如何在图像描述任务中生成契合用户意图的图像描述、端对端的视觉语言预训练模型和如何生成包含更多细节的图像描述。

文章概览

Control Image Captioning Spatially and Temporally

论文地址：https://aclanthology.org/2021.acl-long.157.pdf

该篇文章基于对比学习和注意力机制引导提出了LoopCAG模型。LoopCAG可以根据输入的鼠标轨迹，生成与鼠标轨迹相匹配的图像描述，从而增强了图片描述生成的可控性和可解释性。

E2E-VLP： End-to-End Vision-Language Pretraining Enhanced by Visual Learning

论文地址：https://arxiv.org/pdf/2106.01804.pdf

这篇文章提出了一个端到端的视觉语言预训练模型。模型不需要利用预训练的目标检测器抽取基于区域的视觉特征，直接以图片作为输入。并且设计了两个额外的视觉预训练任务帮助模型学习细粒度的信息，达到了和两阶段模型相似的效果，并且提高了运算效率。

Enhancing Descriptive Image Captioning with Natural Language Inference

论文地址：https://aclanthology.org/2021.acl-short.36.pdf

这篇文章通过推理图和PageRank对图像描述进行描述性打分。再通过参考抽样和加权指定奖励来生成具有更多细节的图像描述。模型生成了比一般方法具有更多细节的图像描述，这些图像描述可以包含基线方法生成的图像描述。

论文细节

动机

图像描述任务主要针对图片上比较突出的物体和物体关系展开描述，这样的图片描述没有考虑到用户意图。为了生成具备可控性和可解释性的图像描述，最近的工作提出了生成可控性的图像描述任务。为了生成符合用户意图的图像描述，通常会对描述加以情感、边界框和鼠标轨迹限制。与此同时，近期提出的 Localized-Narratives 数据集将鼠标轨迹作为图像描述任务的另一个输入，为图像描述生成任务中所涉及的语义概念进行空间和时序关系上的控制提供了可能。

模型

LoopCAG 可以总结为三部分：用于生成图片描述且以 Transformer 为主干网络的编码器-解码器；用于视觉对象空间定位的注意力引导（Attention Guidance）组件；用于句子级时序对齐的对比性约束（Contrastive Constraints）组件。

（1）Caption Generation

作者将视觉特征V和轨迹特征T分别编码，并叠加位置信息后得和，然后串联在一起作为一个统一的序列输入编码器。解码器通过交叉注意力模块与编码器最后一层的隐藏状态相连，将视觉和轨迹信息结合起来作为生成的前置条件。解码器的优化目标是将以下目标函数最小化：

（2）Attention Guidance

为了定位物体，作者用轨迹作为中间桥梁联系物体和语义token。作者构建了一个监督矩阵来引导词语和视觉对象之间的注意力，即需要物体轨迹点尽可能多的落入对象边界框中。当注意力监督矩阵和模型的交叉注意力矩阵尽可能接近时，词语则可以准确的对应到图片的空间视觉物体上。

（3）Contrastive Constraints

作者使用对比损失函数来约束生成过程的时间顺序，对比损失的形式是 NCE 函数，用来学习区分轨迹-描述对之中的正例和负例。正例是指在顺序上自然对应的描述句和轨迹段，而其余的轨迹-描述对组合均为负例。

最后作者通过将所有损失的总和最小化来联合优化模型。

实验

作者在Localized-Narratives COCO 这个数据集上进行了训练和测试。在测试集上的结果如图所示，LoopCAG 方法在所有的自动评测指标上都达到了先进水平。从表中可以看出，ROUGE-L 的得分提升了2.0。由于 ROUGE-L 主要采用了对顺序敏感的最长共同子序列计分方式，这表明对比约束可以促进生成句子的顺序和用户意图的对应。

动机

基于海量图文对的多模态预训练在下游的跨模态任务中已经取得巨大的成功。现有的多模态预训练的方法主要基于两阶段训练，首先利用预训练的目标检测器抽取基于区域的视觉特征，然后拼接视觉表示和文本向量作为Transformer的输入进行训练。这样的模型存在两点问题，一个是第一阶段通常在特定数据集进行训练模型泛化能力不好，此外提取区域的视觉特征比较耗费时间。基于此作者提出了端到端的像素级别的视觉语言预训练模型。模型通过一个统一的Transformer框架同时学习图像特征和多模态表示

模型

本文的模型如图所示。E2E-VLP用一个CNN 模型提取图片视觉特征的同时用一个Transformer进行多模态特征学习。

（1） Input Representations

模型首先用WordPiece tokenizer 分词进行序列化。图片则直接以三通道的像素矩阵输入。

（2） Cross-modal Encoder Pre-training：Transformer

模型用Resnet提取图片的特征向量。用Transformer模块接受图像-句子的序列输入，进行跨模态语义学习。

为了提取跨模态语义信息，模型设计了两个预训练任务。一个是与Bert类似的Masked Language Modeling，只是在该任务中除去上下文信息还可以利用图片信息避免语义混淆，第二个任务是进行图片文本匹配。

（3） Visual-enhanced Decoder

为了提取更细粒度的视觉特征，接入了物体检测和描述生成两个任务。在物体检测中，为了增强视觉语义特征的学习，除去常规的位置和物体种类预测，我们引入了属性预测这一任务。描述生成图片对应的描述。

实验

根据实验结果，E2E-VLP 和两阶段模型相比，也取得了比较好效果，可以理解和完成两种任务。同时在参数量上，E2E-VLP 则具有更加轻量的优势。

动机

现阶段的图像描述模型通常倾向于生成比较安全的较为笼统的描述，而忽略图像细节。为了生成包含更多细节的图像描述，作者基于更具有细节的图像描述通常包含笼统描述的全部信息这一观点提出了基于自然语言推断的描述关系模型。

方法

这篇文章的具体方法如下：

（1）Constructing Inference Graphs

首先用基于Bert的自然语言推断模型判断图像描述之间的关系，由于图像描述之间不存在冲突因此挪去了冲突关系。并对一张图的描述构建如图所示的推断关系图，并利用Pagerank的方法对推断图计算描述性评分。

（2）Descriptiveness Regularized Learning

由于传统图像描述的第一阶段生成描述和图像描述最小化交叉熵损失函数等同于生成描述和均匀分布的图像描述之间的KL Divergence，为了生成更具有描述性的图像描述。则采用归一化的描述性评分分布取代均匀分布，认为更具有描述性的图像描述具有更高的生成概率。

在第二阶段，最大化生成图像描述的期望收益时，也同时用描述性评分取代均匀分布来计算期望收益。

实验

根据实验结果，模型在多数指标特别是CIDER评分上超过了Baseline，这是因为CIDER倾向于具有更加特殊的细节描述。

此外根据自然语言推断模型判断文章模型生成的图像描述对baseline的图像描述形成更多的包含关系。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1153

浏览量
40990
编码器

编码器

+关注

关注
45

文章
3679

浏览量
135407
图像

图像

+关注

关注
2

文章
1089

浏览量
40603
函数

函数

+关注

关注
3

文章
4350

浏览量
63057
cnn

cnn

+关注

关注
3

文章
353

浏览量
22367

原文标题：ACL2021 | 跨视觉语言模态任务与方法

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

一文详解视觉语言模型

视觉语言模型（VLM）是一种多模态、生成式 AI 模型，能够理解和处理视频、图像和文本。

发表于 02-12 11:13 •147次阅读

一文详解<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>模型

AKI跨语言调用库神助攻C/C++代码迁移至HarmonyOS NEXT

跨语言调用，成为开发者和厂商面临的重要挑战。为解决这一痛点，一款名为AKI (Alpha Kernel Interacting)的开源三方库应运而生，它通过高效封装跨语言调用接口，帮助

发表于 01-02 17:08

NaVILA：加州大学与英伟达联合发布新型视觉语言模型

(VLM)是一种具备多模态生成能力的先进AI模型。它能够智能地处理文本、图像以及视频等多种提示，并通过复杂的推理过程，实现对这些信息的准确理解和应用。NaVILA正是基于这一原理，通过将大型语言模型(LLM)与视觉编码器进行巧妙

发表于 12-13 10:51 •366次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型，以及构建多模态

发表于 12-03 15:18 •236次阅读

一文理解多模态大语言模型——上

/understanding-multimodal-llms 在过去几个月中， OpenVINO™ 架构师 Yury阅读了众多有关多模态大语言模型的论文和博客，在此基础上，推荐了一篇解读多模态

发表于 12-02 18:29 •511次阅读

思必驰发布AI办公本Turbo，搭载专业级跨模态会议大模型

近日，思必驰正式发布了其最新的AI办公本Turbo，该设备搭载了专业级的跨模态会议大模型。这一创新技术的引入，标志着思必驰在智能办公领域迈出了重要的一步。

发表于 10-31 17:03 •658次阅读

SegVG视觉定位方法的各个组件

视觉定位(Visual Grounding)旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系统的普及，如视觉问答和图像描述，

发表于 10-28 13:59 •558次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多模态大模型可以可以理解多种不同模态的输入

发表于 10-18 09:39 •615次阅读

通义千问发布第二代视觉语言模型Qwen2-VL

。Qwen2-VL系列模型在多模态处理领域取得了突破性进展，于多个权威测评中崭露头角，刷新了多项最佳成绩记录，展现出强大的视觉理解与语言交互能力。

发表于 09-03 16:31 •636次阅读

鸿蒙ArkTS声明式开发：跨平台支持列表【半模态转场】模态转场设置

通过bindSheet属性为组件绑定半模态页面，在组件插入时可通过设置自定义或默认的内置高度确定半模态大小。

发表于 06-12 21:09 •1191次阅读

鸿蒙ArkTS声明式开发：跨平台支持列表【全屏模态转场】模态转场设置

通过bindContentCover属性为组件绑定全屏模态页面，在组件插入和删除时可通过设置转场参数ModalTransition显示过渡动效。

发表于 06-12 15:47 •2788次阅读

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

的未来发展方向进行了展望，包括跨领域、跨模态和自动提示生成能力方向，为读者提供了对未来技术发展的深刻见解。《大语言模型原理与工程实践》是一本内容丰富、深入浅出的技术书籍。它不仅为读者提

发表于 04-30 15:35

OpenHarmony实战开发-如何实现模态转场

模态转场是新的界面覆盖在旧的界面上，旧的界面不消失的一种转场方式。表1 模态转场接口接口说明使用场景 bindContentCover 弹出全屏的模态组件。用于自定义全屏的模态

发表于 04-28 14:47

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互，同时多模态问答技术的加持，能实现所见即所问

发表于 04-18 17:01 •674次阅读

NVIDIA Edify多模态架构升级，引领视觉生成式AI新纪元

NVIDIA近日宣布，其用于视觉生成式AI的多模态架构Edify迎来重大更新，为开发者和视觉内容提供商带来前所未有的新功能。其中，3D资产生成功能的引入，极大地提升了AI图像生成的创意自由度，让创作者能够以前所未有的方式展现他们

发表于 03-27 10:22 •531次阅读