基于实体和动作时空建模的视频文本预训练-电子发烧友网

摘要

尽管常见的大规模视频-文本预训练模型已经在很多下游任务取得不错的效果，现有的模型通常将视频或者文本视为一个整体建模跨模态的表示，显示结合并建模细粒度信息的探索并不多，本文提出了STOA-VLP，一种时间和空间维度上同时建模动态的实体和动作信息的video-language预训练框架，以进一步增强跨模态的细粒度关联性。

简介

细粒度的信息对于理解视频场景并建模跨模态关联具有很重要的作用。如图1-a中：基于视频生成对应的视频描述，需要关注其中的人、狗两个实体，随着时间的推移，两个实体之间的相对状态和空间位置发生了变化，模型需要对动态的实体信息和实体之间的交互进行建模，才能正确地生成对应的视频描述。更进一步地，如图1-b中：在同一个视频片段当中，视频中的实体，如猴子和猫之间的不同交互产生了多个不同的动作状态，而问题就是针对相关联的动作提出的，模型不但需要建模视频片段中的多个动作，感知动作状态的变化，还需要推理出动作状态之间的关联才能得到正确的答案。

图1：例子

在本文中，我们提出了一个视频-文本预训练方法——STOA-VLP，通过显式地建模时序相关的实体轨迹和多个时空动作特征来更好地应对视频中实体的动态变化和实体交互。此外，我们设计了两个辅助预训练任务：实体-文本对齐（object text alignment, OTA）任务和动作集合预测（Ac tion Set Prediction, ASP）任务以在与训练阶段利用文本特征辅助建模前述的实体轨迹和动作特征。

方法

图2：模型整体架构

模型架构

模型的整体架构如图2左侧所示，模型整体结构包括模态相关编码器：视频编码器（Video Encoder）、文本编码器（Text Encoder）、和一个模态无关编码器（Modality-agnostic Fusion Encoder），文本和视频分别经过视频和文本编码器进行特征抽取。为了显式地建模动态的实体轨迹和时空动作特征，我们引入了两个新的特征编码器：实体轨迹编码器（Object Trajectory Encoder）和时空动作编码器（Spatial-Temporal Action Encoder），我们从视频帧中抽取实体的边界框（bounding box）信息，其中的实体bounding box、分类信息用于与视频特征结合生成对应的实体有噪标注，作为实体轨迹编码器和时空动作编码器的输入。最终，四个模态相关的编码器抽取的特征会同时进入模态无关编码器进行信息融合交互。所有的编码器都采用Transformer[1]结构。我们利用视频编码器和文本编码器分别得到对应的视频、文本特征和，其余各模块的具体介绍如下：

实体轨迹编码追踪器：正如前文例子所示，如果模型不能很好地建模视频帧之间实体的动态变化，在下游任务上可能无法获得最好的效果。因此，我们通过建模跨视频帧的有噪实体轨迹来解决这个问题：a. 使用离线的实体检测模型（VinVL[2]）分别对每一帧进行实体检测。b. 每帧保留Top-K个不同的实体，并且留下其候选框和类别，通过RoIAlign方法[3] 得到top-K个实体的表征：，为视频编码器编码的视频特征的块（patch）级别的表征。c. 通过求和不同帧的候选实体检测分类置信分数，选取top-N个实体类别用作视频级需要建模轨迹的候选实体类别d. 我们将不同视频帧抽取得到的实体特征拼接，并合并时间和实体维度，得到对应的实体特征，针对步骤d中得到的Top-N实体类别，我们为每个类别构造一个mask ，mask位置为1，代表中对应位置的实体特征类别为。通过实体类别的mask和实体特征矩阵，我们能够掩码得到对应实体在不同帧的特征合成的特征轨迹，称之为实体轨迹序列。e. 对于每个视频，我们最终能够构造得到N个实体轨迹序列，我们将其输入实体轨迹编码器，最终取位置的特征，得到实体轨迹特征。

时空动作编码器：识别视频片段中动作的关键是，识别场景中的实体，并建模实体在视频场景中的移动和不同的交互。在此，我们显式建模多个动作特征，以捕捉视频片段中不同的动作信息。a. 我们假设视频片段中包含有M个不同的动作，为了获得每个动作的特征，我们构造M个动作特征请求(query)，。b. 我们使用前述通过视频编码器和实体检测模型得到的视频特征和对应的实体表征，拼接得到包含场景和实体信息的视频特征。c. 我们利用动作特征query，通过注意力机制获得帧级别的动作特征线索：。d. 我们将每个动作特征序列输入到时空动作编码器当中，来建模不同帧之间包含的时序线索，最后，我们得到的动作特征编码。

模态无关交互编码器：通过拼接上游四个步骤的特征：视频表征、文本表征、实体轨迹特征、时空动作特征输入对应的编码器进行进一步的交互，最后，我们取和位置的输出作为视频和文本的整体表征。

训练目标

如图2所示，STOA-VLP的预训练过程包含四类训练目标：视频-文本对齐任务、条件语言建模任务，以及我们提出的两个辅助任务——动态实体-文本对齐（Dynamic Object-Text Alignment, OTA）和时空动作集合预测（Spatial-Temporal Action Set Prediction, ASP）。我们利用视觉-文本对比学习任务（Visual-Text Contrastive, VTC）和视觉-文本对齐任务（Visual-Text Maching）建模视频-文本的粗粒度对齐。利用掩码语言建模（MLM）和前缀语言建模（PLM）来增强模态无关编码器的语言理解和生成能力。为了进一步提升实体轨迹追踪编码器的效果，建立细粒度的跨模态对齐表示，我们通过OTA任务对齐候选实体轨迹和文本中相关文本，以进一步提高通过视频特征得到的实体轨迹和文本特征的相关性：

通过词性标注工具，抽取文本中的名词用作对齐候选，并使用对应的文本编码器输出对应的名词特征

使用轨迹追踪编码器输出的轨迹特征和名词特征的相似度为他们之间的关联权重

最终使用匈牙利算法[4]得到二分图的最大匹配，模型的目标是尽力提高最大匹配的相似度相比于利用抽取得到的特征直接预测有限的动作类别，我们在这里选择了一种更弹性的方法——从匹配文本中的动词集合中预测对应于当前动作特征的类别，以指导时空动作编码器的学习：

我们利用词性标注工具和文本编码器得到对应的动词特征集合。

我们并不能直接标注视频中包含的动作类别，也无法知道编码得到的动作特征和文本中包含动作的对应关系，因此我们同样在这里通过动作特征和文本动词特征之间的相似度作为关联权重，并将最大匹配视为当前的ground truth匹配关系，并最大化最大匹配的相似度：通过优化该目标，比我们编码的动作特征和文本中的动词特征距离将被拉近，动作编码器能够生成和文本特征更相关的特征。

实验

实验细节

我们在WebVid-2M[5]数据集上进行模型的预训练，WebVid-2M包含了250万个从网络中收集的视频-文本对。我们利用CLIP-ViT-B/16[6]初始化我们的视频编码器，并用其顶层参数初始化实体轨迹编码器和时空动作编码器。文本编码器和模态编码器由CLIP文本编码器的前6层初始化。实体轨迹编码的数量为20，动作特征的个数为4。

下游任务

我们在三类常用的视频-文本理解和生成任务上进行了实验：视频描述生成，文本-视频检索和视频问答。

表1：视频描述生成的实验结果

在使用更少的视频-文本预训练数据的情况下，我们的模型在视频描述生成上得到了更好的结果，在多数指标上都超过了其他的模型。通过显式地建模基于文本信息对齐的实体轨迹和动作信息，模型能够更好地利用其进行视频描述生成。

表2：文本-视频检索的实验结果

如表2所示，我们的模型在检索任务上的所有指标都超过了未基于CLIP初始化的模型，并且在大多数指标上均超过了基于CLIP初始化的模型。

表3：视频问答的实验结果

如表3所示，在视频问答任务上，我们的模型仅使用了2.5M的预训练数据，超越了MSVD-QA上的所有其他方法。与之前的SOTA，MSVD-QA的性能提高2.9%，MSR-VTT-MC的性能提高1.4%。我们推测，通过显式地建模实体轨迹和动作，在问题和视觉特征之间建立了更好的对齐，并观察和利用视频中的细粒度信息来更好地回答文本问题。

消融实验

表4：不同模块的消融实验

我们进一步分析了我们引入的时空特征和辅助任务的影响，并在视频描述生成和视频问答两个任务上验证，这两个任务在本质上需要更细粒度的信息和对视频场景时空信息的理解。Base模型删除了所有时空建模模块和辅助建模任务。与Base模型相比，仅仅引入基于时序的实体轨迹信息就可以为所有任务带来改进。我们的OTA任务进一步构建了实体轨迹和名词之间的细粒度对齐，文本模态的指导进一步提升了模型在下游任务当中的表现。我们还发现，不引入辅助任务ASP的情况下，添加一个时空动作建模模块引入时空动作token会使得下游任务的部分指标更差。我们认为，这可能是因为视频描述生成和视频问答任务需要对视觉部分进行细粒度的语义理解，如果没有ASP任务的指导，我们抽取的动作特征的含义是模糊的，其导致了性能下降。最后，连同我们提出的时空模块和两个辅助任务，我们在下游任务上取得了最好的结果，表明我们引入的细粒度时空信息和辅助任务能够提升预训练模型在下游任务的能力，一定程度上缓解了前述的问题。

结论

在本文中，我们通过在视频-文本预训练的过程中显式建模细粒度的时空特征来更好地构建跨模态的对齐。我们提出的STOA-VLP引入了两个新的模块，在时空维度上建模实体轨迹和动作特征。我们设计了两个辅助任务来建立由粗到细的跨模态对齐。仅仅使用中等规模的与训练数据，我们在下游任务上就观察到了较好的表现，该方法进一步增强了视觉特征和文本特征之间的关联性。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3647

浏览量
134705
建模

建模

+关注

关注
1

文章
309

浏览量
60783
模型

模型

+关注

关注
1

文章
3255

浏览量
48902

原文标题：AAAI 2023 | 基于实体和动作时空建模的视频文本预训练

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

【大语言模型：原理与工程实践】大语言模型的预训练

数据格式的转换、数据字段的匹配和整合等。通过数据级净化，可以进一步提高数据的质量和可用性，为后续的数据分析和建模提供更有价值的数据支持。在得到了大语言模型的数据之后，就是对其进行预训练。大圆模型拥有

发表于 05-07 17:10

3D软件中实体建模与曲面建模有什么区别？

实体建模和曲面建模是3D设计中较为常用的两种三维建模方式，那么这两者在实际的绘图操作中有什么区别呢？又该如何区分使用这两种三维建模方式呢？下

发表于 06-05 15:25

为什么要使用预训练模型？8种优秀预训练模型大盘点

正如我们在本文中所述，ULMFiT使用新颖的NLP技术取得了令人瞩目的成果。该方法对预训练语言模型进行微调，将其在WikiText-103数据集（维基百科的长期依赖语言建模数据集Wikitext之一）上

发表于 04-04 11:26 •2.4w次阅读

为什么要使用<b class='flag-5'>预</b><b class='flag-5'>训练</b>模型？8种优秀<b class='flag-5'>预</b><b class='flag-5'>训练</b>模型大盘点

一种侧重于学习情感特征的预训练方法

在大规模无监督语料上预训练的语言模型正逐渐受到自然语言处理领琙硏究者的关注。现有模型在预训练阶段主要提取文本的语义和结构特征，针对情感类任务

发表于 04-13 11:40 •4次下载

一种侧重于学习情感特征的<b class='flag-5'>预</b><b class='flag-5'>训练</b>方法

怎样去增强PLM对于实体和实体间关系的理解？

传统的预训练目标没有对文本中的关系事实进行显式建模，而这些关系事实对于理解文本至关重要。

发表于 06-23 15:32 •1194次阅读

怎样去增强PLM对于<b class='flag-5'>实体</b>和<b class='flag-5'>实体</b>间关系的理解？

多模态图像-文本预训练模型

某一方面的智能程度。具体来说是，领域专家人工构造标准数据集，然后在其上训练及评价相关模型及方法。但由于相关技术的限制，要想获得效果更好、能力更强的模型，往往需要在大量的有标注的数据上进行训练。近期预

发表于 09-06 10:06 •4121次阅读

多模态图像-<b class='flag-5'>文本</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>模型

如何实现更绿色、经济的NLP预训练模型迁移

NLP中，预训练大模型Finetune是一种非常常见的解决问题的范式。利用在海量文本上预训练得到的Bert、GPT等模型，在下游不同任务上分

发表于 03-21 15:33 •2220次阅读

文本预训练的模型架构及相关数据集

多模态预训练的数据通常来源于大规模的模态间对齐样本对。由于时序维度的存在，视频当中包含了比图片更加丰富而冗余的信息。因此，收集大规模的视频-文本

发表于 07-01 11:08 •2047次阅读

利用视觉语言模型对检测器进行预训练

预训练通常被用于自然语言处理以及计算机视觉领域，以增强主干网络的特征提取能力，达到加速训练和提高模型泛化性能的目的。该方法亦可以用于场景文本检测当中，如最早的使用ImageNet

发表于 08-08 15:33 •1415次阅读

基于VQVAE的长文本生成利用离散code来建模文本篇章结构的方法

输入信息有限，而要求输出内容丰富，经常需要生成多个句子或段落，在这些任务上预训练语言模型依然存在连贯性较差、缺乏常识等问题。本次与大家分享一篇建模长文本篇章结构的工作，用以提升生成

发表于 12-01 17:07 •1756次阅读

复旦&微软提出OmniVL：首个统一图像、视频、文本的基础预训练模型

根据输入数据和目标下游任务的不同，现有的VLP方法可以大致分为两类：图像-文本预训练和视频-文本预

发表于 12-14 15:26 •929次阅读

预训练数据大小对于预训练模型的影响

BERT类模型的工作模式简单，但取得的效果也是极佳的，其在各项任务上的良好表现主要得益于其在大量无监督文本上学习到的文本表征能力。那么如何从语言学的特征角度来衡量一个预训练模型的究竟学

发表于 03-03 11:20 •1457次阅读

ELMER: 高效强大的非自回归预训练文本生成模型

每个单词都依赖于输入文本与之前生成的单词。自回归生成模型只建模了前向的单词依赖关系，依次生成的结构也使得自回归模型难以并行化。目前大部分预训练生成模型均采用自回归方式，包括GPT-2，

发表于 03-13 10:39 •1421次阅读

NLP中的迁移学习：利用预训练模型进行文本分类

迁移学习彻底改变了自然语言处理（NLP）领域，允许从业者利用预先训练的模型来完成自己的任务，从而大大减少了训练时间和计算资源。在本文中，我们将讨论迁移学习的概念，探索一些流行的预训练模

发表于 06-14 09:30 •458次阅读

基于文本到图像模型的可控文本到视频生成

1. 论文信息 2. 引言大规模扩散模型在文本到图像合成方面取得了巨大的突破，并在创意应用方面取得了成功。一些工作试图在视频领域复制这个成功，即在野外世界建模高维复杂视频分布。然

发表于 06-14 10:39 •975次阅读

搜索历史

基于实体和动作时空建模的视频文本预训练

评论

【大语言模型：原理与工程实践】大语言模型的预训练

3D软件中实体建模与曲面建模有什么区别？

为什么要使用预训练模型？8种优秀预训练模型大盘点

一种侧重于学习情感特征的预训练方法

怎样去增强PLM对于实体和实体间关系的理解？

多模态图像-文本预训练模型

如何实现更绿色、经济的NLP预训练模型迁移

文本预训练的模型架构及相关数据集

利用视觉语言模型对检测器进行预训练

基于VQVAE的长文本生成利用离散code来建模文本篇章结构的方法

复旦&微软提出OmniVL：首个统一图像、视频、文本的基础预训练模型

预训练数据大小对于预训练模型的影响

ELMER: 高效强大的非自回归预训练文本生成模型

NLP中的迁移学习：利用预训练模型进行文本分类

基于文本到图像模型的可控文本到视频生成