复旦&微软提出OmniVL：首个统一图像、视频、文本的基础预训练模型-电子发烧友网

引言

基础模型 (Foundation model) 指的是在大量数据上训练出来的、可以适应一系列下游任务的模型[1]，它被看作是迈向通用人工智能的重要一步。近些年来，随着CLIP的横空出世，视觉-文本预训练 (Vision-Language Pretraining) 及其在各类任务的迁移学习成为了备受关注的研究方向，并被认为是建立视觉基础模型的一个颇具前景的方向。

根据输入数据和目标下游任务的不同，现有的VLP方法可以大致分为两类：图像-文本预训练和视频-文本预训练。前者从图像-文本对中学习视觉和语言表征的联合分布，后者则从视频-文本对中建立视频帧和文本之间的语义关联。然而，当前尚无工作探索将二者统一起来，这篇文章认为这主要因为现有的训练方式无法发挥图像-文本预训练和视频-文本预训练之间的互补性，但单纯地实现统一而在两类下游任务上折损性能将是没有意义的。尽管困难重重，对于基础模型的追求使得这一问题依旧难以回避。

这促使这篇工作思考并最终提出了一个真正统一的视觉-语言基础模型OmniVL以同时支持图像-文本和视频-文本的预训练以及相应的下游任务，包括视觉任务（如图像分类、视频动作识别）、跨模态对齐任务（如图像/视频-文本检索）以及多模态理解和生成任务（如图像/视频问答、字幕自动生成等）。OmniVL第一次探索出了图像和视频任务双向互助的训练范式，而不是以往的单一方向，即用图像（图像-语言）来帮助视频（视频-语言）。

方法

OmniVL实现了模态、功能和训练数据三个维度的统一，本篇对方法的介绍也将围绕着三个统一进行展开。

统一的模态.OmniVL采用了一个统一的基于Transformer的视觉编码器来提取视觉表征，其中视频与图像输入共享大部分网络结构，对于视频而言，OmniVL采用了3D patching embedding和时间注意力块[4]。此外，OmniVL额外利用一个文本编码器来提取语言表征。

统一的功能.OmniVL采用了编码器-解码器的结构，并具有两个视觉引导的解码器：跨模态对齐解码器和文本生成解码器，前者通过视觉-文本匹配（的二分类）损失进行监督以学习视觉和文本模态之间的对齐，后者则通过语言建模（的生成式回归）损失进行监督以学习从视觉特征中生成文本的能力。这两个解码器与上述的两个编码器相互配合，赋予了OmniVL“理解“和“生成”的能力。

统一的数据.受到Florence[5]中使用的统一对比学习[6]的启发，OmniVL统一了图像-文本和图像-标签数据作为预训练语料库、并将其进一步扩展到视频-文本和视频-标签数据上。这基于两个方面的考虑：1）利用尽可能多的有监督（或无监督）的数据来丰富语料库；2）人工标注的视觉-标签数据（如ImageNet和Kinetics-400）可以帮助模型学习出更具辨别性的表征，这有助于分类相关的迁移学习任务，而从网络爬取的视觉-语言数据 (如CC12M和WebVid) 涵盖更广泛的视觉概念，这有助于跨模态任务。这种简单的扩展可以帮助OmniVL同时享有两种优势。

最后回到了上面提到的最重要的问题：如何实现图像-文本和视频-文本学习的相互促进。前文提到，现有工作往往只是单独利用图像-文本或者视频-文本进行预训练（如下图2-3行），因此在另一类任务上的表现往往差强人意（多数情况被直接忽略）。尤其是如果只在视频-文本上预训练的话，受限于有限的数据规模、以及视频数据本身的复杂性，在对应的视频任务上表现也很糟糕。为了解决这一问题，一些工作如FiT[7]提出了将图像看作单帧视频、从而利用其和视频数据进行联合训练（如下图第4行），这一做法相较单纯地利用视频数据有显著提升，但是直接从零学习图像和视频的表征以及跨模态的对齐显然颇具挑战性，这为网络的学习和收敛增加了困难。Pretrain-then-finetuning是视觉领域一个常用的做法，它指的是首先在标准的图像数据集上训练骨干网络如ResNet，然后将其在下游任务包括视频动作识别上进行微调，这一方法在各类任务上都取得了显著的成功。借鉴于此，一种简单的做法是首先在图像-文本上进行第一阶段的预训练、然后在视频-文本上进行第二阶段的预训练（如下图第5行）。这一做法是很有竞争力的一个baseline，但是在一方面在图像任务上的性能有所下降、另一方面在视频任务上的表现还不够惊艳。

为了更加充分地利用图像-文本和视频-文本数据的互补性、进一步提升在不同下游任务上的表现，OmniVL提出了一个解藕的联合训练方式，即首先在图像-文本上进行预训练、然后结合视频-文本进行联合预训练（如上图第6行），这不仅可以防止对图像表征的遗忘、甚至可以在二者对应的任务上继续提高性能。这篇工作认为这是由于第一阶段网络可以专注在学习空间表征和其与文本模态的对齐上、第二阶段则可以增益性地学习运动表征和跨模态的关系建模，这不仅使学习从空间维度到时间维度更加高效，而且还能使不同源的数据之间形成互补。

实验

视觉任务

文章首先采用经典的图像分类 (linear probing) 和视频动作识别任务 (finetuning) 作为基准评估了视觉编码器在视觉任务上的表现。

遵从CLIP的实现，OmniVL冻结了视觉编码器的参数并对新附加的线性层进行微调。在6个图像分类数据集上，OmniVL相比于大多数baseline取得了一致更好的结果。与CLIP和FLAVA (70M) 相比，虽然使用明显更少预训练数据，OmniVL仍然取得了总体上有竞争力的结果。

对于视频动作识别，文章在两个规模较小的数据集UCF101和HMDB51上评估了linear probing的结果，并在两个规模较大的数据集Kinetics-400和Something-something V2上评估了微调的结果，实验表明OmniVL都显著地超越了baseline。

跨模态对齐任务

接下来文章探究了OmniVL在图像-文本检索和文本到视频检索任务上的表现。值得一提的是，为了平衡推理效率和多模态信息的深度融合，OmniVL首先根据单模态编码器得到视觉和文本embedding的相似度得分选择Top-K（默认为K=128）候选者，然后利用跨模态对齐解码器计算其成对的匹配得分对候选者重新排序，这种双阶段匹配的方式进一步体现了该架构的优越性。

从上图可以看出，无论是在图像-文本检索还是文本到视频检索上，OmniVL都在不同数据集上取得了目前最佳的性能。尤其是在文本到视频检索任务上，得益于所提出的解藕联合预训练方法，OmniVL显著地超越了现有方法。

多模态理解和生成任务

以视觉为基础的跨模态对齐解码器和文本生成解码器使OmniVL具备了多模态理解和生成的能力，在这一部分中，文章评估了它在字幕生成和图像/视频问题回答上的表现。

在这类任务上，OmniVL同样取得了最好的结果。

总结和未来工作

这篇工作提出了OmniVL，一个全新的视觉-语言基础模型，它将图像-语言和视频-语言统一起来，并同时支持视觉任务、跨模态对齐任务以及多模态的理解和生成任务。OmniVL采用了统一的视觉-语言对比损失，这让其能够同时利用图像-文本、图像-标签、视频-文本和视频-标签数据进行预训练。另外，文章中提出了一个解耦地联合训练范式，将视觉-语言建模解耦为空间和时间两个维度，从而同时提高了在图像和视频任务的性能。

在这篇工作仅仅在CC12M和WebVid-2.5M这类相对小规模的数据上进行预训练，随着LAION、WebVid-10M的问世，可以在更大规模的数据上训练更大的模型，以探索具有更强零样本、小样本能力的模型。另外一个值得探索的方向是结合更丰富的有标签数据和更优的监督目标，使得模型可以支持细粒度的任务如物体检测、追踪等，从而朝着通用的统一模型更上一层台阶。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1084

浏览量
40461
图像分类

图像分类

+关注

关注
0

文章
90

浏览量
11917

原文标题：NeurIPS 2022 | 复旦&微软提出OmniVL：首个统一图像、视频、文本的基础预训练模型

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

KerasHub统一、全面的预训练模型库

深度学习领域正在迅速发展，在处理各种类型的任务中，预训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名，始终处于这一动向的前沿。Keras 拥有专用的内

发表于 12-20 10:32 •90次阅读

北美运营商AT&amp;amp;T认证中的VoLTE测试项

。以下是对AT&amp;T认证中VoLTE测试项的详细归纳：一、基本测试要求AT&amp;T10776测试：这是一项重要的测试要求，旨在确保终端单元(TU)和附件技术验收(TA)过程的

发表于 12-06 16:52 •140次阅读

北美运营商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T认证中的VoLTE测试项

什么是大模型、大模型是怎么训练出来的及大模型作用

，基础模型。大模型是一个简称，完整的叫法，应该是“人工智能预训练大模型”。

发表于 11-25 09:29 •1381次阅读

什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>训练</b>出来的及大<b class='flag-5'>模型</b>作用

如何训练自己的LLM模型

训练自己的大型语言模型（LLM）是一个复杂且资源密集的过程，涉及到大量的数据、计算资源和专业知识。以下是训练LLM模型的

发表于 11-08 09:30 •540次阅读

AI大模型的训练数据来源分析

学术机构、政府组织或企业公开发布，涵盖了各种类型的数据，如图像、文本、音频、视频等。例如： ImageNet ：一个广泛用于图像识别任务的大

发表于 10-23 15:32 •606次阅读

直播预约 |数据智能系列讲座第4期：预训练的基础模型下的持续学习

鹭岛论坛数据智能系列讲座第4期「预训练的基础模型下的持续学习」10月30日（周三）20：00精彩开播期待与您云相聚，共襄学术盛宴！|直播信息报告题目预

发表于 10-18 08:09 •224次阅读

直播预约 |数据智能系列讲座第4期：<b class='flag-5'>预</b><b class='flag-5'>训练</b>的基础<b class='flag-5'>模型</b>下的持续学习

onsemi LV/MV MOSFET 产品介绍 &amp;amp; 行业应用

系列MOSFET介绍。4.onsemiLV/MVMOSFET市场&amp;应用。技术亮点onsemi最新一代T10系列MOSFET优势&amp;市场前景。学习收获期望了解onsemiSi

发表于 10-13 08:06 •392次阅读

onsemi LV/MV MOSFET 产品介绍 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行业应用

FS201资料（pcb &amp; DEMO &amp; 原理图）

电子发烧友网站提供《FS201资料（pcb &amp; DEMO &amp; 原理图）.zip》资料免费下载

发表于 07-16 11:24 •0次下载

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使

发表于 07-11 10:11 •430次阅读

LLM预训练的基本概念、基本原理和主要优势

在人工智能和自然语言处理（NLP）领域，大型语言模型（Large Language Model，简称LLM）的兴起极大地推动了技术的进步和应用的发展。LLM通过在大规模文本数据上进行预训练

发表于 07-10 11:03 •1072次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语言处理（NLP）和计算机视觉（CV）等领域中得到了广泛应用。

发表于 07-03 18:20 •2814次阅读

大语言模型：原理与工程时间+小白初识大语言模型

的分布式表示，基于预训练的词嵌入表示。独热表示就是在一个大的向量空间中，其中一个位1，其余都为0，这样就会变成单独的。词的分布式表示：根据上下文进行推断语义。基于

发表于 05-12 23:57

【大语言模型：原理与工程实践】大语言模型的预训练

进行损失计算，得到下一个目标的预测。也会设计一些其他辅助训练任务，与主任务共同训练。选择合适的预训练

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

模型架构奠定基础。然后，引介一些经典的预训练模型，如BERT、GPT等。最后，解读ChatGPT和LLaMA系列

发表于 05-05 12:17

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相 2月16日凌晨OpenAI的首个文生

发表于 02-18 17:41 •992次阅读

搜索历史

复旦&微软提出OmniVL：首个统一图像、视频、文本的基础预训练模型

评论

KerasHub统一、全面的预训练模型库

北美运营商AT&amp;amp;T认证中的VoLTE测试项

什么是大模型、大模型是怎么训练出来的及大模型作用

如何训练自己的LLM模型

AI大模型的训练数据来源分析

直播预约 |数据智能系列讲座第4期：预训练的基础模型下的持续学习

onsemi LV/MV MOSFET 产品介绍 &amp;amp; 行业应用

FS201资料（pcb &amp; DEMO &amp; 原理图）

大语言模型的预训练

LLM预训练的基本概念、基本原理和主要优势

预训练模型的基本原理和应用

大语言模型：原理与工程时间+小白初识大语言模型

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

搜索历史

复旦&微软提出​OmniVL：首个统一图像、视频、文本的基础预训练模型

评论

复旦&微软提出OmniVL：首个统一图像、视频、文本的基础预训练模型