0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于视频语言模型LiteVL的无参的特征池化方法

CVer 来源:CVer 作者:CVer 2022-12-05 10:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

沿着从大规模图文多模态预训练迁移适配到视频多模态任务的思路,我们提出了模型LiteVL,它利用图文预训练模型BLIP来初始化参数,可以直接在下游任务上微调而不需要进行额外的昂贵的视频文本预训练。并且为了增强图像语言模型中缺乏的时间建模,我们提出在BLIP的Image encoder中增加具有动态时间缩放(dynamic temporal scaling)的时间注意力模块。除了模型方面的这一适配之外,我们还提出了一种非参数池化text-dependent pooling,以自适应地重新加权以文本为条件的细粒度视频嵌入。我们选取了两个具有代表性的下游任务,即文本-视频检索和视频问答,来验证所提出方法的有效性。实验结果表明,所提出的LiteVL在没有任何视频文本预训练的情况下,甚至明显优于以前的视频文本预训练模型。

1. Motivation

近期许多Video-language modeling的工作往往基于大规模video-text数据集 (WebVid2M,CC-3M,HowTo100M) 上进行预训练,然后在下游任务的数据集上微调,而预训练的成本往往十分昂贵。另一方面,学习细粒度的visual-language对齐往往需要利用离线的目标检测器 (e.g., ActBERT) 来捕捉物体信息,但却受限于检测器有限的类别数量 (e.g., 在MSCOCO数据集上训练的目标检测器只能检测出不到100个类别) 和昂贵的计算开销。而且没有充分利用来自文本数据的监督信息。此外,以往的稀疏帧采样的video-text模型是利用image encoder在大规模图文对上预训练的,它忽略了视频理解所需要的时序信息建模 (e.g., CLIPBERT)。最近,在单一视频模态领域的研究上,基于预训练的图像编码器ViT初始化而来的TimeSformer在许多下游的视频任务上性能表现很好,它相比ViT仅仅插入了额外的一层用ViT的注意力层初始化来的时间注意力层。

2. Solution

我们提出了一种简单且高效的视频语言模型LiteVL,它是从近期的预训练图像语言模型BLIP初始化而来的,并且分别从模型层面和特征层面做了时域信息增强。

对于模型层面,我们提出用一组具有可学习scaling factor的时间注意层明确插入原始image backbone中,可以针对每个下游任务进行训练调整(Dynamic Temporal Scaling):

7a92c294-73ed-11ed-8abf-dac502259ad0.png

对于特征层面,我们设计了一种无参的特征池化方法(Text-dependent Pooling),以学习基于文本描述的细粒度时间-空间视频特征:

7aac5b3c-73ed-11ed-8abf-dac502259ad0.png

7ad75e68-73ed-11ed-8abf-dac502259ad0.png

模型框架和动态时序scaling

7b176832-73ed-11ed-8abf-dac502259ad0.png

Text-dependent Pooling

3. Experiments

在三个视频文本检索数据集上和BLIP的性能比较:

7b3ad5ba-73ed-11ed-8abf-dac502259ad0.png

我们提出的LiteVL由于在模型和特征方面的显式时间建模,最终性能优于原始BLIP。

关于Dynamic Temporal Scaling和Text-dependent Pooling的消融实验

7b5bba5a-73ed-11ed-8abf-dac502259ad0.png

通过提出的轻巧的动态时间缩放自适应地根据每个特定任务调整框架级别的重要性,使性能得到进一步提高。此外,与仅使用原始特征相比,使用其他空间或时间池化后的特征会更好。

逐层的平均temporal scaling可视化分析

7b8012a6-73ed-11ed-8abf-dac502259ad0.png

折线图的变化趋势显示了video encoder的浅层更多地集中在理解每个帧的空间内容上,并更少注意不同帧之间的时间依赖性。当层的深度增加时,每个帧的空间特征变得更加全局,并且该模型逐渐寻求学习它们之间的时间依赖性。

Grad-CAM可视化分析

7b9bef08-73ed-11ed-8abf-dac502259ad0.png

上图展示了Grad-CAM可视化,提出的LiteVL有效地捕捉了不同帧之间的细微差异。这也表明我们提出的text-dependent pooling为video-grounded text encoder提供了丰富的信息。

4. Conslusion

我们提出了LiteVL,这是一种视频语言模型,它无需大量的视频语言预训练或目标检测器。LiteVL从预先训练的图像语言模型BLIP中继承了空间视觉信息和文本信息之间已经学习的对齐。然后,我们提出了具有动态时间缩放的额外时间注意力块,以学习视频帧中的时间动态。我们还引入了一种无参的text-denpendent pooling,该方法基于文本描述来对不同帧或者空间位置进行加权,从而实现了细粒度的视频语言对齐。实验结果表明,我们的LiteVL优于利用了视频文本预训练的最先进方法。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    948

    浏览量

    50135
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26262

原文标题:EMNLP 2022 | LiteVL:具有增强时空建模的高效视频-语言学习

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工作流大模型节点说明

    ,变量值支持设置为固定值或引用上游节点的输出参数。 模型设置说明: 支持对模型:TopK、TopP、Temperature进行调整,实现回复效果的定制;仅部分
    发表于 03-19 14:56

    华为荣获算力服务商互联能力成熟度模型编证书

    在2025算力互联网大会期间,算力互联网服务论坛在成都成功举办。论坛现场举行了《算力服务商互联能力成熟度模型编证书颁发仪式,华为凭借在算力互联领域深厚的技术积累与丰富实践经验,作为核心编单位获颁证书,充分彰显其在行业标准制
    的头像 发表于 12-31 11:50 846次阅读

    C语言内存使用

    C语言的内存管理,从来都是一个让人头秃的问题。要想更自由地管理内存,就必须去堆中申请,然后还需要考虑何时释放,万一释放不当,或者没有及时释放,造成的后果都是难以估量的。 当然如果就这些,那倒也还不
    发表于 12-11 07:57

    CNN卷积神经网络设计原理及在MCU200T上仿真测试

    CNN算法简介 我们硬件加速器的模型为Lenet-5的变型,网络粗略分共有7层,细分共有13层。包括卷积,最大层,激活层,扁平层,全连接层。下面是各层作用介绍: 卷积层:提取特征
    发表于 10-29 07:49

    数据全复用高性能层设计思路分享

    大家好,本团队此次分享的内容为可实现数据全复用高性能层设计思路,核心部分主要由以下3个部分组成; 1.SRAM读取模块;——使用的存储为SRAM 基于SRAM读与写时序,约束
    发表于 10-29 07:10

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    , batch_size=512, epochs=20)总结 这个核心算法中的卷积神经网络结构和训练过程,是用来对MNIST手写数字图像进行分类的。模型将图像作为输入,通过卷积和层提取图像的
    发表于 10-22 07:03

    MSCMG刷直流电机改进的I_f位置起动方法

    针对磁悬浮控制力矩陀螺刷直流电机电阻、电感值极小的特点和已有的位置传感器 I/f 起动算法加速阶段换相精度不高且算法复杂的问题,通过分析电磁转矩和换相时刻的关系,提出了一种改进的 I/f起动方法
    发表于 08-06 14:27

    利用自压缩实现大型语言模型高效缩减

    随着语言模型规模日益庞大,设备端推理变得越来越缓慢且耗能巨大。一个直接且效果出人意料的解决方案是剪除那些对任务贡献甚微的完整通道(channel)。我们早期的研究提出了一种训练阶段的方法——自压
    的头像 发表于 07-28 09:36 678次阅读
    利用自压缩实现大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>高效缩减

    MSCMG刷直流电机改进的I_f位置起动方法

    方法。该方法在电磁转矩恒定的情况下,结合电机模型,精确计算出电机换相的具体时刻。为保证电磁转矩恒定确保换相时刻的准确性,采用神经网络法估计反电势系数,并设计了基于三相绕组不对称补偿的改进的电流环。仿真
    发表于 07-23 13:19

    轴承异步电机转子径向位移白检测

    训练构建转子位移预测模型,利用位移预测模型的泛能力,进行转子位移估计。仿真结果表明,提出的位移估计方法能够准确检测转子径向位移信号,并且能实现电机
    发表于 07-14 17:45

    速度传感器感应电机控制系统转速辨识方法研究

    摘 要:速度传感器感应电机控制技术已成为近年的研究热点,转逸估计是速度传感器感应电机控制技术的核心问题。在此对速度传感器感应电机转速辦识技术进行了介绍,分析了几种比较典型的转速解识方法
    发表于 07-09 14:23

    刷直流电机模糊PI控制系统建模与仿真

    摘 要:从无刷直流电机(BIDCM)的工作原理和结构出发,在分析了 BLDCM数学模型的基础上,采用模块方法,在Matlab/Simulink 中建立了 BLDCM 转速、电流双闭环控制系统
    发表于 07-07 18:25

    刷直流电机调速系统转矩脉动抑制方法研究

    摘 要:通过对刷直流电机开通期间的相电流和关断期间的相电流分析,经过实际计算得到电磁转矩的表达式,得到相应的电磁转矩脉动曲线。基于电流预测方法通过将预测模型分为模型建立、反馈调整和性
    发表于 06-26 13:49

    模型自适应控制在永磁同步电机转速中的仿真研究

    摘要:针对永磁同步电机非线性、时变不确定性及难以建立精确的数学模型等问题,不同于动态线性时变模型替代一般非线性系统,提出一种基于模糊过程和系统输出误差的模型控制器。基于反馈线性
    发表于 06-25 13:01

    改进电压模型的异步电机速度传感器矢量控制

    速度传感器矢量控制技术能够有效提高交流传动系统的可靠性,降低系统成本。该技术的核心问题是准确获取电机转子转速,并将其反馈到速度闭环控制环节。介绍一种采用改进模型参考自适应转速估计方法的异步电机矢量
    发表于 05-28 15:43