0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Tune-A-Video论文解读

jf_pmFSk4VX 来源:GiantPandaCV 2023-03-29 10:28 次阅读

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

1. 论文信息

标题:Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

作者:Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, Mike Zheng Shou

原文链接:https://arxiv.org/pdf/2212.11565.pdf

代码链接:https://tuneavideo.github.io/

2. 引言

坤坤镇楼:

5af6f6ea-cdd8-11ed-bfe3-dac502259ad0.gif

在这里插入图片描述

5b1b52d8-cdd8-11ed-bfe3-dac502259ad0.gif

在这里插入图片描述

5b37cfd0-cdd8-11ed-bfe3-dac502259ad0.gif

在这里插入图片描述

5b5902cc-cdd8-11ed-bfe3-dac502259ad0.gif

在这里插入图片描述

大规模的多模态数据集是由数十亿个文本图像对组成,得益于高质量的数据,在文本到图像 (text-to-image, T2I) 生成方面取得了突破 。为了在文本到视频 (T2V) 生成中复制这一成功,最近的工作已将纯空间 T2I 生成模型扩展到时空域。这些模型通常采用在大规模文本视频数据集(例如 WebVid-10M)上进行训练的标准范式。尽管这种范式为 T2V 生成带来了可喜的结果,但它需要对大型硬件加速器进行大规模数据集上的训练,这一过程既昂贵又耗时。人类拥有利用现有知识和提供给他们的信息创造新概念、想法或事物的能力。例如,当呈现一段文字描述为“一个人在雪地上滑雪”的视频时,我们可以利用我们对熊猫长相的了解来想象熊猫在雪地上滑雪的样子。由于使用大规模图像文本数据进行预训练的 T2I 模型已经捕获了开放域概念的知识,因此出现了一个直观的问题:它们能否从单个视频示例中推断出其他新颖的视频,例如人类?因此引入了一种新的 T2V 生成设置,即 One-Shot Video Tuning,其中仅使用单个文本-视频对来训练 T2V 生成器。生成器有望从输入视频中捕获基本的运动信息,并合成带有编辑提示的新颖视频。

5b91588e-cdd8-11ed-bfe3-dac502259ad0.png

本文提出了一种新的文本到视频(T2V)生成设置——单次视频调谐,其中只呈现一个文本-视频对。该模型基于大规模图像数据预训练的最先进的文本到图像(T2I)扩散模型构建。研究人员做出了两个关键观察:1)T2I模型可以生成代表动词术语的静止图像;2)将T2I模型扩展为同时生成多个图像表现出惊人的内容一致性。为了进一步学习连续运动,研究人员引入了Tune-A-Video,它包括一个定制的时空注意机制和一个高效的单次调谐策略。在推理时,研究人员采用DDIM反演为采样提供结构指导。大量定性和定量实验表明,我们的方法在各种应用中都具有显著的能力。

5ba309f8-cdd8-11ed-bfe3-dac502259ad0.png

论文提出的one-shot tuning的setting如上。本文的贡献如下:1. 该论文提出了一种从文本生成视频的新方法,称为One-Shot Video Tuning。2. 提出的框架Tune-A-Video建立在经过海量图像数据预训练的最先进的文本到图像(T2I)扩散模型之上。3. 本文介绍了一种稀疏的时空注意力机制和生成时间连贯视频的有效调优策略。4. 实验表明,所提出的方法在广泛的应用中取得了显著成果。

3. 方法

5bb9d638-cdd8-11ed-bfe3-dac502259ad0.png

该论文提出了一种从文本生成视频的新方法,称为One-Shot Video Tuning。拟议的框架Tune-A-Video建立在经过海量图像数据预训练的最先进的文本到图像(T2I)扩散模型之上。该论文还提出了一种有效的调优策略和结构反演,以生成时间一致的视频。实验表明,所提出的方法在广泛的应用中取得了显著成果。

3.1 DDPMs的回顾

DDPMs(去噪扩散概率模型)是一种深度生成模型,最近因其令人印象深刻的性能而受关注。DDPMs通过迭代去噪过程,从标准高斯分布的样本生成经验分布的样本。借助于对生成结果的渐进细化,它们在许多图像生成基准上都取得了最先进的样本质量。

根据贝叶斯定律 and 可以表达为:

DDPMs的主要思想是:给定一组图像数据,我们逐步添加一点噪声。每一步,图像变得越来越不清晰,直到只剩下噪声。这被称为“正向过程”。然后,我们学习一个机器学习模型,可以撤消每一个这样的步骤,我们称之为“反向过程”。如果我们能够成功地学习一个反向过程,我们就有了一个可以从纯随机噪声生成图像的模型。

这其中又有LDMs这种范式的模型比较流行,Latent Diffusion Models(LDMs)是一种基于DDPMs的图像生成方法,它通过在latent space中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像。LDMs通过将图像形成过程分解为去噪自编码器的顺序应用,实现了在图像数据和其他领域的最先进的合成结果。此外,它们的公式允许引入一个引导机制来控制图像生成过程,而无需重新训练。然而,由于这些模型通常直接在像素空间中运行,因此优化强大的DMs通常需要数百个GPU天,并且推理由于顺序评估而昂贵。为了在有限的计算资源上启用DM训练,同时保留它们的质量和灵活性,我们在强大的预训练自编码器的潜在空间中应用它们。与以前的工作不同,训练扩散模型时使用这样一个表示允许首次在复杂度降低和细节保留之间达到近乎最优的平衡点,极大地提高了视觉保真度。

3.2 Network Inflation

T2I 扩散模型(例如,LDM)通常采用 U-Net ,这是一种基于空间下采样通道然后是带有跳跃连接的上采样通道的神经网络架构。它由堆叠的二维卷积残差块和Transformer块组成。每个Transformer块包括空间自注意层、交叉注意层和前馈网络 (FFN)。空间自注意力利用特征图中的像素位置来实现相似的相关性,而交叉注意力则考虑像素与条件输入(例如文本)之间的对应关系。形式上,给定视频帧 vi 的latent表征 ,很自然的可以想到要用self-attention机制来完成:

然后论文借助卷积来强化temporal coherence,并采用spatial self-attention来加强注意力机制,来捕捉不同视频帧的变化。

5bc913dc-cdd8-11ed-bfe3-dac502259ad0.png

为了减少计算复杂度,Q采用相同的而K和V都是通过共享的矩阵来获取:

这样计算复杂度就降低到了,相对比较可以接受。

3.3 Fine-Tuning and Inference

Fine-Tuning是使预训练的模型适应新任务或数据集的过程。在提出的方法Tune-A-Video中,文本到图像(T2I)扩散模型是在海量图像数据上预先训练的。然后,在少量的文本视频对上对模型进行微调,以从文本生成视频。Fine-Tuning过程包括使用反向传播使用新数据更新预训练模型的权重。推理是使用经过训练的模型对新数据进行预测的过程。在提出的方法中,使用经过Fine-Tuning的T2I模型进行推断,从文本生成视频。

Inference过程包括向模型输入文本,模型生成一系列静止图像。然后将静止图像组合成视频。本发明提出的方法利用高效的注意力调整和结构反演来提高所生成视频的时间一致性。

4. 实验

5be5dc88-cdd8-11ed-bfe3-dac502259ad0.png

作者为了证明方法的有效性,进行了广泛的实验,以评估所提出的方法在各种应用中的性能。这些实验是在多个数据集上进行的,包括Kinetics-600数据集、Something-Something-Something数据集和YouCook2数据集。实验中使用的评估指标包括弗雷切特入口距离(FID)、盗梦分数(IS)和结构相似度指数(SSIM)。实验结果证明了所提出的文本驱动视频生成和编辑方法的有效性。

看一下可视化的效果:

5bf6a374-cdd8-11ed-bfe3-dac502259ad0.png

5c1d8962-cdd8-11ed-bfe3-dac502259ad0.png

5. 讨论

该论文在处理输入视频中的多个物体和物体交互方面存在局限性。这是由于拟议框架中使用的文本到图像(T2I)模型的固有局限性。该论文建议使用其他条件信息,例如深度,使模型能够区分不同的物体及其相互作用。但是,这种研究途径留待将来使用。

6. 结论

该论文介绍了一项名为 One-Shot Video Tuning 的从文本生成视频的新任务。该任务涉及仅使用一对文本视频和预先训练的模型来训练视频生成器。拟议的框架Tune-A-Video对于文本驱动的视频生成和编辑既简单又有效。该论文还提出了一种有效的调优策略和结构反演,以生成时间一致的视频。实验表明,所提出的方法在广泛的应用中取得了显著成果。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像数据
    +关注

    关注

    0

    文章

    50

    浏览量

    11205
  • 模型
    +关注

    关注

    1

    文章

    3029

    浏览量

    48345
  • 生成器
    +关注

    关注

    7

    文章

    313

    浏览量

    20834

原文标题:Tune-A-Video论文解读(小黑子的狂欢)

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    App Tune-up Kit Pofiler工具使用介绍

    介绍APP Tune-up Kit 是高通公司开发的一款分析任何Android 应用分析的工具,不同于Snapdragon Profiler它操作简单,界面简洁,只需要按一下,就可以在60秒内获取
    发表于 09-21 10:49

    Auto Tune Vocal EQ均衡器永久版发布

    Antares在今年6月发布了这款均衡器,起初一直是Auto-Tune Unlimited订阅版的一部分,现在推出了永久版授权。厂家宣称在2022年9月6号-10月6号限时销售永久版,零售价格为
    发表于 09-11 08:29

    Composite Video Separation Tec

    The most fundamental job of a video decoder is to separatethe color from the black and white
    发表于 08-19 13:37 22次下载

    Video Amplifier with Sync Stri

    off the sync pulse and performing DC restoration. It is configured for a typical video cable driver application driving
    发表于 09-21 22:58 21次下载

    EL4501 pdf datasheet (Video Fr

    The EL4501 is a highly-integrated Video Front End (VFE)incorporating all of the key signal
    发表于 01-16 20:55 25次下载

    allegro如何走蛇行线(delay tune)

    蛇行线(delay tune)1. 前言蛇行线可在Allegro 中藉由elong_by_pick 自动完成.若想以半自动方式则可用delay tune 命令.2. 說明在15.1 中须下载新版ISR.Options 选项?
    发表于 09-06 11:30 0次下载

    Video and Image Processing Up

    from a standard definition video stream innational television system committee (NTSC) format to a high definition
    发表于 11-24 11:12 11次下载

    Digital Video Standards The 19

    The world of digital video standards is a complicated one,with many different standards groups
    发表于 07-11 16:27 3次下载

    Design and Layout of a Video G

    Design and Layout of a Video Graphics System for Reduced EMI
    发表于 10-02 09:19 28次下载
    Design and Layout of <b class='flag-5'>a</b> <b class='flag-5'>Video</b> G

    How to Tune and Antenna Match

    How to Tune and Antenna Match the MAX1470 Circuit The MAX1470evkit is tuned and tested at the factory to obtain the highest se
    发表于 09-17 16:16 1497次阅读
    How to <b class='flag-5'>Tune</b> and Antenna Match

    X1_Tune_v1.3

    X1 Tune v1.3X1 Tune v1.3X1 Tune v1.3
    发表于 01-15 17:08 4次下载

    使用Atmel Studio 6中的优化向导来调整QTouter设计

    This video shows you how to tune a Qtouch design for optimal performance using the Tuning Wizard
    的头像 发表于 07-06 02:31 3056次阅读

    openEuler Summit开发者峰会:基于AI的操作系统性能调优引擎A-Tune

    openEuler Summit开发者峰会:基于AI的操作系统性能调优引擎A-Tune
    的头像 发表于 11-10 10:51 1502次阅读
    openEuler Summit开发者峰会:基于AI的操作系统性能调优引擎<b class='flag-5'>A-Tune</b>

    欧拉(openEuler)Summit 2021:欧拉demo分享——A-Tune

    欧拉(openEuler)Summit 2021上,关于A-Tune:基于AI的操作系统性能调优引擎案例分享。
    的头像 发表于 11-10 10:18 1316次阅读
    欧拉(openEuler)Summit 2021:欧拉demo分享——<b class='flag-5'>A-Tune</b>

    A-Tune系统性能自优化软件

    gitee-A-Tune.zip
    发表于 04-28 10:18 1次下载
    <b class='flag-5'>A-Tune</b>系统性能自优化软件