基于扩散模型的视频合成新模型，加特效杠杠的！-电子发烧友网

从文本生成图像，再到给视频加特效，下一个 AIGC 爆发点要出现了吗？

相信很多人已经领会过生成式 AI 技术的魅力，特别是在经历了 2022 年的 AIGC 爆发之后。以 Stable Diffusion 为代表的文本到图像生成技术一度风靡全球，无数用户涌入，借助 AI 之笔表达自己的艺术想象……

相比于图像编辑，视频编辑是一个更具有挑战性的议题，它需要合成新的动作，而不仅仅是修改视觉外观，此外还需要保持时间上的一致性。

在这条赛道上探索的公司也不少。前段时间，谷歌发布的 Dreamix 以将文本条件视频扩散模型（video diffusion model, VDM）应用于视频编辑。

近日，曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」，该模型通过应用文本 prompt 或参考图像指定的任何风格，可将现有视频转化为新视频。

论文链接：https://arxiv.org/pdf/2302.03011

项目主页：https://research.runwayml.com/gen1

2021 年，Runway 与慕尼黑大学的研究人员合作，建立了 Stable Diffusion 的第一个版本。随后英国的一家初创公司 Stability AI 介入，资助了在更多数据上训练模型所需的计算费用。2022 年，Stability AI 将 Stable Diffusion 纳入主流，将其从一个研究项目转变为一个全球现象。

Runway 表示，希望 Gen-1 能像 Stable Diffusion 在图像上所做的那样为视频服务。

「我们已经看到图像生成模型的大爆炸，」Runway 首席执行官兼联合创始人 Cristóbal Valenzuela 说。「我真的相信，2023 年将是视频之年。」

具体来说，Gen-1 支持几种编辑模式：

1、风格化。将任何图像或 prompt 的风格转移到视频的每一帧。

2、故事板。将模型变成完全风格化和动画的渲染。

3、遮罩。分离视频中的主题并使用简单的文本 prompt 对其进行修改。

4、渲染。通过应用输入图像或 prompt，将无纹理渲染变成逼真的输出。

5、定制化。通过自定义模型以获得更高保真度的结果，释放 Gen-1 的全部功能。

在该公司官方网站上发布的 demo 中，展示了 Gen-1 如何丝滑地更改视频风格，来看几个示例。

比如将「街道上的人」变成「粘土木偶」，只需要一行 prompt：

或者将「堆放在桌上的书」变成「夜晚的城市景观」：

从「雪地上的奔跑」到「月球漫步」：

年轻女孩，竟然秒变古代先哲：

论文细节

视觉特效和视频编辑在当代媒体领域无处不在。随着以视频为中心的平台的普及，对更直观、性能更强的视频编辑工具的需求也在增加。然而，由于视频数据的时间性，在这种格式下的编辑仍然是复杂和耗时的。最先进的机器学习模型在改善编辑过程方面显示出了巨大的前景，但很多方法不得不在时间一致性和空间细节之间取得平衡。

由于引入了在大规模数据集上训练的扩散模型，用于图像合成的生成方法最近在质量和受欢迎程度上经历了一个快速增长阶段。一些文本条件模型，如 DALL-E 2 和 Stable Diffusion，使新手只需输入一个文本 prompt 就能生成详细的图像。潜在扩散模型提供了有效的方法，通过在感知压缩的空间中进行合成来生成图像。

在本论文中，研究者提出了一个可控的结构和内容感知的视频扩散模型，该模型是在未加字幕的视频和配对的文本 - 图像数据的大规模数据集上训练的。研究者选择用单目深度估计来表征结构，用预训练的神经网络预测的嵌入来表征内容。

该方法在其生成过程中提供了几种强大的控制模式：首先，与图像合成模型类似，研究者训练模型使推断出的视频内容，如其外观或风格，与用户提供的图像或文本 prompt 相匹配（图 1）。其次，受扩散过程的启发，研究者对结构表征应用了一个信息掩蔽过程，以便能够选择模型对给定结构的支持程度。最后，研究者通过一个自定义的指导方法来调整推理过程，该方法受到无分类指导的启发，以实现对生成片段的时间一致性的控制。

总体来说，本研究的亮点如下：

通过在预训练图像模型中引入时间层，并在图像和视频上进行联合训练，将潜在扩散模型扩展到了视频生成领域；

提出了一个结构和内容感知的模型，在样本图像或文本的指导下修改视频。编辑工作完全是在推理时间内进行的，不需要额外对每个视频进行训练或预处理；

展示了对时间、内容和结构一致性的完全控制。该研究首次表明，对图像和视频数据的联合训练能够让推理时间控制时间的一致性。对于结构的一致性，在表征中不同的细节水平上进行训练，可以在推理过程中选择所需的设置；

在一项用户研究中，本文的方法比其他几种方法更受欢迎；

通过对一小部分图像进行微调，可以进一步定制训练过的模型，以生成更准确的特定主体的视频。

方法

就研究目的而言，从内容和结构的角度来考虑一个视频将是有帮助的。对于结构，此处指的是描述其几何和动态的特征，比如主体的形状和位置，以及它们的时间变化。对于内容，此处将其定义为描述视频的外观和语义的特征，比如物体的颜色和风格以及场景的照明。Gen-1 模型的目标是编辑视频的内容，同时保留其结构。

为了实现这一目标，研究者学习了视频 x 的生成模型 p (x|s, c)，其条件是结构表征（用 s 表示）和内容表征（用 c 表示）。他们从输入视频推断出形状表征 s，并根据描述编辑的文本 prompt c 对其进行修改。首先，描述了对生成模型的实现，作为一个条件潜在的视频扩散模型，然后，描述了对形状和内容表征的选择。最后，讨论了模型的优化过程。

模型结构如图 2 所示。

实验

为了评估该方法，研究者采用了 DAVIS 的视频和各种素材。为了自动创建编辑 prompt，研究者首先运行了一个字幕模型来获得原始视频内容的描述，然后使用 GPT-3 来生成编辑 prompt。

定性研究

如图 5 所示，结果证明，本文的方法在一些不同的输入上表现良好。

用户研究

研究者还使用 Amazon Mechanical Turk（AMT）对 35 个有代表性的视频编辑 prompt 的评估集进行了用户研究。对于每个样本，均要求 5 个注解者在基线方法和本文方法之间对比对视频编辑 prompt 的忠实度（「哪个视频更好地代表了所提供的编辑过的字幕？」），然后以随机顺序呈现，并使用多数票来决定最终结果。

结果如图 7 所示：

定量评估

图 6 展示了每个模型使用本文框架一致性和 prompt 一致性指标的结果。本文模型在这两方面的表现都倾向于超越基线模型（即，在图的右上角位置较高）。研究者还注意到，在基线模型中增加强度参数会有轻微的 tradeoff：更大的强度缩放意味着更高的 prompt 一致性，代价是更低的框架一致性。同时他们还观察到，增加结构缩放会导致更高的 prompt 一致性，因为内容变得不再由输入结构决定。

定制化

图 10 展示了一个具有不同数量的定制步骤和不同水平的结构依附性 ts 的例子。研究者观察到，定制化提高了对人物风格和外观的保真度，因此，尽管使用具有不同特征的人物的驱动视频，但结合较高的 ts 值，还是可以实现精确的动画效果。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3413

浏览量
49471
图像生成

图像生成

+关注

关注
0

文章
22

浏览量
6933

原文标题：Stable Diffusion公司新作Gen-1：基于扩散模型的视频合成新模型，加特效杠杠的！

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

基于扩散模型的图像生成过程

近年来，扩散模型在文本到图像生成方面取得了巨大的成功，实现了更高图像生成质量，提高了推理性能，也可以激发扩展创作灵感。不过仅凭文本来控制图像的生成往往得不到想要的结果，比如具体的人物姿势、面部表情

发表于 07-17 11:00 •3015次阅读

基于<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的图像生成过程

如何在PyTorch中使用扩散模型生成图像

除了顶尖的图像质量，扩散模型还带来了许多其他好处，包括不需要对抗性训练。对抗训练的困难是有据可查的。在训练效率的话题上，扩散模型还具有可伸缩性和并行性的额外好处。

发表于 11-22 15:51 •590次阅读

如何在PyTorch中使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>生成图像

谐波加噪声激励模型的语音合成算法

传统基于隐马尔科夫模型（ HMM）的语音合成算法使用高斯白噪声和脉冲串来表示清浊音的激励信号，合成的语音较为嘈杂。为提高合成音质，基于谐波加

发表于 03-20 10:39 •1次下载

扩散模型在视频领域表现如何？

在视频生成领域，研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑，显示出非常有希

发表于 04-13 10:04 •1787次阅读

如何改进和加速扩散模型采样的方法1

　　尽管扩散模型实现了较高的样本质量和多样性，但不幸的是，它们在采样速度方面存在不足。这限制了扩散模型在实际应用中的广泛采用，并导致了从这些模型

发表于 05-07 14:25 •2481次阅读

如何改进和加速扩散模型采样的方法2

　　事实上，扩散模型已经在深层生成性学习方面取得了重大进展。我们预计，它们可能会在图像和视频处理、 3D 内容生成和数字艺术以及语音和语言建模等领域得到实际应用。它们还将用于药物发现和材料设计等领域，以及其他各种重要应用。我们认

发表于 05-07 14:38 •3414次阅读

蒸馏无分类器指导扩散模型的方法

去噪扩散概率模型（DDPM）在图像生成、音频合成、分子生成和似然估计领域都已经实现了 SOTA 性能。同时无分类器（classifier-free）指导进一步提升了扩散

发表于 10-13 10:35 •1313次阅读

英伟达发布视频AI大模型论文，自动驾驶是其潜在应用领域

电子发烧友网报道（文/李弯弯）近日，英伟达与慕尼黑大学等院校的研究人员联合发布了一篇有关视频潜在扩散模型（VideoLDM，Latent Diffusion Model）的论文，该模型

发表于 04-23 00:02 •4885次阅读

基于文本到图像模型的可控文本到视频生成

1. 论文信息 2. 引言大规模扩散模型在文本到图像合成方面取得了巨大的突破，并在创意应用方面取得了成功。一些工作试图在视频领域复制这个成功，即在野外世界建模高维复杂

发表于 06-14 10:39 •1076次阅读

如何加速生成2 PyTorch扩散模型

加速生成2 PyTorch扩散模型

发表于 09-04 16:09 •1202次阅读

基于DiAD扩散模型的多类异常检测工作

现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近，扩散模型因其强大的生成能力而闻名，因此本文作者希望通过扩散模

发表于 01-08 14:55 •1705次阅读

谷歌推出AI扩散模型Lumiere

近日，谷歌研究院重磅推出全新AI扩散模型Lumiere，这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构，旨在实现视频生成的一次性完成，同时保证

发表于 02-04 13:49 •1154次阅读

谷歌模型合成软件有哪些

谷歌模型合成软件通常指的是谷歌提供的用于创建、修改和共享3D模型的软件。目前，谷歌推出的模型合成软件中最知名的是Google SketchU

发表于 02-29 18:20 •1539次阅读

扩散模型的理论基础

扩散模型的迅速崛起是过去几年机器学习领域最大的发展之一。在这本简单易懂的指南中，学习你需要知道的关于扩散模型的一切。

发表于 10-28 09:30 •858次阅读

基于移动自回归的时序扩散预测模型

在人工智能领域，目前有很多工作采用自回归方法来模拟或是替代扩散模型，其中视觉自回归建模（Visual AutoRegressive modeling，简称 VAR）就是其中的典型代表，该工作利用自

发表于 01-03 14:05 •275次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

基于扩散模型的视频合成新模型，加特效杠杠的！

评论

基于扩散模型的图像生成过程

如何在PyTorch中使用扩散模型生成图像

谐波加噪声激励模型的语音合成算法

扩散模型在视频领域表现如何？

如何改进和加速扩散模型采样的方法1

如何改进和加速扩散模型采样的方法2

蒸馏无分类器指导扩散模型的方法

英伟达发布视频AI大模型论文，自动驾驶是其潜在应用领域

基于文本到图像模型的可控文本到视频生成

如何加速生成2 PyTorch扩散模型

基于DiAD扩散模型的多类异常检测工作

谷歌推出AI扩散模型Lumiere

谷歌模型合成软件有哪些

扩散模型的理论基础

基于移动自回归的时序扩散预测模型