0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌新作Dreamix:视频扩散模型是通用视频编辑器,效果惊艳!

CVer 来源:机器之心 2023-02-09 11:21 次阅读

AIGC 已经火了很长时间了,出现了文本生成图像、文本生成视频、图像生成视频等广泛的应用场景,如今谷歌研究院的一项新研究可以让我们根据输入视频生成其他视频了!

我们知道,生成模型和多模态视觉语言模型的进展已经为具备前所未有生成真实性和多样性的大型文本到图像模型铺平了道路。这些模型提供了新的创作过程,但仅限于合成新图像而非编辑现有图像。为了弥合这一差距,基于文本的直观编辑方法可以对生成和真实图像进行基于文本的编辑,并保留这些图像的一些原始属性。与图像类似,近来文本到视频模型也提出了很多,但使用这些模型进行视频编辑的方法却很少。 在文本指导的视频编辑中,用户提供输入视频以及描述生成视频预期属性的文本 prompt,如下图 1 所示。目标有以下三个方面,1)对齐,编辑后的视频应符合输入文本 prompt;2)保真度,编辑后的视频应保留原始视频的内容,3)质量,编辑后的视频应具备高质量。 可以看到,视频编辑比图像编辑更加具有挑战性,它需要合成新的动作,而不仅仅是修改视觉外观。此外还需要保持时间上的一致性。因此,将 SDEdit、Prompt-to-Prompt 等图像级别的编辑方法应用于视频帧上不足以实现很好的效果。

c97ae65a-a7e3-11ed-bfe3-dac502259ad0.png

在近日谷歌研究院等发表在 arXiv 的一篇论文中,研究者提出了一种新方法 Dreamix,它受到了 UniTune 的启发,将文本条件视频扩散模型(video diffusion model, VDM)应用于视频编辑。

c996adcc-a7e3-11ed-bfe3-dac502259ad0.png

Dreamix: Video Diffusion Models are General Video Editors

论文地址:https://arxiv.org/abs/2302.01329

项目主页:https://dreamix-video-editing.github.io/

文中方法的核心是通过以下两种主要思路使文本条件 VDM 保持对输入视频的高保真度。其一不使用纯噪声作为模型初始化,而是使用原始视频的降级版本,通过缩小尺寸和添加噪声仅保留低时空信息;其二通过微调原始视频上的生成模型来进一步提升对原始视频的保真度。 微调确保模型了解原始视频的高分辨率属性。对输入视频的简单微调会促成相对较低的运动可编辑性,这是因为模型学会了更倾向于原始运动而不是遵循文本 prompt。研究者提出了一种新颖的混合微调方法,其中 VDM 也在输入视频各个帧的集合上进行微调,并丢弃了它们的时序。混合微调显著提升了运动编辑的质量。 研究者进一步利用其视频编辑模型提出了一个新的图像动画框架,如下图 2 所示。该框架包含了几个步骤,比如为图像中的对象和背景设置动画、创建动态相机运动等。他们通过帧复制或几何图像变换等简单的图像处理操作来实现,从而创建粗糙的视频。接着使用 Dreamix 视频编辑器对视频进行编辑。此外研究者还使用其微调方法进行目标驱动的视频生成,也即 Dreambooth 的视频版本。

c9aa1678-a7e3-11ed-bfe3-dac502259ad0.png

在实验展示部分,研究者进行了广泛的定性研究和人工评估,展示了他们方法的强大能力,具体可参考如下动图。

c9c1c62e-a7e3-11ed-bfe3-dac502259ad0.gif

ca0b8e44-a7e3-11ed-bfe3-dac502259ad0.gif

cab5acee-a7e3-11ed-bfe3-dac502259ad0.gif

对于谷歌这项研究,有人表示,3D + 运动和编辑工具可能是下一波论文的热门主题。

cb1f10da-a7e3-11ed-bfe3-dac502259ad0.png

还有人表示:大家可以很快在预算内制作自己的的电影了,你所需要的只是一个绿幕以及这项技术:

cb39199e-a7e3-11ed-bfe3-dac502259ad0.png

方法概览 本文提出了一种新的方法用于视频编辑,具体而言: 通过逆向被破坏视频进行文本引导视频编辑 他们采用级联 VDM( Video Diffusion Models ),首先通过下采样对输入视频就行一定的破坏,后加入噪声。接下来是级联扩散模型用于采样过程,并以时间 t 为条件,将视频升级到最终的时间 - 空间分辨率。 在对输入视频进行破坏处理的这一过程中,首先需要进行下采样操作,以得到基础模型(16 帧 24 × 40),然后加入方差为cb4acffe-a7e3-11ed-bfe3-dac502259ad0.png高斯噪声,从而进一步破坏输入视频。   对于上述处理好的视频,接下来的操作是使用级联 VDM 将损坏掉的低分辨率视频映射到与文本对齐的高分辨率视频。这里的核心思想是,给定一个嘈杂的、时间空间分辨率非常低的视频,有许多完全可行的、高分辨率的视频与之对应。本文中基础模型从损坏的视频开始,它与时间 s 的扩散过程具有相同的噪声。然后该研究用 VDM 来逆向扩散过程直到时间 0。最后通过超分辨率模型对视频进行升级。  混合视频图像微调  仅利用输入视频进行视频扩散模型的微调会限制物体运动变化,相反,该研究使用了一种混合目标,即除了原始目标(左下角)之外,本文还对无序的帧集进行了微调,这是通过「masked temporal attention」来完成的,以防止时间注意力和卷积被微调(右下)。这种操作允许向静态视频中添加运动。  

cb5b667a-a7e3-11ed-bfe3-dac502259ad0.png

推理 在应用程序预处理的基础上(Aapplication Dependent Pre-processing,下图左),该研究支持多种应用,能将输入内容转换为统一的视频格式。对于图像到视频,输入图像被复制并被变换,合成带有一些相机运动的粗略视频;对于目标驱动视频生成,其输入被省略,单独进行微调以维持保真度。然后使用 Dreamix Video Editor(右)编辑这个粗糙的视频:即前面讲到的,首先通过下采样破坏视频,添加噪声。然后应用微调的文本引导视频扩散模型,将视频升级到最终的时间空间分辨率。

cb7a6520-a7e3-11ed-bfe3-dac502259ad0.png

实验结果 视频编辑:下图中 Dreamix 将动作改为舞蹈,并且外观由猴子变为熊,但视频中主体的基本属性没有变:

cb8bda80-a7e3-11ed-bfe3-dac502259ad0.gif

Dreamix 还可以生成与输入视频时间信息一致的平滑视觉修改,如下图会滑滑板的小鹿:

cbd6fd08-a7e3-11ed-bfe3-dac502259ad0.gif

图像到视频:当输入是一张图像时,Dreamix 可以使用其视频先验添加新的移动对象,如下图中添加了在有雾的森林中出现一头独角兽,并放大。

cc397f00-a7e3-11ed-bfe3-dac502259ad0.gif

小屋旁边出现企鹅:

cc73cb56-a7e3-11ed-bfe3-dac502259ad0.gif

目标驱动视频生成:Dreamix 还可以获取显示相同主题的图像集合,并以该主题为运动对象生成新的视频。如下图是一条在叶子上蠕动的毛毛虫:

ccb304ba-a7e3-11ed-bfe3-dac502259ad0.gif

除了定性分析外,该研究还进行了基线比较,主要是将 Dreamix 与 Imagen-Video、 Plug-and-Play (PnP) 两种基线方法进行对比。下表为评分结果:

ccec576a-a7e3-11ed-bfe3-dac502259ad0.png

图 8 展示了由 Dreamix 编辑的视频和两个基线示例:文本到视频模型实现了低保真度的编辑,因为它不以原始视频为条件。PnP 保留了场景,但不同帧之间缺乏一致性;Dreamix 在这三个目标上都表现良好。

cd035e2e-a7e3-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 视频
    +关注

    关注

    6

    文章

    1946

    浏览量

    72914
  • 编辑器
    +关注

    关注

    1

    文章

    806

    浏览量

    31174
  • 语言模型
    +关注

    关注

    0

    文章

    524

    浏览量

    10277

原文标题:谷歌新作Dreamix:视频扩散模型是通用视频编辑器,效果惊艳!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    图纸编辑器的基本操作

    “  之前几篇推文详细介绍了图纸编辑器的亮点功能,最后我们再介绍一下图纸编辑器的基本操作,来结束这个系列   ” 主窗口工具栏 工具栏由以下工具组成,不同操作系统的图标样式可能不同;不同版本的工具栏
    的头像 发表于 12-04 18:18 125次阅读
    图纸<b class='flag-5'>编辑器</b>的基本操作

    扩散模型的理论基础

    扩散模型的迅速崛起是过去几年机器学习领域最大的发展之一。在这本简单易懂的指南中,学习你需要知道的关于扩散模型的一切。
    的头像 发表于 10-28 09:30 396次阅读
    <b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的理论基础

    Vivado编辑器乱码问题

    我们在日常开发中经常使用sublime、vim、vs code等第三方的编辑器,这些编辑器可以使用很多插件来提高我们的编码效率,但是也往往会带来乱码的问题。我一般使用的是sublime来进行编码
    的头像 发表于 10-15 17:24 769次阅读
    Vivado<b class='flag-5'>编辑器</b>乱码问题

    vim编辑器命令模式使用方法

    Vim编辑器是一款功能强大的文本编辑器,广泛应用于程序员和开发者的日常工作中。Vim编辑器拥有多种模式,其中命令模式(Command mode)是最基本的模式之一,它允许用户执行各种命令来操作
    的头像 发表于 08-30 15:01 419次阅读

    vim编辑器如何使用

    Vim编辑器是一个功能强大的文本编辑器,它基于Vi进行改进,并增加了许多新特性。Vim编辑器的使用主要涉及其不同的工作模式及相应操作。以下是Vim编辑器的基本使用方法: 一、Vim
    的头像 发表于 08-30 14:58 448次阅读

    嵌入式学习-常用编辑器之Vim编辑器

    在Linux下我们对文本进行编辑,经常用到的编辑器就是Vi/Vim,Vi/Vim命令众多,功能强大,是大多数Linux程序员选择使用的编辑器。下面先简单介绍Vim编辑器的安装和工作模式
    发表于 08-23 09:12

    常用编辑器之Vim编辑器

    在Linux下我们对文本进行编辑,经常用到的编辑器就是Vi/Vim,Vi/Vim命令众多,功能强大,是大多数Linux程序员选择使用的编辑器。下面先简单介绍Vim编辑器的安装和工作模式
    发表于 08-22 09:48

    Sora还在PPT阶段,“中国版Sora”已经开放使用了!

    电子发烧友网报道(文/梁浩斌)今年春节期间,OpenAI的AI文字生成视频模型Sora惊艳全世界,极高的视频生成效果、长达60秒的视频生成长
    的头像 发表于 06-17 09:07 3418次阅读

    TSMaster 中 Hex 文件编辑器使用详细教程

    TSMaster软件的Hex文件编辑器提供了文件处理的功能,这一特性让使用TSMaster软件的用户可以更便捷地对Hex、bin、mot、s19和tsbinary类型的文件进行处理。本文重点讲述
    的头像 发表于 06-01 08:21 813次阅读
    TSMaster 中 Hex 文件<b class='flag-5'>编辑器</b>使用详细教程

    谷歌发布全新视频生成模型Veo与Imagen文生图模型

    谷歌近日宣布了两项重大技术进展,首先是视频生成模型Veo的正式推出。这款先进的模型能够支持生成质量更高的视频内容,让用户能够根据自己的需求设
    的头像 发表于 05-16 10:46 401次阅读

    OpenAI文生视频模型Sora要点分析

    近日,美国人工智能公司OpenAI发布了首个视频生成模型Sora。不同于此前许多AI大模型文生图或视频时,会出现人物形象前后不一致等问题
    的头像 发表于 02-22 16:37 1086次阅读
    OpenAI文生<b class='flag-5'>视频</b><b class='flag-5'>模型</b>Sora要点分析

    openai发布首个视频生成模型sora

    美国当地时间2024年2月15日 ,OpenAI正式发布文生视频模型Sora ,并发布了48个文生视频案例和技术报告 ,正式入局视频生成领域 。Sora能够根据提示词生成60s的连贯
    的头像 发表于 02-21 16:45 1267次阅读

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

    ;可以说是王炸级的文生视频模型。目前Sora模型正面向部分成员开放,以评估关键领域的潜在危害或风险。 Sora是一种扩散模型,相较其他
    的头像 发表于 02-18 17:41 993次阅读

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构,旨在实现
    的头像 发表于 02-04 13:49 1039次阅读

    谷歌推出能一次生成完整视频扩散模型

    该公司指出,当前众多文生视频模型普遍存在无法生成长时、高品质及动作连贯的问题。这些模型往往采用“分段生成视频”策略,即先生成少量关键帧,再借助时间超级分辨率(TSM)技术生成其间的
    的头像 发表于 01-29 11:14 540次阅读