0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

生成视频如此简单,给句提示就行,还能在线试玩

OpenCV学堂 来源:机器之心 2023-05-15 16:18 次阅读

动动嘴皮子就能生成视频的新研究来了。

你输入文字,让 AI 来生成视频,这种想法在以前只出现在人们的想象中,现在,随着技术的发展,这种功能已经实现了。 近年来,生成式人工智能计算机视觉领域引起巨大的关注。随着扩散模型的出现,从文本 Prompt 生成高质量图像,即文本到图像的合成,已经变得非常流行和成功。 最近的研究试图通过在视频领域复用文本到图像扩散模型,将其成功扩展到文本到视频生成和编辑的任务。虽然这样的方法取得了可喜的成果,但大部分方法需要使用大量标记数据进行大量训练,这可能对许多用户来讲太过昂贵。 为了使视频生成更加廉价,Jay Zhangjie Wu 等人去年提出的 Tune-A-Video 引入了一种机制,可以将 Stable Diffusion (SD) 模型应用到视频领域。只需要调整一个视频,从而让训练工作量大大减少。虽然这比以前的方法效率提升很多,但仍需要进行优化。此外,Tune-A-Video 的生成能力仅限于 text-guided 的视频编辑应用,而从头开始合成视频仍然超出了它的能力范围。 本文中,来自 Picsart AI Resarch (PAIR) 、得克萨斯大学奥斯汀分校等机构的研究者在 zero-shot 以及无需训练的情况下,在文本到视频合成的新问题方向上向前迈进了一步,即无需任何优化或微调的情况下根据文本提示生成视频。

f0e90fc6-f19b-11ed-90ce-dac502259ad0.png

论文地址:https://arxiv.org/pdf/2303.13439.pdf

项目地址:https://github.com/Picsart-AI-Research/Text2Video-Zero

试用地址:https://huggingface.co/spaces/PAIR/Text2Video-Zero

下面我们看看效果如何。例如一只熊猫在冲浪;一只熊在时代广场上跳舞:

f0f857ce-f19b-11ed-90ce-dac502259ad0.gif

该研究还能根据目标生成动作:

f10abcca-f19b-11ed-90ce-dac502259ad0.gif

此外,还能进行边缘检测

f1240784-f19b-11ed-90ce-dac502259ad0.gif

本文提出的方法的一个关键概念是修改预训练的文本到图像模型(例如 Stable Diffusion),通过时间一致的生成来丰富它。通过建立在已经训练好的文本到图像模型的基础上,本文的方法利用它们出色的图像生成质量,增强了它们在视频领域的适用性,而无需进行额外的训练。 为了加强时间一致性,本文提出两个创新修改:(1)首先用运动信息丰富生成帧的潜在编码,以保持全局场景和背景时间一致;(2) 然后使用跨帧注意力机制来保留整个序列中前景对象的上下文、外观和身份。实验表明,这些简单的修改可以生成高质量和时间一致的视频(如图 1 所示)。

f16d8a26-f19b-11ed-90ce-dac502259ad0.png

尽管其他人的工作是在大规模视频数据上进行训练,但本文的方法实现了相似甚至有时更好的性能(如图 8、9 所示)。

f184bf3e-f19b-11ed-90ce-dac502259ad0.png

f1900fb0-f19b-11ed-90ce-dac502259ad0.png

本文的方法不仅限于文本到视频的合成,还适用于有条件的(见图 6、5)和专门的视频生成(见图 7),以及 instruction-guided 的视频编辑,可以称其为由 Instruct-Pix2Pix 驱动的 Video Instruct-Pix2Pix(见图 9)。

f19f8dbe-f19b-11ed-90ce-dac502259ad0.png

f1b278ca-f19b-11ed-90ce-dac502259ad0.png

f1b995b0-f19b-11ed-90ce-dac502259ad0.png

方法简介 在这篇论文中,本文利用 Stable Diffusion (SD)的文本到图像合成能力来处理 zero-shot 情况下文本到视频的任务。由于需要生成视频而不是图像,SD 应该在潜在代码序列上进行操作。朴素的方法是从标准高斯分布独立采样 m 个潜在代码,即f1c32a76-f19b-11ed-90ce-dac502259ad0.png N (0, I) ,并应用 DDIM 采样以获得相应的张量f1ca8104-f19b-11ed-90ce-dac502259ad0.png,其中 k = 1,…,m,然后解码以获得生成的视频序列f1d2f190-f19b-11ed-90ce-dac502259ad0.png

f1de30e6-f19b-11ed-90ce-dac502259ad0.png

。然而,如图 10 的第一行所示,这会导致完全随机的图像生成,仅共享f1e6ee70-f19b-11ed-90ce-dac502259ad0.png所描述的语义,而不具有物体外观或运动的一致性。  

f1ebfde8-f19b-11ed-90ce-dac502259ad0.png

为了解决这个问题,本文建议采用以下两种方法:(i)在潜在编码f1f3d0c2-f19b-11ed-90ce-dac502259ad0.png之间引入运动动态,以保持全局场景的时间一致性;(ii)使用跨帧注意力机制来保留前景对象的外观和身份。下面详细描述了本文使用的方法的每个组成部分,该方法的概述可以在图 2 中找到。  

f1fbca70-f19b-11ed-90ce-dac502259ad0.png

注意,为了简化符号,本文将整个潜在代码序列表示为:f20eb2e8-f19b-11ed-90ce-dac502259ad0.png。  实验 定性结果  Text2Video-Zero 的所有应用都表明它成功生成了视频,其中全局场景和背景具有时间一致性,前景对象的上下文、外观和身份在整个序列中得到了保持。   在文本转视频的情况下,可以观察到它生成与文本提示良好对齐的高质量视频(见图 3)。例如,绘制的熊猫可以自然地在街上行走。同样,使用额外的边缘或姿势指导 (见图 5、图 6 和图 7),生成了与 Prompt 和指导相匹配的高质量视频,显示出良好的时间一致性和身份保持。  

f21ad00a-f19b-11ed-90ce-dac502259ad0.png

在 Video Instruct-Pix2Pix(见图 1)的情况下,生成的视频相对于输入视频具有高保真,同时严格遵循指令。 与 Baseline 比较 本文将其方法与两个公开可用的 baseline 进行比较:CogVideo 和 Tune-A-Video。由于 CogVideo 是一种文本到视频的方法,本文在纯文本引导的视频合成场景中与它进行了比较;使用 Video Instruct-Pix2Pix 与 Tune-A-Video 进行比较。 为了进行定量对比,本文使用 CLIP 分数对模型评估,CLIP 分数表示视频文本对齐程度。通过随机获取 CogVideo 生成的 25 个视频,并根据本文的方法使用相同的提示合成相应的视频。本文的方法和 CogVideo 的 CLIP 分数分别为 31.19 和 29.63。因此,本文的方法略优于 CogVideo,尽管后者有 94 亿个参数并且需要对视频进行大规模训练。 图 8 展示了本文提出的方法的几个结果,并提供了与 CogVideo 的定性比较。这两种方法在整个序列中都显示出良好的时间一致性,保留了对象的身份以及背景。本文的方法显示出更好的文本 - 视频对齐能力。例如,本文的方法在图 8 (b) 中正确生成了一个人在阳光下骑自行车的视频,而 CogVideo 将背景设置为月光。同样在图 8 (a) 中,本文的方法正确地显示了一个人在雪地里奔跑,而 CogVideo 生成的视频中雪地和奔跑的人是看不清楚的。 Video Instruct-Pix2Pix 的定性结果以及与 per-frame Instruct-Pix2Pix 和 Tune-AVideo 在视觉上的比较如图 9 所示。虽然 Instruct-Pix2Pix 每帧显示出良好的编辑性能,但它缺乏时间一致性。这在描绘滑雪者的视频中尤其明显,视频中的雪和天空使用不同的样式和颜色绘制。使用 Video Instruct-Pix2Pix 方法解决了这些问题,从而在整个序列中实现了时间上一致的视频编辑。 虽然 Tune-A-Video 创建了时间一致的视频生成,但与本文的方法相比,它与指令指导的一致性较差,难以创建本地编辑,并丢失了输入序列的细节。当看到图 9 左侧中描绘的舞者视频的编辑时,这一点变得显而易见。与 Tune-A-Video 相比,本文的方法将整件衣服画得更亮,同时更好地保留了背景,例如舞者身后的墙几乎保持不变。Tune-A-Video 绘制了一堵经过严重变形的墙。此外,本文的方法更忠实于输入细节,例如,与 Tune-A-Video 相比,Video Instruction-Pix2Pix 使用所提供的姿势绘制舞者(图 9 左),并显示输入视频中出现的所有滑雪人员(如图 9 右侧的最后一帧所示)。Tune-A-Video 的所有上述弱点也可以在图 23、24 中观察到。

f22d75ca-f19b-11ed-90ce-dac502259ad0.png

f239bf56-f19b-11ed-90ce-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1091

    浏览量

    40669
  • 模型
    +关注

    关注

    1

    文章

    3406

    浏览量

    49457
  • 计算机视觉
    +关注

    关注

    8

    文章

    1702

    浏览量

    46225

原文标题:生成视频如此简单,给句提示就行,还能在线试玩

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    高清端在线视频聊天插件软件平台

    聊天记录。可以方便快捷地将信息保存下来。·音频视频: MSQ能在进行文字交流的同时进行视频与音频交流,·文件传输: 通过MSQ还能进行实时文件传输,并且支持断点续传。·虚拟
    发表于 12-16 11:02

    [转载]【试玩】Android系统(安兔兔跑分 和 播放视频

    [转载]【试玩】Android系统(安兔兔跑分 和 播放视频)转自lemaker团队oliver 版权保护1. 首先来张烧录好的Android系统截图吧,有木有很炫酷~2用安兔兔跑了一下分3.插上
    发表于 08-09 20:45

    视频】如何调试LabVIEW生成的EXE程序

    1.txt拷贝到和EXE相同目录下。这时,“怪事”发生了。弹出了错误。提示文件路径问题。。。 新手可能要问了。为什么源代码可以,exe不可以? 这里大家解释一下,你不该用 那个 获取当前vi路径 很多
    发表于 06-21 10:29

    【MiCO分享贴】MiCOKit-3288开箱试玩

    上电,通过app设置wifi连接密码 等一会就连上了 点LED图标进入LED控制界面 可以调节颜色,亮度,效果还不错 再来个试玩视频http://v.youku.com/v_show/id_XMTI5MTkzMzE4NA==.html
    发表于 09-10 09:03

    求大神几个VHDL写的基于NIOS II IP核源码,简单就行

    求大神几个VHDL写的基于NIOS IIIP核源码,简单就行,比如IIC AD什么的,多谢
    发表于 04-11 21:19

    vivado在线调试

    DSP的CCS软件在线调试,不仅能观察数据,还能在线修改参数值,我想问一下vivado在线调试有这个功能吗,我看见debug好像只能在线观察,我想把bit文件下载到板上,我不仅要观察,
    发表于 12-20 14:03

    labview生成安装包不能在win7上运行?

    奇怪不知道为什么labview2020生成安装包,分明设置的win7 sp1以上可以使用但是实际安装的时候却提示这个上周导出的安装包还能在win7上用,那时候安装包大小大概160m,现在莫名其妙变成了200多m,我也没更新系统软
    发表于 09-18 10:51

    人工智能在视频应用中的实践探索,涉及编解码器、超分辨率等

    人工智能热度很高,但泡沫也很大。人工智能在视频领域的应用已经走入寻常人的生活,人脸识别、视频自动抠像技术已经比较成熟。此外,人工智能还能视频
    的头像 发表于 01-18 13:56 9106次阅读
    人工智<b class='flag-5'>能在</b><b class='flag-5'>视频</b>应用中的实践探索,涉及编解码器、超分辨率等

    值得收藏!10种在线免费压缩视频的绝佳方案

    在线压缩视频文件不仅不受设备限制,而且操作非常简单在线压缩工具无需下载或安装即可直接通过浏览器工作。但是,在线工具在很多方面都有其局限性,
    的头像 发表于 11-06 09:03 2.8w次阅读

    Vyond推出首款基于提示的脚本和视频创建器

    VyondGo 是一款新的脚本和视频创建应用程序,将集成到Vyond的人工智能视频创建平台中。借助易于使用、基于提示的界面,用户可以根据几个简单
    的头像 发表于 07-12 10:32 887次阅读

    配电系统智能在线监测

    配电系统智能在线监测是指采用先进的传感器、通信、物联网、人工智能等技术,对配电系统的设备(如变压器、断路器、配电线路等)和电力运行状态(如电压、电流、功率因数、温度、湿度等)进行实时监测和预警。配电
    的头像 发表于 09-28 13:58 3079次阅读
    配电系统智<b class='flag-5'>能在线</b>监测

    文生视频Pika 1.0爆火!一生成视频,普通人也能当“导演”

    几乎不需要任何门槛,用户只需要输入一话,就可以生成想要的各种风格的视频,并通过简单的描述,更改视频中的形象和风格。   Pika labs
    的头像 发表于 12-01 01:08 3990次阅读
    文生<b class='flag-5'>视频</b>Pika 1.0爆火!一<b class='flag-5'>句</b>话<b class='flag-5'>生成</b><b class='flag-5'>视频</b>,普通人也能当“导演”

    openai发布首个视频生成模型sora

    美国当地时间2024年2月15日 ,OpenAI正式发布文生视频模型Sora ,并发布了48个文生视频案例和技术报告 ,正式入局视频生成领域 。Sora能够根据提示
    的头像 发表于 02-21 16:45 1447次阅读

    生成式人工智能在教育中的应用

    生成式人工智能在教育中的应用日益广泛,为教育领域带来了诸多变革和创新。以下是对生成式人工智能在教育中的几个主要应用方面的详细阐述:
    的头像 发表于 09-16 16:07 1611次阅读

    OpenAI开放Sora视频生成模型

    升级,准备迎接广大用户的深入探索与广泛应用。 据官方公告介绍,Sora Turbo作为Sora的升级版本,具备强大的视频生成能力。它能够根据用户的文本提示,快速创建出最长达20秒的高清视频片段。更令人惊喜的是,Sora Turb
    的头像 发表于 12-10 11:16 419次阅读