DVD－GAN机器人用AI生成高度逼真视频的一次重要的尝试-电子发烧友网

近日，DeepMind的研究人员研发了一个名叫Dual Video Discriminator GAN（DVD－GAN）的人工智能模型，该模型通过能够通过学习一系列的YouTube视频数据集，生成高度逼真且连贯的256 x 256像素视频，最长可达48帧。

目前，DVD－GAN的研究成果已于美国时间2019年7月15日发表在arxiv上，名为《在复杂数据集上的高效视频生成（Efficient Video Generation on Complex Datasets）》。

AI造假视频比造假图片更难

最近，俄罗斯AI研究人员开发的FaceApp着实大火了一把，这款应用通过人工智能技术能够改变用户自拍照的年龄、外貌、发色和性别，甚至可以生成虚构的人物照片。这直接让人们近距离地感受了人工智能技术给我们的生活带来的乐趣。

但是否有人想过，有朝一日这些技术也能应用在视频领域呢？

如果说BigGAN是DeepMind在图像领域开发的能够生成高度逼真图像的图像生成器，那么DeepMind研究人员们开发的DVD－GAN，就是人工智能在视频剪辑生成领域的最新突破。

研究人员在论文中表示，生成自然视频对生成式建模来说是一个较大的挑战，同时还会受到数据复杂性和计算需求增加的困扰。

因此，之前业界的研究人员们在研究视频生成领域时，几乎都围绕着相对简单的数据集，或者采用有限的时间信息来降低任务的复杂程度。

而这次，DeepMind的研究人员们主要针对视频合成和视频预测的任务，将生成图像模型的强大功能和逼真效果扩展到视频领域。

DVD－GAN：基于BigGAN模型结构

研究人员们基于BigGAN的模型结构，构建了DVD－GAN的系统，并引入了一系列用于视频生成的调整，使DVD－GAN能够在Kinetics－600上进行训练。

Kinetics－600是一组由50万段10秒高分辨率的YouTube视频剪辑汇编而成的训练数据集，它最初是为识别人类动作而制作的，比目前其他常用的语料库还大一个数量级。

同时，研究人员们表示，Kinetics－600具有多样化特征，能消除他们对过拟合（Overfitting）的担忧。过拟合主要是指机器学习时选择的模型所包含的参数过多，以至出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象。

另一方面，DeepMind的研究人员们利用生成对抗以提供一个能生成动作的学习信号。

此外，DVD－GAN还有一个单独的Transformer模块，它可以让学习信息在整合AI模型中传播。

训练12至96小时即可生成视频

研究论文表明，在经过Google第三代TPU训练了12至96个小时后，DVD－GAN可以成功地生成视频，这些视频内容包含了物体的组成和运动，以及各种复杂的纹理。

不足的是，DVD－GAN生成的视频内容有时较为“诡异”，例如生成的物体和人形奇形怪状，甚至人体忽长忽短地变化。

但研究人员指出，当把DVD－GAN放在UCF－101（一个包含13320个人类动作视频的较小数据集）上进行评估后，DVD－GAN生成的样本初始值最高为32．97。

DeepMind的研究人员们希望能进一步强调在大型复杂视频数据集上训练生成模型的好处，例如Kinetics－600。

“我们设想通过DVD－GAN在这个数据集上建立强大的基线，该基线将被用作未来建模生成领域的参考点。”研究人员表示，“尽管在不受约束的环境下持续生成逼真的视频还需要进行很多工作，但我们相信DVD－GAN是我们朝这个方向迈出的重要一步。”

网络（GANs）来区分生成样本和真实世界样本，该网络主要由生成器和判别器两部分组成。

GANs曾被应用在把文字转换成一幕幕的场景故事，或生成人造星系图像等任务中。而研究人员们这次使用的是名为BigGANs的生成对抗网络，该网络以大批量和数百万个参数而得名。

值得一提的是，DVD－GAN包含两个判别器。一个是空间判别器（Spatial Discriminator：D＿S），该判别器通过随机采样全分辨率帧并单独处理，以评估单个帧的内容和结构；另一个是时间判别器（Temporal Discriminator：D＿T），它可以提供一个能生成动作的学习信号。

此外，DVD－GAN还有一个单独的Transformer模块，它可以让学习信息在整合AI模型中传播。

结语：用AI生成高度逼真视频的一次尝试

不管是BigGAN还是FaceApp，以往的研究人员们在人工智能生成图像领域进行了许多具有突破性的研究，但在视频领域，除了AI换脸曾火了一把之外，并没有更多的突破性进展。

而DeepMind的研究人员们基于BigGAN架构和Kinetics－600训练数据集开发的DVD－GAN，利用计算高效的判别器分解，扩展到时间更长、分辨率更高的视频。就目前来说，虽然这一成果还有些许不足，但这无疑是研究人员们利用AI生成高度逼真视频的一次重要尝试。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

DVD

DVD

+关注

关注
3

文章
134

浏览量
61965
人工智能

人工智能

+关注

关注
1792

文章
47442

浏览量
239005

原文标题：[机器人频道｜大事记]你担心的就要成真，AI换脸不算啥，现在新AI可生成逼真视频

文章出处：【微信号：robovideo，微信公众号：机器人频道】欢迎添加关注！文章转载请注明出处。

【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

，一次生成深度信息。自主机器人定位任务的本质是对机器人自身状态的估计问题，包括位置，朝向，速度等问题。路径规划旨在找到从起点到目标区域的路径，确保路径的可行性和最优性。路径规划方法包括变分方法，图搜

发表于 01-04 19:22

开源项目！能够精确地行走、跳舞和执行复杂动作的机器人—Tillu

的语音识别系统响应语音指令为什么打造Tillu？打造Tillu不仅是一个项目，更是一次学习体验。通过深入探索机器人技术、编程细节以及自定义动作和表情，释放你的创造力。无论你是学生、爱好者还是创

发表于 01-02 17:24

【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

指令和当前机器人静态图像，生成一段预测的未来状态视频。从这些预测视频中，可以提取机器人的位姿信息

发表于 12-29 23:04

【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

重大数据瓶颈的严重阻碍。与主要由用户生成的输入组成且相对容易收集和汇总的 Internet 数据不同，EAI 的数据涉及机器人与其动态环境之间的复杂交互。这一根本差异意味着，虽然可以从跨数字平台的用户

发表于 12-24 00:33

《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

要给AI这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机，可以是一台自动驾驶汽车。而人形机器人则是集各类核心尖端技术于

发表于 12-19 22:26

首例AI机器人致死案震惊全球

AI机器人的安全性、友好性、是否符合积极正面的价值导向一直被质疑，现在在佛罗里达州出现了一例AI聊天机器

发表于 10-25 16:32 •964次阅读

开源项目！用ESP32做一个可爱的无用机器人

简介作者在完成硕士论文答辩后，利用空闲时间制作了一个他一直想做的机器人——可爱无用机器人。无用机器人原理是

发表于 09-03 09:34

六轴焊接机器人多久检修一次

焊接机器人多久检修一次？一、六轴焊接机器人的工作原理六轴焊接机器人是一种具备六个自由

发表于 07-09 16:31 •385次阅读

Al大模型机器人

理解能力强大: AI大模型机器人可以理解和生成自然语言，能够进行复杂的对话和语言任务。它们能够识别语言中的语义、语境和情感，并据此作出适当的回应。广泛的知识储备: 这些模型基于大规模的数据集进行训练，拥有

发表于 07-05 08:52

加速生产数据向AI机器人转化，剖析NVIDIA机器人堆栈式资源

电子发烧友网报道（文/吴子鹏）回顾历史上几次生产力革命，每一次都有标志性产物，带来巨大的生产效率提升。当然，也有一些生产力工具凭借自身潜能，在多次生产力革命周期里延续并得到强化，机器人就是一

发表于 07-03 00:02 •3384次阅读

基于百度AI大模型生态支持，极越汽车机器人迎来一次全新进化

基于百度AI大模型生态支持，极越汽车机器人又迎来了一次全新进化。3月25日，极越在北京举办AI DAY 2024。

发表于 03-28 09:52 •698次阅读

NVIDIA Isaac机器人平台升级，加速AI机器人技术革新

NVIDIA Isaac机器人平台近期实现重大升级，通过引入最新的生成式AI技术和先进的仿真技术，显著加速了AI机器人技术的发展步伐。该平台

发表于 03-27 10:36 •705次阅读

NVIDIA入局人形机器人！Isaac平台迎来重要更新

NVIDIA Isaac 机器人平台利用最新的生成式 AI 和先进的仿真技术，加速 AI 机器人技术的发展。

发表于 03-26 09:07 •1094次阅读

机器人板块强势启动，涨停潮席卷市场

春节期间，OpenAI发布首个视频生成模型Sora，带动人工智能迎来了新一波行情。而人形机器人作为AI原生应用的最佳实体，热度也随之攀升。

发表于 02-27 10:14 •199次阅读

OpenAI发布文生视频模型Sora，引领AI视频生成新纪元

在人工智能(AI)领域掀起新一轮革命浪潮的，正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的模型，以其“逼真”和“富有想象力”的

发表于 02-19 11:03 •977次阅读