3个神经网络，让蒙娜丽莎活起来-电子发烧友网

还记得哈利・波特第一次来到霍格沃茨看到墙上那些既会动又会说话的挂画是多么惊讶吗？如果我们可以将挂画 “复活”，和 500 多年前的蒙娜丽莎来场穿越时空的对话会怎样呢？感谢 AI 技术，把画 “复活” 不再是梦！

名画《蒙娜丽莎的微笑》，会动了！

梦娜丽莎转过头，嘴里说着话，微微眨了眨眼，脸上带着温婉的微笑。

是的，《哈利·波特》世界中”会动的画“魔法实现了！来自三星AI中心(Samsung AI Center)和莫斯科斯的Skolkovo 科学技术研究所的一组研究人员，开发了一个能将让JPEG变GIF的AI系统。

《哈利·波特》中守卫格兰芬多学院休息室的胖夫人画像

更牛逼的是，该技术完全无需3D建模，仅需一张图片就能训练出惟妙惟肖的动画。研究人员称这种学习方式为“few-shot learning"。

当然，如果有多几张照片——8张或32张——创造出来动图效果就更逼真了。比如：

爱因斯坦给你讲物理：

玛丽莲梦露和你 flirt：

本周，三星AI实验室的研究人员发表了一篇题为 “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models” 的论文，概述了这种技术。该技术基于卷积神经网络，其目标是获得一个输入源图像，模拟目标输出视频中某个人的运动，从而将初始图像转换为人物正在说话的短视频。

论文一发表马上引起轰动，毕竟这项技术创造了巨大的想象空间！

类似这样的项目有很多，所以这个想法并不特别新颖。但在这篇论文中，最有趣的是，该系统不需要大量的训练示例，而且系统只需要看一次图片就可以运行。这就是为什么它让《蒙娜丽莎》活起来。

3个神经网络，让蒙娜丽莎活起来

这项技术采用“元学习”架构，如下图所示：

图2：“让照片动起来”元学习架构

具体来说，涉及三个神经网络：

首先，嵌入式网络映射输入图像中的眼睛、鼻子、嘴巴大小等信息，并将其转换为向量；

其次，生成式网络通过绘制人像的面部地标(face landmarks)来复制人在视频中的面部表情；

第三，鉴别器网络将来自输入图像的嵌入向量粘贴到目标视频的landmark上，使输入图像能够模拟视频中的运动。

最后，计算“真实性得分”。该分数用于检查源图像与目标视频中的姿态的匹配程度。

元学习过程：只需1张输入图像

研究人员使用VoxCeleb2数据集对这个模型进行了预训练，这是一个包含许多名人头像的数据库。在这个过程中，前面描述的过程是一样的，但是这里的源图像和目标图像只是同一视频的不同帧。

因此，这个系统不是让一幅画去模仿视频中的另一个人，而是有一个可以与之比较的ground truth。通过持续训练，直到生成的帧与训练视频中的真实帧十分相似为止。

预训练阶段允许模型在只有很少示例的输入上工作。哪怕只有一张图片可用时，结果也不会太糟，但当有更多图片可用时，结果会更加真实。

实验和结果

研究人员使用2个数据集分别进行定量和定性评估：VoxCeleb1数据集用于与基准模型进行比较，VoxCeleb2用于展示他们所提出方法的效果。

研究人员在三种不同的设置中将他们的模型与基准模型进行了比较，使用fine-tuning集中的1帧、8帧和32帧。

表1：few-shot learning设置下不同方法的定量比较

结果如表1上半部分所示，基线模型在两个相似性度量上始终优于我们的方法。

不过，这些指标不能完全代表人类的感知，因为这两种方法都会产生恐怖谷伪影，从图3的定性比较和用户研究结果可以看出。

另一方面，余弦相似度与视觉质量有更好的相关性，但仍然倾向于模糊、不太真实的图像，这也可以通过表1-Top与图3中的比较结果看出。

图3：使用1张、8张和32张训练图像时的三个示例。系统采用一个源图像(第1列)，并尝试将该图像映射到ground truth帧中的相同位置(第2列)。研究人员将他们的结果与X2Face、PixtopixHD模型进行了比较。

大规模的结果。

随后，我们扩展可用的数据，并在更大的VoxCeleb2数据集中训练我们的方法。

下面是2个变体模型的结果：

图4：在VoxCeleb2数据集中的最佳模型的结果。

同样，训练帧的数量是T(左边的数字)，第1列是示例训练帧。第2列是ground truth图像，后3列分别是我们的FF feed-forward 模型及微调前后的结果。虽然 feed-forward变体的学习更快速，但fine-tuning 最终提供了更好的真实感和保真度。

最后，我们展示了的照片和绘画的结果。

图5：让静态照片“活”起来

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100720
图像

图像

+关注

关注
2

文章
1084

浏览量
40453
ai技术

ai技术

+关注

关注
1

文章
1268

浏览量
24291

原文标题：蒙娜丽莎一键“复活”！三星AI Lab：只需一张图片就能合成动画

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

人工神经网络原理及下载

人工神经网络是根据人的认识过程而开发出的一种算法。假如我们现在只有一些输入和相应的输出，而对如何由输入得到输出的机理并不清楚，那么我们可以把输入与输出之间的未知过程看成是一个“网络”，通过不断地给

发表于 06-19 14:40

神经网络教程（李亚非）

　　第1章概述　　1.1 人工神经网络研究与发展　　1.2 生物神经元　　1.3 人工神经网络的构成　　第2章人工神经网络基本模型　　2.1 MP模型　　2.2 感知器模型　　2.3

发表于 03-20 11:32

【PYNQ-Z2试用体验】神经网络基础知识

超过阈值，输出就一跃而起。但我们一般用S函数作为激活函数。如下图：图2 该函数相比阶越函数更加接近现实。神经网络原理如图所示是一个具有两层的神经网络，每层有两个

发表于 03-03 22:10

卷积神经网络如何使用

卷积神经网络(CNN)究竟是什么，鉴于神经网络在工程上经历了曲折的历史，您为什么还会在意它呢? 对于这些非常中肯的问题，我们似乎可以给出相对简明的答案。

发表于 07-17 07:21

【案例分享】ART神经网络与SOM神经网络

今天学习了两个神经网络，分别是自适应谐振（ART）神经网络与自组织映射（SOM）神经网络。整体感觉不是很难，只不过一些最基础的概念容易理解不清。首先ART

发表于 07-21 04:30

如何构建神经网络？

原文链接：http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络？神经网络包括：输入层：根据现有数据获取输入的层隐藏层：使用反向传播优化输入变量权重的层，以提高模型的预测

发表于 07-12 08:02

matlab实现神经网络精选资料分享

习神经神经网络，对于神经网络的实现是如何一直没有具体实现一下：现看到一个简单的神经网络模型用于训练的输入数据:对应的输出数据:我们这里设置：

发表于 08-18 07:25

神经网络移植到STM32的方法

将神经网络移植到STM32最近在做的一个项目需要用到网络进行拟合，并且将拟合得到的结果用作控制，就在想能不能直接在单片机上做神经网络计算，这样就可以实时计算，不依赖于上位机。所以要解决

发表于 01-11 06:20

神经网络运用领域

神经网络可以研究特定艺术品的笔画，颜色和阴影中的图案。在此基础上，可以将原作的风格转化为新的形象。DeepArt.io就是一个例子，该公司创建的应用程序使用深度学习来学习数百种不同的风格，可以将其

发表于 11-24 09:28 •6033次阅读

用一张图像合成动图,让蒙娜丽莎开口说话

蒙娜丽莎开口说话你见过吗？这位神秘的画中人也能做出各种 gif 表情？

发表于 05-27 13:58 •4557次阅读

用Python从头实现一个神经网络来理解神经网络的原理1

有个事情可能会让初学者惊讶：神经网络模型并不复杂！『神经网络』这个词让人觉得很高大上，但实际上神经网络

发表于 02-27 15:05 •690次阅读

用Python从头实现一个神经网络来理解神经网络的原理2

有个事情可能会让初学者惊讶：神经网络模型并不复杂！『神经网络』这个词让人觉得很高大上，但实际上神经网络

发表于 02-27 15:06 •619次阅读

用Python从头实现一个神经网络来理解神经网络的原理3

有个事情可能会让初学者惊讶：神经网络模型并不复杂！『神经网络』这个词让人觉得很高大上，但实际上神经网络

发表于 02-27 15:06 •726次阅读

用Python从头实现一个神经网络来理解神经网络的原理4

有个事情可能会让初学者惊讶：神经网络模型并不复杂！『神经网络』这个词让人觉得很高大上，但实际上神经网络

发表于 02-27 15:06 •683次阅读

三个最流行神经网络

在本文中，我们将了解深度神经网络的基础知识和三个最流行神经网络：多层神经网络(MLP)，卷积神经网络(CNN)和递归

发表于 05-15 14:19 •1405次阅读