0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用一张图像合成动图,让蒙娜丽莎开口说话

电子工程师 来源:YXQ 2019-05-27 13:58 次阅读

蒙娜丽莎开口说话你见过吗?这位神秘的画中人也能做出各种 gif 表情?来自三星莫斯科 AI 中心和 Skolkovo 科学技术研究所的研究人员创建了一个模型,利用这个模型可以从一张图像中生成人物头像的动图,而且是开口说话的动图。而且,这一模型没有采用 3D 建模等传统方法。

开口说话的蒙娜丽莎好像看着没那么高冷。

除了蒙娜丽莎,研究人员还生成了风情万种的玛丽莲·梦露。

他们生成的名人头部动画包括玛丽莲·梦露、爱因斯坦、蒙娜丽莎以及 Wu Tang Clan 的 RZA 等。

近年来出现了很多利用 AI 模拟人脸的研究。2018 年,华盛顿大学的研究人员分享了他们创建的 ObamaNet,它是一种基于 Pix2Pix 的唇语口型模型,以美国前总统奥巴马的视频进行训练。去年秋天,加州大学伯克利分校的研究人员开发出一个模型,使用 YouTube 视频来训练 AI 数据集,生成的人物可以做跳舞或后空翻等杂技动作。

为了创建个性化模型,上面这些研究需要在大量个人数据上进行训练。但是,在许多实际场景中,我们需要从个人的少量甚至是一张图像中学习。因此在这项研究中,三星和 Skolkovo 研究所的研究人员只用少量甚至一张图像或画作就合成了人物开口说话状态的头部动画。

研究人员利用了 Few-shot learning 等技术,主要合成头部图像和面部 landmark,可应用于电子游戏、视频会议或者三星 Galaxy S10 上现在可用的数字替身(digital avatar)。这种虚拟现实项目的数字替身技术可用于创建 deepfake 图像和视频。

Few-shot 学习意味着该模型在仅使用几幅甚至一幅图像的情况下模拟人脸。研究人员使用 VoxCeleb2 视频数据集进行元训练(meta trainning)。在元学习过程中,系统创建了三种神经网络:将帧映射到向量的嵌入器网络、在合成视频中映射面部特征点的生成器网络以及评估生成图像真实性和姿态的判别器网络。

联合三种网络,该系统能在大型视频数据集上执行长时间的元学习过程。待元学习收敛后,就能构建 few-shot 或 one-shot 的神经头像特写模型。该模型将未见过的目标任务视为对抗学习问题,这样就能利用已学习的高质量生成器与判别器。

论文作者表示:「至关重要的一点是,尽管需要调整数千万参数,该系统能够因人而异地初始化生成器和判别器参数,因此训练可以在仅借助几幅图像的情况下快速完成。这种方法能够快速学习新面孔甚至是人物肖像画和个性化的头像特写模型。」

该论文已被 2019 CVPR 会议接收,本届会议将于六月份在加利福尼亚州的长滩举行。

新颖的对抗学习架构

在这项研究中,研究者提出了一种新系统,可以只使用少量图像(即Few shot learning)和有限的训练时间,构建「头像特写」模型。实际上,研究者的模型可以基于单张图像(one-shot learning)生成合理的结果,而且在添加少量新样本后,模型能生成保真度更高的个性化图像。

与很多同类工作相同,研究者的模型使用卷积神经网络构建头像特性,它通过一个序列的卷积运算直接合成视频帧,而不是通过变形(warping)。研究者模型创建的头像特写可以实现大量不同的姿态,其性能显著高于基于变形(warping-based)的系统。

通过在头像特写语料库上的大量预训练(meta-learning),模型能获得 few-shot 学习的能力。当然这需要语料库足够大,且头部特写视频对应不同的说话者与面孔。在元学习过程中,研究者的系统模拟了 few-shot 学习任务,并学习将面部 landmark 位置转换到逼真的个性化照片。在 few-shot 学习中,他们只需要提供转换目标的少量训练图像就可以。

随后,转换目标的少量图像可视为一个新的对抗学习问题,其高复杂度的生成器与判别器都通过元学习完成了预训练。新的对抗问题最终会完成收敛,即在少量训练迭代后能生成真实和个性化的图像。

元学习架构

下图 2 展示了研究者方法中的元学习阶段,简单而言它需要训练三个子网络。注意,若我们有 M 个视频序列,那么 x_i(t) 表示第 i 个视频的第 t 帧。

第一个子网络 embedder E:它会输入视频帧 x_i(s) 以及对应的 landmark 图像 y_i(s),该网络会将输入映射到 N 维向量 e hat_i(s) 中。

第二个子网络 generator G:它会输入新的 landmark 图像 y_i(t),且 embedder 看不到其对应的视频帧;该网络还会输入 embedder 输出的 e hat_i,并希望能输出合成的新视频帧 x hat_i(t)。

第三个子网络 discriminator D:它会输入视频帧 x_i(t)、对应的 landmark 图像 y_i(t),以及训练序列的索引 i。该网络希望判断视频帧 x_i(t) 到底是不是第 i 个视频中的内容,以及它到底匹不匹配对应的 landmark 图像 y_i(t)。

图 2:元学习架构的整体结构,主要包含嵌入器(embedder)、生成器和判别器三大模块。

嵌入器网络希望将头像特写图像与对应的人脸 landmark 映射到嵌入向量,该向量包含独立于人脸姿态的信息。生成器网络通过一系列卷积层将输入的人脸 landmark 映射到输出帧中,其生成结果会通过嵌入向量以及自适应实例归一化进行调整。在元学习中,研究者将相同视频一组视频帧传递到嵌入器,并对嵌入向量求均值以便预测生成器的自适应参数。

随后,研究者将不同帧的 landmark 输入到生成器中,并对比标注图像和生成图像之间的差别。模型的整体优化目标包括感知和对抗两种损失函数,后者通过条件映射判别器实现。

此外,元学习的三大子网络在原论文中都有具体的表达式,读者可具体查阅原论文 3.2 章。

Few-shot 学习过程

一旦元学习完成收敛,那么系统就能学习到如何合成新目标的头像特写序列,即使元学习中不曾见过这个人。当然,除了要提供新目标的一些图像样本,我们还需要提供新目标的 landmark,合成过程是以这些目标 landmark 为条件的。

很自然地,我们可以使用元学习收敛后的嵌入器(embedder),用来估计新头像特写序列的嵌入向量:

一种比较直观的想法是使用上面的嵌入向量,以及预训练的生成器生成新的视频帧与对应 landmark 图像。理论上这样也能生成真实的图像,但真实性并不是太强。为此,研究者还需要一个精调过程以生成更完美的图像,即 few-shot 学习过程。

精调过程可视为前面元学习过程的简化版,它只在单个视频序列和较少的帧上完成训练。精调过程主要包含判别器与生成器两个模块,这里嵌入器是不需要调整的。

其中生成器还是根据 landmark 合成视频帧,只不过对应具体人物的生成器参数 ψ'会和原来一般人物参数ψ共同优化,以学习生成目标人物的某些特征。判别器和元学习阶段也差不多,只不过会增加一个新参数以学习更好地预测真实度分数。

实验

研究者在定性和定量评估实验中用到了两个数据集:VoxCeleb1 和 VoxCeleb2。后者的视频数量大约是前者的 10 倍。VoxCeleb1 用于与基线和控制变量研究作对比,VoxCeleb2 用于展示本文中所提方法的全部潜力。实验结果如下表所示:

如表 1 所示,基线模型在两个相似度度量标准上始终优于三星的方法。三星研究人员认为,这是方法本身所固有的:X2Face 在优化期间使用 L_2 损失函数,因此 SSIM 得分较高。另一方面,Pix2pixHD 只最大化了感知度量,没有 identity preservation 损失,导致 FID 最小化,但从 CSIM 一栏中可以看出,Pix2pixHD 的 identity 不匹配更大。

此外,这些度量标准和人类的感知并没有特别紧密的关联,因为这些方法都会产生恐怖谷伪影(uncanny valley artifact),这从图 3 和用户研究结果中可以看出。另一方面,余弦相似度与视觉质量有更好的相关性,但仍然倾向于模糊、不太真实的图像,这也可以通过表 1 与图 3 中的结果对比来看出。

图 3:在 VoxCeleb1 数据集上的结果。对于每一种对比方法,研究者在一个元训练或预训练期间未见过的人物视频上执行 one-shot 和 few-shot 学习。他们将训练的帧数设为 T(最左边的数字)。Source 列显示了训练帧之一。

接下来,研究者扩展了可用的数据,开始在视频数目更多的 VoxCeleb2 上训练模型。他们训练了两种模型:FF(前馈)和 FT。前者训练 150 个 epoch,没有嵌入匹配损失 LMCH,因此用的时候不进行微调。后者训练 75 个 epoch,但有 LMCH,支持微调。

他们对这两种模型都进行了评估,因为它们可以在 few-shot 学习速度和结果质量之间进行权衡。与在 VoxCeleb1 上训练的小型模型相比,二者都得到了很高的分数。值得注意的是,FT 模型在 T=32 的设定下达到了用户研究准确率的下界,即 0.33,这是一个完美的分数。两种模型的结果如图 4 所示:

图 4:三星最好的模型在 VoxCeleb2 数据集上的结果。

最后,研究者展示了模型在照片或画像上的结果。为此,研究者评估了在 one-shot 设定下训练的模型,任务姿态来自 VoxCeleb2 数据集的测试视频。他们使用 CSIM 度量给这些视频排序,并在原始图像和生成图像之间进行计算。这使得研究者可以发现拥有相似标志几何特征的人脸,并将它们由静态变为动态。结果见图 5 和图 1.

图 5:使静止的照片栩栩如生。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 三星电子
    +关注

    关注

    34

    文章

    15855

    浏览量

    180915
  • 人工智能
    +关注

    关注

    1791

    文章

    46838

    浏览量

    237502

原文标题:[机器人频道|大V说]蒙娜丽莎开口说话了:三星新研究用一张图像合成动图,无需3D建模

文章出处:【微信号:robovideo,微信公众号:机器人频道】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    请查收!一张来自南京会“发光”的城市名片 智慧路灯 物联网太阳能路灯

    请查收!一张来自南京会“发光”的城市名片 智慧路灯 物联网太阳能路灯
    的头像 发表于 10-28 14:48 222次阅读
    请查收!<b class='flag-5'>一张</b>来自南京会“发光”的城市名片 智慧路灯 物联网太阳能路灯

    如何维修一张电脑显卡型号是amd的rx580 烧坏的部位?

    大家好!我在维修一张电脑显卡型号是amd的rx580 烧坏的部位是个电感情况如下图 我觉得应该用飞线方法补焊盘再接电感 但是直找不到1伏的两个相连的元器件
    发表于 09-13 03:07

    2024年芯片行业有多难?数据说话

    2024年芯片行业有多难?数据说话
    的头像 发表于 08-10 18:20 3303次阅读

    打破壁垒,共建网络:“一张网”理念下的IPv6部署策略

    盘棋”、“一张网”是对IPv6发展布局的形象描述。在推进IPv6的发展过程中,需要从全局出发,进行统规划和部署,就像下盘棋样,各方
    的头像 发表于 05-08 09:03 334次阅读
    打破壁垒,共建网络:“<b class='flag-5'>一张</b>网”理念下的IPv6部署策略

    帮忙画一张详细的电路,谢谢

    能帮忙画一张详细的电路吗,谢谢了。因为涉及到外部链接,怕被误会发广告,所以详细的需求放在附件里面了 *附件:帮忙谢谢.rar
    发表于 05-04 22:59

    一张看懂睿创微纳2023年年报

    一张看懂睿创微纳2023年年报
    的头像 发表于 04-23 10:38 422次阅读
    <b class='flag-5'>一张</b><b class='flag-5'>图</b>看懂睿创微纳2023年年报

    NFC手机作为一张卡片进行交易时,发射的功率是多少?

    NFC手机作为一张卡片进行交易时,NFC芯片发射的功率是多少?
    发表于 03-29 09:16

    【RISC-V开放架构设计之道|阅读体验】本别出心裁的RISC-V架构之书(第章)

    的计算机体系架构专 别出心裁地按照RISC-V模块化的指令来组织内容 对比x86、ARM 和MIPS 的设计,通过对比分析,突显RISC-V 的优势 可以作为从业者随时翻阅的案头参考书 开头的蒙娜丽莎
    发表于 01-24 19:06

    【RISC-V开放架构设计之道|阅读体验】先睹为快-学习RISC-V的案头好书

    蒙娜丽莎人想到的就是优雅,这也契合RISC-V的设计哲学。本书从电子发烧友申请到,扉页有电子发烧友的签名。 前面附录了RISC-V的指令集参考卡,这个比较有用,有时看下汇编代码可以参考。参考卡
    发表于 01-20 22:37

    再建一张全国性5G网络,运营商是它?!

    目前马来西亚第一张全国性5G网络(由DNB公司建设)在人口稠密区域的覆盖率已经达到80.2%。马来西亚政府去年5月份宣布,上述数值旦超过80%,就将着手在2024年建设该国第二全国性5G网络。
    的头像 发表于 01-18 16:07 705次阅读

    子曰教育大模型加速落地应用:推出虚拟人AI产品,新增口语定级等功能

    最新推出的 Hi Echo 2.0 版本进行了四大能力创新升级——新增口语难度分级;更丰富的虚拟人形象;更多元的对话场景及更具个性化的对话评价报告。即便是零基础的英语学习者,也可以毫无压力地开口说英文,在不同语境中快速提升口语能力,实现真正的英语对话自由。
    的头像 发表于 12-21 16:57 995次阅读

    相机图像信号处理流程(ISP)介绍

    本文是图像信号处理流程的个总体的介绍,以便更好理解一张照片究竟是如何诞生的,实际的技术要复杂很多。
    的头像 发表于 12-09 09:51 2765次阅读
    相机<b class='flag-5'>图像</b>信号处理流程(ISP)介绍

    4带你看懂齐纳二极管工作原理

    4带你看懂齐纳二极管工作原理
    的头像 发表于 12-05 14:47 870次阅读
    4<b class='flag-5'>张</b><b class='flag-5'>动</b><b class='flag-5'>图</b>带你看懂齐纳二极管工作原理

    文详解smt钢网开口要求

    文详解smt钢网开口要求
    的头像 发表于 12-04 15:51 2983次阅读

    一张搞懂为什么去耦电容要好几种容值?

    一张搞懂为什么去耦电容要好几种容值?
    的头像 发表于 11-27 15:47 493次阅读
    <b class='flag-5'>一张</b><b class='flag-5'>图</b>搞懂为什么去耦电容要好几种容值?