什么是Talking Face Generation任务？-电子发烧友网

什么是 Talking Face Generation任务？

简单来讲，给定音频或视频后，可以让任意一个人的面部特征与输入信息保持一致。比如在下面的 Demo 视频中，通过输入一段音频，让其他五位个人都能说出这段话。如何利用这个技术？以后大家恶搞，就不只是给奥巴马、特朗普嫁接一段声音了。你可以让高晓松“燃烧我的卡路里”，也可以让好运锦鲤杨超越每天为你讲“晓说”。要油要甜，全看你的选择~（我要吴彦祖，胡歌，新恒结衣，神仙姐姐每天给我讲段子~）

其实，当人们说话时，面部区域一些细微的运动是非常复杂的，通常由讲话者个人固有的面部特征和所传递的外部信息共同决定。现有的研究中，一部分专注于前者，即对一个主体构建特定的面部特征模型；另一部分专注于后者，即构建唇部运动和言语信息之间的 identity-agnostic 变换的模型。

在这项工作中，作者将两方面整合一起开展了一系列研究，并提出了一种 DAVS （Disentangled Audio-Visual System）结构。通过学习分解的视觉和听觉表征，实现对任意说话主体的脸部生成。我们假设说话人的脸部序列是主体相关信息和语音相关信息的组合，通过一种新颖的关联-对抗训练过程来明确地解开这两个空间。这种分解方法的另外一个优点就是能将分解得到的音频和视频信息都可以用于语音信息的生成。大量实验表明，作者所提出的方法可以对任意对象上生成逼真的人脸序列，并且唇部运动模式更加清晰。此外，作者还发现，学习到的视听表征在唇语自动解读和音频视频检索等应用中也非常有用。

传送门

项目主页：

https://liuziwei7.github.io/projects/TalkingFace

论文链接：

https://arxiv.org/pdf/1807.07860.pdf

Github 地址：

https://github.com/Hangz-nju-cuhk/Talking-Face-Generation-DAVS

目前，作者准备把这个项目开源，大家可以在源码公开后进行深入实践了！

▌首先，你需要先准备：

Python2.7

PyTorch (0.2.0)

Opencv2

▌测试结果如何生成？

1.下载预训练的模型的 checkpoint

2.测试数据在0572_0019_0003文件夹，这是从 Voxceleb 数据集中筛选，经预处理后的样本数据。

3.运行测试脚本，利用视频生成视频

4.运行测试脚本，从语音生成视频

▌数据样本的生成结果

1.对人脸面部特征的影响

2.对非真是人脸面部特征的影响（只用人脸数据作为训练样本）

▌创造更多的样本

Demo 视频中使用的面部检测工具可以在 rsa 中找到。每张图像的一行中，将返回一个带5个关键点的 Matfile 输出。这个工具在其他面部对齐方法中也同样适用，如 dlib。在这个项目中，作者使用的面部对齐关键点是眼睛的中心和嘴角的平均点。使用的每个图像的PATH和 face POINTS，大家可以在 preprocess / face_align.py文件中找到作者使用的方法。

此外，作者对音频文件的预处理方法是相同的，调用了SyncNet 的matlab 的代码，在将 mfcc 特征保存到 bin 文件中。

▌训练代码

训练代码正在整理中，后续会公布。此项目的代码结构参考了 pix2pix 的实现代码：

https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

后处理细节

直接生成的结果可能会受到缩放条件 (放大和缩小) 的影响，假设这是由训练集对齐引起的。作者在 demo 中使用 subspace video stabilization 方式来解决这种不稳定问题。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

视频

视频

+关注

关注
6

文章
1964

浏览量
73324
数据集

数据集

+关注

关注
4

文章
1212

浏览量
24995

原文标题：杨超越的声音+高晓松的脸~如此酸爽的技术，你值得拥有！

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

怎用设置任务栏自动隐藏，并在“开始”菜单显示小图标

`<p>步骤：任务栏-》右键-》属性-》在任务栏选中<font face="Verdana">自动隐藏

发表于 06-28 10:57

report generation toolkit 怎么安装

我安装完labview8.6之后想再装个report generation toolkit ，不知道怎么装？哪位高手能指导一下

发表于 06-30 00:06

Face ID也是无法工作。

对此，苹果公司也曾进行过解释，苹果软件工程高级副总裁Craig Federighi曾表示，Face ID具备唯一性，仅支持“一机一脸”，用户无法在系统中录入多个人脸。不仅如此，系统必须是在同时捕捉

发表于 01-06 01:28

MaxCompute 中的Code Generation技术简介

，在任务提交比较频繁的情况下，控制集群的稳定性会收到一定挑战。因为较高的编译时开销，这种Code Generation的方式在处理复杂的语句加中小数据规模查询的场景，比如service mode下

发表于 03-27 14:29

Next Generation Design and Ver

This volume brings out the proceedings of the workshop “Next Generation Designand Verification

发表于 07-17 17:11 •0次下载

Next <b class='flag-5'>Generation</b> Design and Ver

Next Generation Mobile Systems

Next Generation Mobile Systems 3G and Beyond:In Next Generation Mobile Systems the authors answer

发表于 08-21 10:31 •10次下载

Next <b class='flag-5'>Generation</b> Mobile Systems

iPod nano (4th generation) 使用手

iPod nano (4th generation) 使用手册(中文说明书指南)

发表于 11-23 08:58 •47次下载

Spartan-3 Generation FPGAs应用资料

Spartan-3 Generation FPGAs应用资料 DDR2 SDRAM Interface for Spartan-3 Generation FPGAs

发表于 05-13 13:57 •27次下载

Gigabyte技嘉主板Face Wizard工具

Gigabyte技嘉主板Face Wizard工具主板Face Wizard工具

发表于 11-11 12:04 •23次下载

网络体系结构白皮书

optimize their network architecture and face the rapidly growing demand for coverage and capacity

发表于 09-14 09:28 •15次下载

Face ID可能会被破解的前景令人担忧

根据生物安全专家的说法，自从苹果在2017年推出iPhone X支持Face ID以来，虽然有人能复制Face ID，但没有人发布过能够破解Face ID的详细信息。该公司还推出了另外三款支持

发表于 01-07 17:43 •3166次阅读

基于知识的对话生成任务

基于知识的对话生成任务(Knowledge-Grounded Dialogue Generation，KGD)是当前对话系统的研究热点，这个任务旨在基于对话历史和外部知识来生成的富含信息量的回复语句。

发表于 09-05 09:54 •1786次阅读

Ravenscar Ada任务和FACE安全配置文件

　　需要占用空间小或必须符合行业保证标准（如 DO-178B或 DO-178C）的机载系统对运行时支持库中的尺寸和复杂性成本很敏感。为了满足这些需求，未来机载能力环境（FACE？技术标准已将 Ada

发表于 11-09 14:49 •891次阅读

使用Face ID的学生考勤

电子发烧友网站提供《使用Face ID的学生考勤.zip》资料免费下载

发表于 06-28 11:22 •0次下载

Hugging Face被限制访问

目前尚不清楚 Hugging Face 何时出现访问限制问题。雅虎的报道称，早在今年 5 月起，就已经有用户在 HF 的论坛上抱怨连接问题。另外有报道称，至少从 9 月 12 日起，Hugging Face 在中国就完全无法使用。

发表于 10-22 15:51 •1844次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

什么是Talking Face Generation任务？

评论