最新的研究中，研究者仅需要音频信息就生成了人脸-电子发烧友网

之前我们为大家介绍过一项非常酸爽的研究“Talking Face Generation”：给定音频或视频后（输入），可以让任意一个人的面部特征与输入的音视频信息保持一致，也就是说出输入的这段话。当时营长就想到了“杨超越的声音+高晓松的脸”这样的神仙搭配。不过，近期一项新研究再度抓到了营长的眼睛！在最新的研究中，研究者仅需要音频信息就生成了人脸... ...如此鬼畜的操作，此乃头一次见啊！接下来营长就为大家介绍一下这项工作！

音频和图像是人类最常用的两种信号传输模式，图像传达的信息非常直观，而语音包含的信息其实比我们想象的要更丰富，包括说话人的身份，性别和情绪状态等等。从这两个信号中提取的特征通常是高度相关的，可以让人仅聆听声音就可以想象他的视觉外观。WAV2PIX 的工作就是仅利用语音输入，来生成说话者的人脸图像。其实这就是一个跨模态的视觉生成任务。

谈到这项研究的贡献，主要有三点：

提出了一个能够直接从原始的语音信号生成人脸的条件GAN：WAV2PIX；

提供了一个在语音和人脸两方面综合质量很高的一个数据集：Youtubers；

实验证明论文的方法可以生成真实多样的人脸。

论文收集了大V用户（Youtubers）上传到 Youtube 的演讲视频，这些视频通常具有高质量的说话环境、表达方式、人脸特征等。Youtubers 数据集主要由两部分组成：一个是自动生成的数据集和一个手动处理后的高质量的子集。

主要的预处理工作：

音频最初下载的是高级音频编码（AAC）格式，44100 Hz，立体声。因此转换为 WAV 格式，并重新采样到 16 kHz，每个样例占 16 位并转换为单声道。

采用基于 Haar 特征的人脸检测器来检测正脸。仅采纳置信度高的帧

保存检测出来的那帧图像及前后两秒的语音帧，以及一个标签（identity）。

方法介绍

研究主要由三个模块构成：一个是语音编码器，一个是图片生成网络，一个是图片判别网络。

语音编码器（Speech Encoder）：已有的方法大多数是手工提取音频特征，并不是针对生成网络的任务进行优化的，而 SEGAN 提出了一种在波形上用于语音处理的方法。因此作者在已有的工作 SEGAN 上进行修改。修改为具有 6 层一维网络，并且每层的 kernel 大小是 15x15，步长为 4，然后每层卷积网络后面使用 LeakyReLU 激活函数，网络的输入通道是 1。输入 16kHZ 下1 秒的语音片段，上述的卷积网络可以得到一个 4x1024 的张量，然后采用三个全连接网络将特征数量从 4x1024 降到 128。作为生成器网络的输入。

图片生成器（Image Generator Network）：输入是语音编码器的 128 向量。采用二维转置卷积、插值、dropout 等方式将输入转为 64x64x3 或者 128x128x3 的张量。在 G 的损失函数中添加了一个辅助损失用于保持说话人的标签（Identity）。

图片判别器（Image Discriminator Network）：判别器由几层步长为 2，kernel 大小是 4x4 的卷积网络组成，并使用谱归一化和 LeakyReLU 激活函数。当张量为 4x4 时，作者拼接了语音的输入，并采用最后一层网络来计算 D 网络的分数。

实验过程

训练：将手动处理后的数据集作为训练集，采用数据增强等手动。值得注意的是，在处理时将每张图像复制了 5 次，并将其与 4 秒音频里面随机采样的 5 个不同的1秒音频块进行匹配。因此总共有 24K 左右的图像-音频对用于模型训练。其它超参数采用参考的文献设置。

评估：下图给出了可视化的结果，虽然生成的图像都比较模糊，但基本可以观察到人的面部特征，并且有不同的面部表情。

作者进一步微调了一个预训练的 VGG-FACE Descriptor 网络，用于量化测试结果，在作者提供的数据集上，可以达到 76.81% 的语音识别准确率和 50.08% 的生成图像准确率。

为了评估模型生成图像的真实程度，作者定义了一个 68 个人脸关键点的精度检测分数。如下图所示，测试结果精度可以达到 90.25%。表明在大多数情况下生成的图像保留了基本的面部特征。

感兴趣的小伙伴们可以下载阅读研究一下~

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

传输模式

传输模式

+关注

关注
0

文章
9

浏览量
7035
数据集

数据集

+关注

关注
4

文章
1212

浏览量
24895
人脸图像

人脸图像

+关注

关注
0

文章
11

浏览量
9002

原文标题：仅用语音，AI就能“脑补”你的脸！ | 技术头条

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

音频信息识别与检索技术

检索是目前急需解决的一个难题。音频信息中主要包含语音、音乐、说话人、语种等内容信息。相应的音频识别技术主要包含以下几类：语音识别技术、说话人识别技术、语种识别技术、音乐识别检索技术。语

发表于 03-05 22:53

音频分类与音频分段的研究

随着计算机速度、容量的提高，以及互联网上音频数据的急剧膨胀，发展音频信息的基于内容检索技术已经成为迫切的需要。音频信息的基于内容检索系统包括音频信息

发表于 03-08 22:31

matlab毕业论文-快速人脸特征定位

领域的应用价值，开始作为一个独立的课题受到研究者的普遍重视。下面我将对人脸检测的相关知识做一下简单的介绍。毕业论文：附录：附录可以用word打开

发表于 03-07 10:22

人脸识别技术最新发展与研究

人脸识别技术最新发展与研究 2013年全国图形图像技术应用大会将在十一月初召开，本次大会大会将邀请国内图像图形处理技术领域的著名专家，就图像图形处理技术的应用和最新动态做特邀报告。并邀请图像图形技术

发表于 09-25 16:08

基于CPLD的数字功率放大器的研究与实现

数模转换器DAC）实现；2利用模拟功率放大器进行模拟信号放大，如A类、B类和AB类放大器。从1980年代早期，许多研究者致力于开发不同类型的数字放大器，这种放大器直接从数字语音数据实现功率放大而不需要进行模拟转换

发表于 07-01 09:37

人脸识别的研究范围和优势

的主要目的是在输入的整幅图像上寻找人脸区域。2.人脸表征采取某种方式检测人脸和数据库中的人脸。3.人脸

发表于 06-29 11:52

人脸识别在安防系统的应用研究

和事后，提供人脸抓拍、1: N动态人脸识别、人脸检索查询等多种人脸服务。对于人脸采集模块，目前有2种实现方式，第1种，直接使用具有

发表于 11-07 10:38

蛋白质组学技术与药物作用新靶点研究进展精选资料分享

，成为制约新药开发速度的瓶颈。基因组学研究表明，人体中全部药靶蛋白为1万～2万种，而在过去100年中发现的靶点，仅约有 500种。因此，自1994年Wilkins等提出蛋白质组（pro

发表于 07-26 07:48

基于小波变换的音频信息隐藏技术研究

摘要：研究了一种基于小波变换的音频信息隐藏的技术，对算法进行了详细的研究与分析。并根据算法利用Matlab进行仿真实验，实现了基于小波的音频信息隐藏，保证了电力系统

发表于 12-27 20:32 •35次下载

单对象人脸识别技术研究

单对象人脸识别技术研究 1 引言随着计算机网络和通信技术的发展，信息安全、知识产权保护和身份认证等问题成了一个重要而紧迫的研究课

发表于 02-06 09:21 •747次阅读

原来美国的研究者最关心的是这些

上个月，全新版《美国机器人路线图》发布。这份由全美150多位研究者共同完成的报告呼吁：国家应该在新技术的安全集成方面制定更好的政策框架以保证我们每日生活的安全运转。文件发布的目的，除了希望借此确定

发表于 11-19 22:07 •375次阅读

机器学习研究者必知的八个神经网络架构

本文简述了机器学习核心结构的历史发展，并总结了研究者需要熟知的 8 个神经网络架构。

发表于 02-26 18:40 •1138次阅读

一种基于实用AGC算法的音频信号处理方法与FPGA实现的分析研究

随着现代通信技术的广泛使用，通信企业问的竞争不断加剧，为提升自身的竞争优势，通信企业需要将其通信信号的质量提升，并提高通信系统各项指标的稳定性、安全性、高效性。在音频信号处理方法及FPGA实现中

发表于 09-30 16:29 •3274次阅读

仅凭声音,AI 就能“脑补”你的脸!测试结果精度可以达到 90.25%

在最新的研究中，研究者仅需要音频信息就生成了

发表于 04-08 10:10 •3728次阅读

70年人工智能研究，解读研究者最大的惨痛教训经验

自1956年达特茅斯学院那场著名会议以来，人工智能研究走过了这么多年的旅途，经历许多高峰也走过很多低谷。前事不忘后事之师，这期间产生了很多经验教训需要我们反复学习，而最重要的一条教训却是很多研究者很难接受的。

发表于 08-14 10:21 •516次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

最新的研究中，研究者仅需要音频信息就生成了人脸

评论

音频信息识别与检索技术

音频分类与音频分段的研究

matlab毕业论文-快速人脸特征定位

人脸识别技术最新发展与研究

基于CPLD的数字功率放大器的研究与实现

人脸识别的研究范围和优势

人脸识别在安防系统的应用研究

蛋白质组学技术与药物作用新靶点研究进展精选资料分享

基于小波变换的音频信息隐藏技术研究

单对象人脸识别技术研究

原来美国的研究者最关心的是这些

机器学习研究者必知的八个神经网络架构

一种基于实用AGC算法的音频信号处理方法与FPGA实现的分析研究

仅凭声音,AI 就能“脑补”你的脸!测试结果精度可以达到 90.25%

70年人工智能研究，解读研究者最大的惨痛教训经验