仅凭声音,AI 就能“脑补”你的脸!测试结果精度可以达到 90.25%-电子发烧友网

【导语】之前我们为大家介绍过一项非常酸爽的研究“Talking Face Generation”：给定音频或视频后（输入），可以让任意一个人的面部特征与输入的音视频信息保持一致，也就是说出输入的这段话。当时就想到了“杨超越的声音+高晓松的脸”这样的神仙搭配。不过，近期一项新研究再度抓到了笔者的眼睛！在最新的研究中，研究者仅需要音频信息就生成了人脸... ...如此鬼畜的操作，此乃头一次见啊！接下来就为大家介绍一下这项工作！

音频和图像是人类最常用的两种信号传输模式，图像传达的信息非常直观，而语音包含的信息其实比我们想象的要更丰富，包括说话人的身份，性别和情绪状态等等。从这两个信号中提取的特征通常是高度相关的，可以让人仅聆听声音就可以想象他的视觉外观。WAV2PIX 的工作就是仅利用语音输入，来生成说话者的人脸图像。其实这就是一个跨模态的视觉生成任务。

谈到这项研究的贡献，主要有三点：

提出了一个能够直接从原始的语音信号生成人脸的条件GAN：WAV2PIX；

提供了一个在语音和人脸两方面综合质量很高的一个数据集：Youtubers；

实验证明论文的方法可以生成真实多样的人脸。

论文收集了大V用户（Youtubers）上传到 Youtube 的演讲视频，这些视频通常具有高质量的说话环境、表达方式、人脸特征等。Youtubers 数据集主要由两部分组成：一个是自动生成的数据集和一个手动处理后的高质量的子集。

主要的预处理工作：

音频最初下载的是高级音频编码（AAC）格式，44100 Hz，立体声。因此转换为 WAV 格式，并重新采样到 16 kHz，每个样例占 16 位并转换为单声道。

采用基于 Haar 特征的人脸检测器来检测正脸。仅采纳置信度高的帧

保存检测出来的那帧图像及前后两秒的语音帧，以及一个标签（identity）。

方法介绍

研究主要由三个模块构成：一个是语音编码器，一个是图片生成网络，一个是图片判别网络。

语音编码器（Speech Encoder）：已有的方法大多数是手工提取音频特征，并不是针对生成网络的任务进行优化的，而 SEGAN 提出了一种在波形上用于语音处理的方法。因此作者在已有的工作 SEGAN 上进行修改。修改为具有 6 层一维网络，并且每层的 kernel 大小是 15x15，步长为 4，然后每层卷积网络后面使用 LeakyReLU 激活函数，网络的输入通道是 1。输入 16kHZ 下1 秒的语音片段，上述的卷积网络可以得到一个 4x1024 的张量，然后采用三个全连接网络将特征数量从 4x1024 降到 128。作为生成器网络的输入。

图片生成器（Image Generator Network）：输入是语音编码器的 128 向量。采用二维转置卷积、插值、dropout 等方式将输入转为 64x64x3 或者 128x128x3 的张量。在 G 的损失函数中添加了一个辅助损失用于保持说话人的标签（Identity）。

图片判别器（Image Discriminator Network）：判别器由几层步长为 2，kernel 大小是 4x4 的卷积网络组成，并使用谱归一化和 LeakyReLU 激活函数。当张量为 4x4 时，作者拼接了语音的输入，并采用最后一层网络来计算 D 网络的分数。

实验过程

训练：将手动处理后的数据集作为训练集，采用数据增强等手动。值得注意的是，在处理时将每张图像复制了 5 次，并将其与 4 秒音频里面随机采样的 5 个不同的1秒音频块进行匹配。因此总共有 24K 左右的图像-音频对用于模型训练。其它超参数采用参考的文献设置。

评估：下图给出了可视化的结果，虽然生成的图像都比较模糊，但基本可以观察到人的面部特征，并且有不同的面部表情。

作者进一步微调了一个预训练的 VGG-FACE Descriptor 网络，用于量化测试结果，在作者提供的数据集上，可以达到 76.81% 的语音识别准确率和 50.08% 的生成图像准确率。

为了评估模型生成图像的真实程度，作者定义了一个 68 个人脸关键点的精度检测分数。如下图所示，测试结果精度可以达到 90.25%。表明在大多数情况下生成的图像保留了基本的面部特征。

感兴趣的小伙伴们可以下载阅读研究一下~

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音

语音

+关注

关注
3

文章
384

浏览量
37994
AI

AI

+关注

关注
87

文章
30106

浏览量
268390

原文标题：仅用语音，AI 就能“脑补”你的脸！ | 技术头条

文章出处：【微信号：mcuworld，微信公众号：嵌入式资讯精选】欢迎添加关注！文章转载请注明出处。

ESD HBM测试差异较大的结果分析

ESD HBM测试结果差异较大的原因，通常包括设备/仪器差异、‌校准和维护水平不同、‌环境条件差异、‌测试样本差异、‌测试操作员技能和经验差异以及测

发表于 11-18 15:17 •203次阅读

使用ADS1299进行脑电信号采集时采集不到脑电信号，怎么解决？

您好！我这边在使用ADS1299进行脑电信号采集时采集不到脑电信号，用信号发生器进行测试，能采集到0.5uV左右的正弦波，文档中是该芯片的原理图和电极连接方式说明，请问是否有问题？还麻烦指教，谢谢！

发表于 11-13 06:52

“元脑企智”EPAI：企业AI应用从“手工作坊”到“工厂高精产线”

消灭“节后综合症”，“元脑企智”EPAI为职场人送出AI助攻

发表于 10-09 15:33 •1878次阅读

使用LMH7322测量脉冲占空比，误差精度达到0.1怎么改进？

上图是我用 LMH7322 高速比较器测试占空比时输出的波形，测试频率为：100HZ---5MHZ，误差精度达到 0.1 ，未能达到

发表于 08-30 07:44

AI芯片的混合精度计算与灵活可扩展

、NPU、DSP等。而无论是哪种架构，如何判断其性能优劣都至关重要，而这就涉及到AI芯片的各项性能指标，如算力、能效、时延等。其中AI芯片的算力精度是衡量其处理数据能力的重要指标之一，它涉及到芯片在执行计算任务时所能

发表于 08-23 00:08 •4634次阅读

视觉检测精度能达到 0.01 吗

在现代工业生产和质量控制领域，视觉检测技术因其高效、非接触式测量等优势而备受青睐。然而，对于许多对精度要求极高的应用场景，一个关键的问题是：视觉检测精度能否达到 0.01级别？研讯科技旗下分公司苏州

发表于 08-22 11:20 •235次阅读

低功耗高精度压控温补晶振应用方案

随着移动卫星通信、无线基站、雷达、仪器仪表和工业化/自动化等领域的迅速发展，市场对于低功耗、高精度和高稳定性的压控温补晶振（VC-TCXO）的需求也越来越高。为满足这一市场需求，YXC公司推出

发表于 08-16 15:45 •0次下载

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

计算的特性，搭建出基于 PYNQ 集群的通用低功耗的大规模类脑计算平台，并通过皮质层视觉仿真模型、HPC Benchmark 等进行了结果验证和性能测试。 (3)本设计设计的基于 NEST 仿真器

发表于 06-25 18:35

STM32G474 HRTIM校准精度可以达到多少？

HRTIM提到有校准功能，保证它的高精度输出，并且按照指定的校准周期会去校准，那么这个校准精度可以达到多少？手册中暂时未找到，请问有谁知道吗？

发表于 04-09 07:09

ADXRS646温补的手段通常有哪些？

最近在筛选陀螺仪作用于转台，因为光纤陀螺价格比较昂贵，所以选择ADI 的ADXRS646比较符合精度要求。请教几个问题： 1.如何尽可能的保证该芯片的的精度，是否有成熟的后处理方案可以借鉴或者

发表于 12-29 07:05

ADN8834温控精度能达到多少？

拟选用ADN8834做温控芯片，需要的温控精度为正负0.1℃，咨询一下ADN8834温控精度能达到多少？内部集成的运放的输入失调电压随温度偏移是多少？

发表于 12-28 06:13

首例“AI声音侵权案”，声音AI化用于短视频

电子发烧友网报道（文/李弯弯）AI技术的应用，给我们的生活带来了巨大改变。同时，它的不当使用也带来了侵权、诈骗等风险。近日，北京互联网法院首次组成五人合议庭，依法公开审理全国首例“AI声音侵权案

发表于 12-20 00:28 •1715次阅读

AD7403可以有16位的输出吗？精度可以达到多少呢？

以上的关系是如何的。还是或本器件不推荐测试10KHz以上频率的信号。 3.如果我的应用需要测量50KHz的电流信号，这款ADC可以有16位的输出吗？精度可以

发表于 12-15 06:39

声音测试仪电路原理图

声音测试仪：对于音频、TTL 或 CMOS 电路的简单测试，简单的测试单元始终具有价值。一个以 IC1a 为中心的简单振荡器，可使用 P1 产生大约 500 Hz 至 1.5 kHz

发表于 12-13 17:37 •1136次阅读

让你的声音被听到：看看你的TWS耳塞是怎么设计的

让你的声音被听到：看看你的TWS耳塞是怎么设计的

发表于 12-05 17:25 •528次阅读