利用语音直接画出人脸,AI再添新能力-电子发烧友网

听声辨人，利用声纹进行解锁，这种技术已广泛应用，人类的声音含有该个体的一定特征，从而可以进行区分。那么仅通过声音，能否画出人像，并且尽可能地与讲话者相似呢？

近日，卡内基梅隆大学的Yandong Wen 等人，利用生成对抗网络模型（generative adversarial networks, GANs）首次对这一问题作出研究，利用讲话者的语音生成一些匹配原说话者面部特征的人脸，并用交叉模态匹配（cross-modal matching task）评估了模型表现，可谓是语音画像领域的一大突破。

模型框架

一个人的声音和骨骼结构、发声部位的形状等特征的确有关，但利用语音直接画出人脸，如何做到？

该由声音重建人脸的模型框架主要由四个卷积网络：语音嵌入模型（voice embedding network）、生成器（Generator）、判别器（Discriminator）、分类器（classifier）组成。

语音嵌入模型（voice embedding network）将输入的语音数据，梅尔倒频谱（log mel-spectrograms）转换为含有该声音特征的向量 e。该模型含有 5 层一维卷积神经网络，每一层均是经由卷积核为 3、步长为 2、padding 为 1 得到，并且都经过归一化层处理和 ReLU 单元激活，最后经过平均池化得到一个 64 维的向量。此模型是通过一个语音识别任务预先训练得到参数，并且参数在生成人脸的训练过程中保持不变。生成器（Generator）输入为语音嵌入模型产生的向量 e，输出是人脸 RGB 图像 f'，由 6 层二维反卷积网络构成，激活函数采用 ReLU。

判别器（Discriminator）判断输入的图像 f（或 f'）是生成器伪造的图像还是真实的人脸，如果判断为伪造图会加大损失 Ld。由 6 层激活单元为 Leaky ReLU 的二维卷积网络构成，最后经过全连接层得到人脸图像数据。

分类器（classifier）用来将人脸图像与说话者匹配，如果匹配错误会加大损失 Lc。该模型由 6 层二维卷积网络和一个全连接层组成。具体的结构如图表，其中 Conv 3/2,1代表卷积核尺寸为 3，步长为 2，padding 填充为 1。

图 | 从声音重建人脸模型的具体结构。（来源：Yandong Wen, et al./CMU）模型通过最小化判别器与分类器的交叉熵损失 Ld 和 Lc 来训练，以期得到图像逼真且符合说话者特征的人脸。值得一提的是，此模型的测试集和训练集以及验证集相互独立，即测试时的声音是未听过的，人脸也未知。

模型表现

不特意挑选那些人脸和真实讲话者完美一致的结果，一般来讲，该模型的确能输出具有讲话者特征的人脸，即使不完全一模一样，从种族以及一些其他典型的面部特征来看，这个模型的确学习到了一些信息，输出结果和原讲话者非常像，并且语音时间越长，匹配的特征越多，两者越类似。

图 | 从不同时长的正常录音生成人脸的结果图，右侧Ref为真实讲话者的不同脸部照片，从上到下的 4 位 Speaker 分别是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. （来源：Yandong Wen, et al./CMU）当然，性别及年龄特征也可以很好地被学习到，左侧输出结果的年龄和性别与右侧真实人脸的年龄性别保持一致。在整个测试集上，生成图和真实讲话者性别相同的概率可以达到 96.5%。

图 | 从性别年龄的人脸重建，（a）是从老年声音生成的人脸；（b）是男性声音生成的人脸；（c）是女性声音生成的人脸。其中左侧为生成图，右侧为真实讲话者。（来源：Yandong Wen, et al./CMU）如果用同一个人的不同语音片段，推测产生的人脸会保持相同特征吗？模型结果告诉我们，是这样。选用同一个讲话者的 7 个不同语音片段，不特意挑选完美结果，模型所推测出的大概特征是十分一致的，这也侧面说明，模型的确可以从一个人的语音抽取出一些特征，映射成其脸部的某些特征。

图 | 利用一个人的 7 段不同语音重建人脸，左图（a）是重建的 7 张人脸图，右图（b）是对应的真实人脸在不同情况的照片（来源：Yandong Wen, et al./CMU）进一步来讲，如果从语音中学到的特征真的可以映射成面部的特征，那么生成人脸图必定和真实讲话者的脸部是对应匹配的。换句话说，声音中的特征可以被生成人脸中蕴含的特征替代，那么由声音重组人脸就变成了人脸识别问题，两张脸（生成的和真实的）匹配，那么计划可行，这个匹配率也就成了衡量模型表现的指标。在整个训练集和测试集上，该模型的匹配率分别是 96.83% 和 76.07%；将训练集和测试集按照性别分层，排除性别这一特征的助力，也就是直接比较同一性别上，生成的人脸和讲话者是否相像，匹配率在训练集和测试集上分别是 93.98%和 59.69%，这也证明了模型所学到的信息不仅仅是性别，还有其他更详细的面部特征。该模型表现不仅优于 DIMNets-G，同时，测试集表现不如训练集，说明模型还有很大提升空间。

图 | 不同模型在性别分层以及不分层的数据集上的表现。（来源：Yandong Wen, et al./CMU）

展望

该模型虽然表现尚佳，但仍有可提升的地方，比如头发和图像背景等与声音无关的特征，可以进行数据清洗将其去除，而有一些明显与发声有关的面部特征也可以加以利用，从而模型会更加精确。

总的来说，由音生貌，语音画像问题的一块空白得到了填补。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30724

浏览量
268862
GaN

GaN

+关注

关注
19

文章
1933

浏览量
73272

原文标题：仅听声音就画出人脸，GAN再添新能力

文章出处：【微信号：deeptechchina，微信公众号：deeptechchina】欢迎添加关注！文章转载请注明出处。

大联大推出基于MediaTek Genio 130与ChatGPT的AI语音助理方案

，为市场带来了全新的智能交互体验。该AI语音助理方案充分利用了MediaTek Genio 130芯片的强大性能与ChatGPT的先进人工智能技术。MediaTek Genio 130芯片作为联发

发表于 12-11 11:07 •324次阅读

九芯电子NRK330X系列：智能AI专用语音识别芯片

、调节还是关机，用户只需简单口述，便能轻松完成操作。NRK330X系列：AI人机交互的高性能语音芯片2022年，九芯电子推出了高性能、低成本语音识别芯片NRK330X

发表于 11-19 01:00 •192次阅读

九芯电子NRK330X系列：智能<b class='flag-5'>AI</b>专<b class='flag-5'>用语音</b>识别芯片

《DNK210使用指南 -CanMV版 V1.0》第四十五章人脸识别实验

第四十五章人脸识别实验在上一章节中，介绍了利用maix.KPU模块实现了人脸68关键点检测，本章将继续介绍利用maix.KPU模块实现的人脸

发表于 11-18 14:30

《DNK210使用指南 -CanMV版 V1.0》第四十四章人脸68关键点检测实验

第四十四章人脸68关键点检测实验在上一章节中，介绍了利用maix.KPU模块实现了人脸属性分析，本章将继续介绍利用maix.KPU模块实现的人脸

发表于 11-18 14:28

深度识别人脸识别在任务中为什么有很强大的建模能力

深度学习人脸识别技术是人工智能领域中的一个重要分支，它利用深度学习算法来识别和验证人脸。这项技术在近年来取得了显著的进展，其强大的建模能力主要得益于以下几个方面：数据驱动的学习方式

发表于 09-10 14:53 •367次阅读

如何利用AI进行提升自我呢？

利用AI进行学习是一个高效且富有创新性的过程。以下是一些建议，帮助你充分利用AI进行学习：选择适合的AI学习工具：深度学习框架：如飞

发表于 07-19 10:46 •529次阅读

如何设计人脸识别的神经网络

识别技术主要分为两个步骤：人脸检测和人脸特征提取。人脸检测是指在图像中定位出人脸的位置和大小，人脸特征提取是指从

发表于 07-04 09:20 •640次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

自定义大模型应用并接入到开发套件上实现语音交互，由浅入深地展示如何开发自己的大模型助手。离线AI能力示例SDK清单序号AI 能力 1

发表于 06-18 17:33

主流边缘AI算法，在安防、零售、交通等领域的应用

边缘AI可以应用在哪些场景实现哪些功能。市面上主流的边缘AI算法应用目前市面上比较主流的边缘AI算法应用，包括人脸及关键点检测，关键点监测是通过快速检测

发表于 05-13 01:56 •2959次阅读

李未可科技发布全新首款AI眼镜Chat，搭载自研AI大模型

4月26日，李未可科技推出旗下首款AI眼镜——Meta Lens Chat，定价699元，并于4月26日10点正式开启预售。AI 眼镜 Chat 主打AI语音交互

发表于 04-26 10:45 •1642次阅读

stm32f0怎么不使用语音IC做合成语音？

我这边板子就一个功放电路，要求不使用语音IC做语音，我听别人说去了解MP3这一方面，但我只找到MCU软解码，但我怎么不了解，不清楚怎么做成自己的语音，要的是语音，不是歌曲

发表于 04-25 06:00

长沙智能网联汽车产业发展再添集群载体

长沙智能网联汽车产业发展再添集群载体恭喜长沙智能网联汽车产业发展再添集群载体；4月20日湘江智能网联产业孵化基地（一期）开园，湘江智能网联产业孵化基地是湘江科学城的重要组成部分，拥有

发表于 04-22 10:50 •470次阅读

公司人脸识别考勤门禁摄像机#人脸识别#智能摄像机

AI人脸识别

jf_07511428
发布于 :2024年03月06日 22:52:08

让机器拥有说话能力，智能语音与音频处理SoC

电子发烧友网报道（文/黄山明）随着生成式AI的推进，已经有越来越多的智能家居企业开始将其加入到产品当中，预计未来也会有更多的家居产品能够通过语音方式与人进行交互。而实现这一技术的前提，不仅依靠生成式

发表于 02-02 00:15 •2731次阅读

科大讯飞语音控制模块怎么用

科大讯飞语音控制模块是一种人机交互技术，它利用语音识别和语音合成技术，使用户可以通过语音指令来控制设备或应用程序。本文将详细介绍科大讯飞语音

发表于 12-25 13:58 •1795次阅读

搜索历史

利用语音直接画出人脸,AI再添新能力

评论

大联大推出基于MediaTek Genio 130与ChatGPT的AI语音助理方案

九芯电子NRK330X系列：智能AI专用语音识别芯片

《DNK210使用指南 -CanMV版 V1.0》第四十五章人脸识别实验

《DNK210使用指南 -CanMV版 V1.0》第四十四章人脸68关键点检测实验

深度识别人脸识别在任务中为什么有很强大的建模能力

如何利用AI进行提升自我呢？

如何设计人脸识别的神经网络

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

主流边缘AI算法，在安防、零售、交通等领域的应用

李未可科技发布全新首款AI眼镜Chat，搭载自研AI大模型

stm32f0怎么不使用语音IC做合成语音？

长沙智能网联汽车产业发展再添集群载体

公司人脸识别考勤门禁摄像机#人脸识别#智能摄像机

让机器拥有说话能力，智能语音与音频处理SoC

科大讯飞语音控制模块怎么用