0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用语音直接画出人脸,AI再添新能力

hl5C_deeptechch 来源:YXQ 2019-07-17 09:54 次阅读

听声辨人,利用声纹进行解锁,这种技术已广泛应用,人类的声音含有该个体的一定特征,从而可以进行区分。那么仅通过声音,能否画出人像,并且尽可能地与讲话者相似呢?

近日,卡内基梅隆大学的Yandong Wen 等人,利用生成对抗网络模型(generative adversarial networks, GANs)首次对这一问题作出研究,利用讲话者的语音生成一些匹配原说话者面部特征的人脸,并用交叉模态匹配(cross-modal matching task)评估了模型表现,可谓是语音画像领域的一大突破

模型框架

一个人的声音和骨骼结构、发声部位的形状等特征的确有关,但利用语音直接画出人脸,如何做到?

该由声音重建人脸的模型框架主要由四个卷积网络:语音嵌入模型(voice embedding network)、生成器(Generator)、判别器(Discriminator)、分类器(classifier)组成。

语音嵌入模型(voice embedding network)将输入的语音数据,梅尔倒频谱(log mel-spectrograms)转换为含有该声音特征的向量 e。该模型含有 5 层一维卷积神经网络,每一层均是经由卷积核为 3、步长为 2、padding 为 1 得到,并且都经过归一化层处理和 ReLU 单元激活,最后经过平均池化得到一个 64 维的向量。此模型是通过一个语音识别任务预先训练得到参数,并且参数在生成人脸的训练过程中保持不变。生成器(Generator)输入为语音嵌入模型产生的向量 e,输出是人脸 RGB 图像 f',由 6 层二维反卷积网络构成,激活函数采用 ReLU。

判别器(Discriminator)判断输入的图像 f(或 f')是生成器伪造的图像还是真实的人脸,如果判断为伪造图会加大损失 Ld。由 6 层激活单元为 Leaky ReLU 的二维卷积网络构成,最后经过全连接层得到人脸图像数据。

分类器(classifier)用来将人脸图像与说话者匹配,如果匹配错误会加大损失 Lc。该模型由 6 层二维卷积网络和一个全连接层组成。具体的结构如图表,其中 Conv 3/2,1代表卷积核尺寸为 3,步长为 2,padding 填充为 1。

图 | 从声音重建人脸模型的具体结构。(来源:Yandong Wen, et al./CMU)模型通过最小化判别器与分类器的交叉熵损失 Ld 和 Lc 来训练,以期得到图像逼真且符合说话者特征的人脸。值得一提的是,此模型的测试集和训练集以及验证集相互独立,即测试时的声音是未听过的,人脸也未知。

模型表现

不特意挑选那些人脸和真实讲话者完美一致的结果,一般来讲,该模型的确能输出具有讲话者特征的人脸,即使不完全一模一样,从种族以及一些其他典型的面部特征来看,这个模型的确学习到了一些信息输出结果和原讲话者非常像,并且语音时间越长,匹配的特征越多,两者越类似

图 | 从不同时长的正常录音生成人脸的结果图,右侧Ref为真实讲话者的不同脸部照片,从上到下的 4 位 Speaker 分别是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. (来源:Yandong Wen, et al./CMU)当然,性别及年龄特征也可以很好地被学习到,左侧输出结果的年龄和性别与右侧真实人脸的年龄性别保持一致。在整个测试集上,生成图和真实讲话者性别相同的概率可以达到 96.5%

图 | 从性别年龄的人脸重建,(a)是从老年声音生成的人脸;(b)是男性声音生成的人脸;(c)是女性声音生成的人脸。其中左侧为生成图,右侧为真实讲话者。(来源:Yandong Wen, et al./CMU)如果用同一个人的不同语音片段,推测产生的人脸会保持相同特征吗?模型结果告诉我们,是这样。选用同一个讲话者的 7 个不同语音片段,不特意挑选完美结果,模型所推测出的大概特征是十分一致的,这也侧面说明,模型的确可以从一个人的语音抽取出一些特征,映射成其脸部的某些特征。

图 | 利用一个人的 7 段不同语音重建人脸,左图(a)是重建的 7 张人脸图,右图(b)是对应的真实人脸在不同情况的照片(来源:Yandong Wen, et al./CMU)进一步来讲,如果从语音中学到的特征真的可以映射成面部的特征,那么生成人脸图必定和真实讲话者的脸部是对应匹配的。换句话说,声音中的特征可以被生成人脸中蕴含的特征替代,那么由声音重组人脸就变成了人脸识别问题,两张脸(生成的和真实的)匹配,那么计划可行,这个匹配率也就成了衡量模型表现的指标。在整个训练集和测试集上,该模型的匹配率分别是 96.83% 和 76.07%;将训练集和测试集按照性别分层,排除性别这一特征的助力,也就是直接比较同一性别上,生成的人脸和讲话者是否相像,匹配率在训练集和测试集上分别是 93.98%和 59.69%,这也证明了模型所学到的信息不仅仅是性别,还有其他更详细的面部特征。该模型表现不仅优于 DIMNets-G,同时,测试集表现不如训练集,说明模型还有很大提升空间。

图 | 不同模型在性别分层以及不分层的数据集上的表现。(来源:Yandong Wen, et al./CMU)

展望

该模型虽然表现尚佳,但仍有可提升的地方,比如头发和图像背景等与声音无关的特征,可以进行数据清洗将其去除,而有一些明显与发声有关的面部特征也可以加以利用,从而模型会更加精确。

总的来说,由音生貌,语音画像问题的一块空白得到了填补。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30724

    浏览量

    268862
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1933

    浏览量

    73272

原文标题:仅听声音就画出人脸,GAN再添新能力

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    大联大推出基于MediaTek Genio 130与ChatGPT的AI语音助理方案

    ,为市场带来了全新的智能交互体验。 该AI语音助理方案充分利用了MediaTek Genio 130芯片的强大性能与ChatGPT的先进人工智能技术。MediaTek Genio 130芯片作为联发
    的头像 发表于 12-11 11:07 324次阅读

    九芯电子NRK330X系列:智能AI用语音识别芯片

    、调节还是关机,用户只需简单口述,便能轻松完成操作。NRK330X系列:AI人机交互的高性能语音芯片2022年,九芯电子推出了高性能、低成本语音识别芯片NRK330X
    的头像 发表于 11-19 01:00 192次阅读
    九芯电子NRK330X系列:智能<b class='flag-5'>AI</b>专<b class='flag-5'>用语音</b>识别芯片

    《DNK210使用指南 -CanMV版 V1.0》第四十五章 人脸识别实验

    第四十五章 人脸识别实验 在上一章节中,介绍了利用maix.KPU模块实现了人脸68关键点检测,本章将继续介绍利用maix.KPU模块实现的人脸
    发表于 11-18 14:30

    《DNK210使用指南 -CanMV版 V1.0》第四十四章 人脸68关键点检测实验

    第四十四章 人脸68关键点检测实验 在上一章节中,介绍了利用maix.KPU模块实现了人脸属性分析,本章将继续介绍利用maix.KPU模块实现的人脸
    发表于 11-18 14:28

    深度识别人脸识别在任务中为什么有很强大的建模能力

    深度学习人脸识别技术是人工智能领域中的一个重要分支,它利用深度学习算法来识别和验证人脸。这项技术在近年来取得了显著的进展,其强大的建模能力主要得益于以下几个方面: 数据驱动的学习方式
    的头像 发表于 09-10 14:53 367次阅读

    如何利用AI进行提升自我呢?

    利用AI进行学习是一个高效且富有创新性的过程。以下是一些建议,帮助你充分利用AI进行学习: 选择适合的AI学习工具 : 深度学习框架 :如飞
    的头像 发表于 07-19 10:46 529次阅读

    如何设计人脸识别的神经网络

    识别技术主要分为两个步骤:人脸检测和人脸特征提取。人脸检测是指在图像中定位出人脸的位置和大小,人脸特征提取是指从
    的头像 发表于 07-04 09:20 640次阅读

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    自定义大模型应用并接入到开发套件上实现语音交互,由浅入深地展示如何开发自己的大模型助手。 离线AI能力示例SDK清单 序号AI 能力 1
    发表于 06-18 17:33

    主流边缘AI算法,在安防、零售、交通等领域的应用

    边缘AI可以应用在哪些场景实现哪些功能。   市面上主流的边缘AI算法应用   目前市面上比较主流的边缘AI算法应用,包括人脸及关键点检测,关键点监测是通过快速检测
    的头像 发表于 05-13 01:56 2959次阅读

    李未可科技发布全新首款AI眼镜Chat,搭载自研AI大模型

        4月26日,李未可科技推出旗下首款AI眼镜——Meta Lens Chat,定价699元,并于4月26日10点正式开启预售。AI 眼镜 Chat 主打AI语音交互
    发表于 04-26 10:45 1642次阅读
    李未可科技发布全新首款<b class='flag-5'>AI</b>眼镜Chat,搭载自研<b class='flag-5'>AI</b>大模型

    stm32f0怎么不使用语音IC做合成语音

    我这边板子就一个功放电路,要求不使用语音IC做语音,我听别人说去了解MP3这一方面,但我只找到MCU软解码,但我怎么不了解,不清楚怎么做成自己的语音,要的是语音,不是歌曲
    发表于 04-25 06:00

    长沙智能网联汽车产业发展集群载体

    长沙智能网联汽车产业发展集群载体 恭喜长沙智能网联汽车产业发展集群载体;4月20日湘江智能网联产业孵化基地(一期)开园,湘江智能网联产业孵化基地是湘江科学城的重要组成部分,拥有
    的头像 发表于 04-22 10:50 470次阅读

    公司人脸识别考勤门禁摄像机#人脸识别#智能摄像机

    AI人脸识别
    jf_07511428
    发布于 :2024年03月06日 22:52:08

    让机器拥有说话能力,智能语音与音频处理SoC

    电子发烧友网报道(文/黄山明)随着生成式AI的推进,已经有越来越多的智能家居企业开始将其加入到产品当中,预计未来也会有更多的家居产品能够通过语音方式与人进行交互。而实现这一技术的前提,不仅依靠生成式
    的头像 发表于 02-02 00:15 2731次阅读

    科大讯飞语音控制模块怎么用

    科大讯飞语音控制模块是一种人机交互技术,它利用语音识别和语音合成技术,使用户可以通过语音指令来控制设备或应用程序。本文将详细介绍科大讯飞语音
    的头像 发表于 12-25 13:58 1795次阅读