0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

听音辩貌?MIT最新研究!准确率惊人

MqC7_CAAI_1981 来源:YXQ 2019-05-26 10:53 次阅读

只听声音,就能知道一个人长什么样?

是的。

大名鼎鼎的麻省理工CSAIL(人工智能实验室),最近就发布了这样一个令人惊讶的研究。只需要听6秒的声音片段,AI就能推断出说话者的容貌。

详细解释之前,咱们一起试试先。

听听下面这段录音,一共有六段。你能想象出来,说话的人长什么样么?

怎么样?你行么?

MIT研究人员,设计和训练的神经网络Speech2Face,就能通过短短的语音片段,推测出说话者的年龄、性别、种族等等多重属性,然后重建说话人的面部。

下面就是AI听声识脸,给出的结果:

左边一列是真实的照片,右边一列是神经网络根据声音推断出来的长相。

讲真,这个效果让我们佩服。

这篇论文也入围了今年的学术顶级会议CVPR 2019。

当然这个研究也会引发一些隐私方面的担忧。不过研究团队在论文中特别声明,这个神经网络不追求完全精确还原单一个体的脸部图像。

不同的语言也有影响。论文中举了一个案例,同一男子分别说中文和英文,AI却分别还原出了不同的面孔样貌。当然,这也跟口音、发声习惯等相关。

另外,研究团队也表示,目前这套系统对还原白人和东亚人的面孔效果更好。可能由于印度和黑人的数据较少,还原效果还有待进一步提高。

原理

从声音推断一个人的长相不是一种玄学,平时我们在打电话时会根据对方的声音脑补出相貌特征。

这是因为,年龄、性别、嘴巴形状、面部骨骼结构,所有这些都会影响人发出的声音。此外,语言、口音、速度通常会体现出一个的民族、地域、文化特征。

AI正是根据语音和相貌的关联性做出推测。

为此,研究人员提取了几百万个YouTube视频,通过训练,让深度神经网络学习声音和面部的相关性,找到说话的人一些基本特征,比如年龄、性别、种族等,并还原出相貌。

而且在这个过程中,不需要人类标记视频,由模型自我监督学习。这就是文章中所说的Speech2Face模型。

将电话另一端通过卡通人物的方式显示在你的手机上,可能是Speech2Face未来的一种实际应用。

模型结构

Speech2Face模型是如何还原人脸的,请看下图:

给这个网络输入一个复杂的声谱图,它将会输出4096-D面部特征,然后使用预训练的面部解码器将其还原成面部的标准图像。

训练模块在图中用橙色部分标记。在训练过程中,Speech2Face模型不会直接用人脸图像与原始图像进行对比,而是与原始图像的4096-D面部特征对比,省略了恢复面部图像的步骤。

在训练完成后,模型在推理过程中才会使用面部解码器恢复人脸图像。

训练过程使用的是AVSpeech数据集,它包含几百万个YouTube视频,超过10万个人物的语音-面部数据。

在具体细节上,研究使用的中每个视频片段开头最多6秒钟的音频,并从中裁剪出人脸面部趋于,调整到224×224像素。

从原始图像提取特征重建的人脸,以及从声音推测的人脸

之前,也有人研究过声音推测面部特征,但都是从人的声音预测一些属性,然后从数据库中获取最适合预测属性的图像,或者使用这些属性来生成图像。

然而,这种方法存在局限性,需要有标签来监督学习,系统的鲁棒性也较差。

由于人脸图像中面部表情、头部姿态、遮挡和光照条件的巨大变化,想要获得稳定的输出结果,Speech2Face人脸模型的设计和训练变得非常重要。

一般从输入语音回归到图像的简单方法不起作用,模型必须学会剔除数据中许多不相关的变化因素,并隐含地提取人脸有意义的内部表示。

为了解决这些困难,模型不是直接得到人脸图像,而是回归到人脸的低维中间表示。更具体地说,是利用人脸识别模型VGG-Face,并从倒数第二层的网络提取一个4096-D面部特征。

模型的pipeline由两个主要部分组成:

1、语音编码器

语音编码器模块是一个CNN,将输入的语音声谱图转换成伪人脸特征,并预测面部的低维特征,随后将其输入人脸解码器以重建人脸图像。

2、面部解码器

面部解码器的输入为低维面部特征,并以标准形式(正面和中性表情)产生面部图像。

在训练过程中,人脸解码器是固定的,只训练预测人脸特征的语音编码器。语音编码器是作者自己设计和训练的模型,而面部解码器使用的是前人提出的模型。

将实验结果更进一步,Speech2Face还能用于人脸检索。把基于语音的人脸预测结果与数据库中的人脸进行比较,系统将给出5个最符合的人脸照片。

不足之处

若根据语言来预测种族,那么一个人说不同的语言会导致不同的预测结果吗?

研究人员让一个亚洲男性分别说英语和汉语,结果分别得到了2张不同的面孔。

模型有时候也能正确预测结果,比如让一个亚洲小女孩说英文,虽然恢复出的图像和本人有很大差距,但仍可以看出黄种人的面部特征。

研究人员表示,这个小女孩并没有明显的口音特征,所以他们的模型还要进一步检查来确定对语言的依赖程度。

在其他一些情况下,模型也会“翻车”。比如:变声期之前的儿童,会导致模型误判性别发生错误;口音与种族特征不匹配;将老人识别为年轻人,或者是年轻人识别为老人。

作者团队

这个研究的作者,大部分来自MIT CSAIL。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • MIT
    MIT
    +关注

    关注

    3

    文章

    253

    浏览量

    23360
  • 深度学习
    +关注

    关注

    73

    文章

    5492

    浏览量

    120958

原文标题:MIT脑洞研究!只听6秒语音,就知道你长什么样,效果好得不敢信

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    微机保护装置预警功能的准确率

    异常状态。 微机保护装置的预警功能准确率是衡量其性能的重要指标,它直接关系到装置能否及时准确地检测潜在的故障或异常情况,从而预防事故的发生。 准确率影响因素: 1.硬件性能:高精度的传感器和强大的数据处理单元直
    的头像 发表于 11-03 16:10 122次阅读

    SynSense时识科技与海南大学联合研究成果发布

    处理器Xylo和脉冲神经网络技术实现超低功耗的实时癫痫检测系统,结果显示系统准确率高达93.3%,检测延迟平均仅0.5秒,计算功耗仅为287.9微瓦。
    的头像 发表于 10-23 14:40 253次阅读
    SynSense时识科技与海南大学联合<b class='flag-5'>研究</b>成果发布

    ai人工智能回答准确率高吗

    人工智能(AI)回答的准确率是一个相对的概念,会受到多个因素的影响,因此不能一概而论地说其准确率高或低。以下是对AI回答准确率及其影响因素的分析: 一、AI回答准确率的现状 在某些特定
    的头像 发表于 10-17 16:30 1933次阅读

    TLV320AIC23B为什么无法准确得到8K采样

    能否帮忙解释下TLV320AIC23B 规格书中提到的这句话的解释, 我们理解是在usb mode 下,由于超采样关系,无法准确得到8K采样,实际的采样应该为8.021k。 目前我们AIC23B
    发表于 10-09 10:15

    NIUSB6009 采集准确率的问题?

    NIUSB6009 采集准确率的问题? 一、本人做一个中间继电器电性能实验的装置 1、PLC带动中间继电器吸合和释放,(吸合用时1.5秒,释放用时1.5秒)周而复始的运动。 2、中间继电器的触头负载
    发表于 09-23 15:59

    准确率高达97%!脑机接口让渐冻症患者重新“说话”

    行业芯事行业资讯
    电子发烧友网官方
    发布于 :2024年08月16日 10:51:58

    如何快速检测原理图中的元器件与PLM系统的一致性,提高原理图设计准确

    背景介绍保证原理图中的元器件来源于公司的PLM系统、ERP系统的,是输出有效BOM的根源,初始BOM的准确率,能大大降低ECN的数量,提高生产备料的时效,缩短采购周期。然而,原理图设计过程中,由于
    的头像 发表于 05-13 17:40 596次阅读
    如何快速检测原理图中的元器件与PLM系统的一致性,提高原理图设计<b class='flag-5'>准确</b>性

    OpenAI推出专用的AI检测工具

    OpenAI最近推出了一款全新的AI检测工具,这款工具专门针对由DALL·E 3模型生成的图片。令人印象深刻的是,该工具能够精准识别出这类图片,其准确率高达98%。这一举措的主要目的是为了协助研究人员在内容真实性方面进行深入的研究
    的头像 发表于 05-09 10:01 484次阅读

    自动雨量监测系统(准确地预测降雨情况,提高预报的准确率

    对工程的影响,及时采取相应的措施,保障工程的安全运行。在气象预报方面,它可以帮助气象工作者更准确地预测降雨情况,提高预报的准确率
    的头像 发表于 03-28 14:59 469次阅读

    谷歌AI预测洪灾准确率提高,最多提前7天

    3 月 22 日,据报道,Google 近期荣获《Nature》认可,发表其借助人工智能技术精准预测洪灾的研究进展。此举或将破解长期困扰全球 80 余国地区居民的洪水预警难题。
    的头像 发表于 03-22 15:00 490次阅读

    在全志V853平台上成功部署深度学习步态识别算法

    模型针对相同条件下的识别准确率数据。其中NM表示正常行走状态、BG表示背包行走,CL表示穿外套行走。 除了针对步态识别准确率进行了测试,本研究也对步态识别的实时性进行了测试。对于单人步态识别,前处理
    发表于 03-04 10:15

    机器学习和代谢图谱相结合,早期卵巢癌检测准确率高达93%

    卵巢癌因不易察觉且晚确诊而被视为无声杀手。据报道,晚期卵巢癌患者的五年存活仅为31%,而及早发现与治疗,这一比例便可提高到90%以上。尽管从三十年前起已有专家尝试以各种方式探寻早期检测方法,但至今未能取得显著进展。
    的头像 发表于 02-02 16:04 725次阅读

    如何准确计算低电平分辨编码器TLE9243QK_BASE_BOARD的速度?

    嗨,我正在使用低电平分辨编码器来控制 PMSM,我有一个问题,如何准确计算低电平分辨编码器 TLE9243QK_BASE_BOARD 的速度?
    发表于 01-22 07:08

    请问要达到0.05%的测量精度,需要多少位分辨准确度的ADC?

    请问要达到0.05%的测量精度,需要多少位分辨准确度的ADC。 能不能推荐几款,最好是能有2路同时输入的高精度ADC.
    发表于 12-18 06:54