0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

仅凭声音,AI 就能“脑补”你的脸!测试结果精度可以达到 90.25%

5RJg_mcuworld 来源:YXQ 2019-04-08 10:10 次阅读

【导语】之前我们为大家介绍过一项非常酸爽的研究“Talking Face Generation”:给定音频视频后(输入),可以让任意一个人的面部特征与输入的音视频信息保持一致,也就是说出输入的这段话。当时就想到了“杨超越的声音+高晓松的脸”这样的神仙搭配。不过,近期一项新研究再度抓到了笔者的眼睛!在最新的研究中,研究者仅需要音频信息就生成了人脸... ...如此鬼畜的操作,此乃头一次见啊!接下来就为大家介绍一下这项工作!

音频和图像是人类最常用的两种信号传输模式,图像传达的信息非常直观,而语音包含的信息其实比我们想象的要更丰富,包括说话人的身份,性别和情绪状态等等。从这两个信号中提取的特征通常是高度相关的,可以让人仅聆听声音就可以想象他的视觉外观。WAV2PIX 的工作就是仅利用语音输入,来生成说话者的人脸图像。其实这就是一个跨模态的视觉生成任务。

谈到这项研究的贡献,主要有三点:

提出了一个能够直接从原始的语音信号生成人脸的条件GAN:WAV2PIX;

提供了一个在语音和人脸两方面综合质量很高的一个数据集:Youtubers

实验证明论文的方法可以生成真实多样的人脸。

论文收集了大V用户(Youtubers)上传到 Youtube 的演讲视频,这些视频通常具有高质量的说话环境、表达方式、人脸特征等。Youtubers 数据集主要由两部分组成:一个是自动生成的数据集和一个手动处理后的高质量的子集。

主要的预处理工作:

音频最初下载的是高级音频编码(AAC)格式,44100 Hz,立体声。因此转换为 WAV 格式,并重新采样到 16 kHz,每个样例占 16 位并转换为单声道。

采用基于 Haar 特征的人脸检测器来检测正脸。仅采纳置信度高的帧

保存检测出来的那帧图像及前后两秒的语音帧,以及一个标签(identity)。

方法介绍

研究主要由三个模块构成:一个是语音编码器,一个是图片生成网络,一个是图片判别网络。

语音编码器(Speech Encoder):已有的方法大多数是手工提取音频特征,并不是针对生成网络的任务进行优化的,而 SEGAN 提出了一种在波形上用于语音处理的方法。因此作者在已有的工作 SEGAN 上进行修改。修改为具有 6 层一维网络,并且每层的 kernel 大小是 15x15,步长为 4,然后每层卷积网络后面使用 LeakyReLU 激活函数,网络的输入通道是 1。输入 16kHZ 下1 秒的语音片段,上述的卷积网络可以得到一个 4x1024 的张量,然后采用三个全连接网络将特征数量从 4x1024 降到 128。作为生成器网络的输入。

图片生成器(Image Generator Network):输入是语音编码器的 128 向量。采用二维转置卷积、插值、dropout 等方式将输入转为 64x64x3 或者 128x128x3 的张量。在 G 的损失函数中添加了一个辅助损失用于保持说话人的标签(Identity)。

图片判别器(Image Discriminator Network):判别器由几层步长为 2,kernel 大小是 4x4 的卷积网络组成,并使用谱归一化和 LeakyReLU 激活函数。当张量为 4x4 时,作者拼接了语音的输入,并采用最后一层网络来计算 D 网络的分数。

实验过程

训练:将手动处理后的数据集作为训练集,采用数据增强等手动。值得注意的是,在处理时将每张图像复制了 5 次,并将其与 4 秒音频里面随机采样的 5 个不同的1秒音频块进行匹配。因此总共有 24K 左右的图像-音频对用于模型训练。其它超参数采用参考的文献设置。

评估:下图给出了可视化的结果,虽然生成的图像都比较模糊,但基本可以观察到人的面部特征,并且有不同的面部表情。

作者进一步微调了一个预训练的 VGG-FACE Descriptor 网络,用于量化测试结果,在作者提供的数据集上,可以达到 76.81% 的语音识别准确率和 50.08% 的生成图像准确率。

为了评估模型生成图像的真实程度,作者定义了一个 68 个人脸关键点的精度检测分数。如下图所示,测试结果精度可以达到 90.25%。表明在大多数情况下生成的图像保留了基本的面部特征。

感兴趣的小伙伴们可以下载阅读研究一下~

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    364

    浏览量

    37718
  • AI
    AI
    +关注

    关注

    87

    文章

    27508

    浏览量

    265161

原文标题:仅用语音,AI 就能“脑补”你的脸! | 技术头条

文章出处:【微信号:mcuworld,微信公众号:嵌入式资讯精选】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于FPGA的类计算平台 —PYNQ 集群的无监督图像识别类计算系统

    计算的特性,搭建出基于 PYNQ 集群的通用低功耗的大规模类计算平台,并通过皮质层视觉仿真模型、HPC Benchmark 等进行了结果验证和性能测试。 (3)本设计设计的基于 NEST 仿真器
    发表于 06-25 18:35

    谷景揭秘哪些因素会影响电感测试结果

    电感作为电子电路中非常重要的一种电子元器件,它在电路中的主要作用就是储存能量和过滤信号。我们在选择电感的时候有一个重要步骤——测试测试结果的准确性可能会收到多种因素影响,下面我们就来总结一下
    的头像 发表于 06-20 10:03 58次阅读

    国产ADC可以替换AD7799在高精度微电信号测试仪中应用

    国产ADC可以替换AD7799在高精度微电信号测试仪中应用
    的头像 发表于 04-16 09:42 526次阅读
    国产ADC<b class='flag-5'>可以</b>替换AD7799在高<b class='flag-5'>精度</b>微电信号<b class='flag-5'>测试</b>仪中应用

    STM32G474 HRTIM校准精度可以达到多少?

    HRTIM提到有校准功能,保证它的高精度输出,并且按照指定的校准周期会去校准,那么这个校准精度可以达到多少?手册中暂时未找到,请问有谁知道吗?
    发表于 04-09 07:09

    ADXRS646温的手段通常有哪些?

    最近在筛选陀螺仪作用于转台,因为光纤陀螺价格比较昂贵,所以选择ADI 的ADXRS646比较符合精度要求。 请教几个问题: 1.如何尽可能的保证该芯片的的精度,是否有成熟的后处理方案可以借鉴或者
    发表于 12-29 07:05

    ADN8834温控精度达到多少?

    拟选用ADN8834做温控芯片,需要的温控精度为正负0.1℃,咨询一下ADN8834温控精度达到多少?内部集成的运放的输入失调电压随温度偏移是多少?
    发表于 12-28 06:13

    首例“AI声音侵权案”,声音AI化用于短视频

    电子发烧友网报道(文/李弯弯)AI技术的应用,给我们的生活带来了巨大改变。同时,它的不当使用也带来了侵权、诈骗等风险。近日,北京互联网法院首次组成五人合议庭,依法公开审理全国首例“AI声音侵权案
    的头像 发表于 12-20 00:28 1414次阅读

    AD7403可以有16位的输出吗?精度可以达到多少呢?

    以上的关系是如何的。还是或本器件不推荐测试10KHz以上频率的信号。 3.如果我的应用需要测量50KHz的电流信号,这款ADC可以有16位的输出吗?精度可以
    发表于 12-15 06:39

    AD625的增益精度怎么能达到0.05%的精度啊?

    运放用的AD625,增益精度达到0.02%,外围可编程的放大电路,怎么能达到0.05%的精度啊?算了几天都不行,电阻目前选用的是0.1%的精度
    发表于 11-20 06:05

    如果不按照5倍法则,对于示波器信号幅度测试精度有多大影响呢?

    如果不按照5倍法则,对于示波器信号幅度测试精度有多大影响呢? 前言: 示波器是电子工程师经常使用的测试工具之一。用它可以看到电路中的电压波形,频率,相位等。在测量中,信号幅度是很关键的
    的头像 发表于 10-22 12:33 623次阅读

    DS18B20采样温度的精度可以达到多少?

    DS18B20采样温度的精度可以达到多少
    发表于 10-12 08:14

    FPC软板强设计

    最近在某EDA画了一块FPC,有专门的FPC强工具,输出的GERBER层名也有强信息,在他们平台下单也可以自动识别强信息,而且还可以
    发表于 10-08 15:00

    AI可以根据声音进行信息解码

    根据杜伦大学、萨里大学和伦敦大学的研究人员最近发表的一篇论文显示,输入的信息可以通过手指敲击按键的声音来进行解码。
    的头像 发表于 09-04 16:33 820次阅读

    AI听键盘声就能偷你密码,准确率高达95%

    来源:量子位 你没听错,现在键盘敲字也不安全了,简直防不胜防。 编辑:感知芯视界 无了个大语!以后AI靠听键盘声就能偷你密码,准确率高达95%! 最近,来自杜伦大学等三所高校的研究人员训练了个AI
    的头像 发表于 08-21 09:21 588次阅读

    新的工作流程:利用AI实现更快速的产品开发

    AI可用于早期测试数据,以更快地了解影响结果的因素。通过AI模型预测尚未完成的测试,甚至可以更快
    的头像 发表于 07-05 10:46 469次阅读
    新的工作流程:利用<b class='flag-5'>AI</b>实现更快速的产品开发