0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google研究人员发现黑科技 只听你想听的声音

454398 来源:网络整理 作者: 工程师1 2018-04-18 00:32 次阅读

Google 的研究人员创建了一个视听模型,可以通过算法视频中的多个声音分离,得到一个清晰的单个语音。

一位二次元朋友说他有一种能力,就是在 B 站开弹幕看视频时,想看视频就看视频,想看弹幕就看弹幕,两者可以自动分离,不会互相干扰。类似的,人类在听觉上也有一种选择能力,就是人在集中注意力听某个声音时,可以自动忽略其他声音或噪音,感觉像是把要听的声音放大了一样,这种现象叫做鸡尾酒会效应。

这种能力对我们来说好像很自然,但对于计算机可是个不小的挑战。最近,Google 的研究人员创建了一个视听模型,可以通过算法将视频中的多个声音分离,得到一个清晰的单个语音。简单来说,你可以选择只听视频中某个人讲话的声音,而不用担心被干扰。

结合视觉听觉信号,识别并分离音轨

利用这种技术制作的视频可以将特定人物的声音增强,把其他无关的声音去掉。在普通的单音轨视频中,用户可以点击自己想关注的人物,或者算法会结合上下段内容来自动选择突出谁的声音。这项技术可以用于增强视频中的语音,提高视听效果。

这项技术的原理是结合视频中的听觉和视觉信号,以此来识别并分离语音。就像识别唇语的原理一样,一个人说话时发出的声音和他嘴部的运动存在某种关联,所以可以利用这一点,来辨别某段声音是谁发出的。在视觉信号的帮助下,即使是在多种声音混杂的环境中,单个声音的特征也变得更明显,更重要的是,你还可以在听到清晰声音的同时看到人嘴部的运动,更容易接收并理解信息

研究人员用 10 万个高质量的 YouTube 视频为样本,从视频中提取清晰的演讲片段,没有背景音乐、没有观众鼓掌、没有噪音,并且视频中只有一个说话的人。他们共提取出 2000 个小时的训练数据,用这些干净的视频来合成“鸡尾酒会”的效果。这样就可以训练一个卷积神经网络模型,将合成的视频分离出多个单独的音轨,也就是每个人单独的声音。将每一帧中嘴部运动的视觉信息提取出来,然后找到声谱图中对应的部分。这样就可以训练神经网络,从声音混杂的视频中,根据人的嘴部运动来提取对应的声音碎片,最后输出成具有单独声音轨道的视频,每一个人的声音都可以进行单独播放。

可以提高语音识别能力

这个黑科技在语音识别中尤其有用,比如 YouTube 自己的自动字幕,如果视频中有多种声音混合,字幕就很难准确显示,而如果这几种声音能够单独分离播放,对应的字幕也就更准确,用户也更容易理解。再往远处想,这项技术可以运用到 Google Glass 这样的智能眼镜中,即使是在纷杂世界,你也可以只关注想关注的人,只听 Ta 的声音。除此之外,带视频能力的智能音箱可能是未来的大趋势,有了语音分离能力,语音识别的能力也会更精准、更强大。

这种强大的能力也可能带来隐私问题,比如间谍电影中经常见到的天眼系统,如果再搭配语音分离的能力,岂不是可以做到视听上的全能?不过想达到那样的效果,识别能力就要很精准了。在此之前它的应用可能只是 Google 自己的产品,比如增强视频智能音箱的语音识别能力,还有让 YouTube 的自动字幕更智能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1752

    浏览量

    57358
  • 谷歌
    +关注

    关注

    27

    文章

    6126

    浏览量

    104902
收藏 人收藏

    评论

    相关推荐

    研究人员:微生物电池可能会对远程应用产生巨大影响

    一粒土壤中可以包含宇宙般的微生物群,据估计数量可以多达100亿。现在,位于英国巴斯的一组研究人员正在开发原型机技术,以收集一些微生物物种呼出的电子。 这个想法是为了给低产出的传感器和开关供电,并可
    的头像 发表于 06-29 17:17 1501次阅读

    研究人员利用人工智能提升超透镜相机的图像质量

    研究人员利用深度学习技术提高了直接集成在 CMOS 成像芯片上的超透镜相机(左)的图像质量。超透镜利用 1000 纳米高的圆柱形氮化硅纳米柱阵列(右图)操纵光线。 研究人员利用深度学习技术提高了超
    的头像 发表于 06-11 06:34 312次阅读
    <b class='flag-5'>研究人员</b>利用人工智能提升超透镜相机的图像质量

    MIT/三星研究人员利用活体拉曼光谱直接观察葡萄糖指纹图谱

    MIT/三星研究人员对葡萄糖拉曼光谱进行活体观测 Direct observation of glucose fingerprint using in vivo Raman spectroscopy
    的头像 发表于 06-05 06:35 296次阅读
    MIT/三星<b class='flag-5'>研究人员</b>利用活体拉曼光谱直接观察葡萄糖指纹图谱

    研究人员利用定制光控制二维材料的量子特性

    的发展铺平了道路。 由美国能源部SLAC国家加速器实验室和斯坦福大学研究人员领导的研究小组将这种方法应用于一种名为六方氮化硼(hBN)的材料,这种材料由单层原子以蜂窝状排列而成,其特性使其非常适合量子操纵。在实验中,科学家们利用一种电
    的头像 发表于 05-06 06:29 211次阅读
    <b class='flag-5'>研究人员</b>利用定制光控制二维材料的量子特性

    研究人员开发出高性能p型非晶氧化物半导体

    和 107 的开/关电流比,与早期 n 型氧化物薄膜晶体管的关键电气属性非常相似。此外,薄膜晶体管在长时间偏置应力下表现出显著的稳定性以及大面积薄膜的均匀性。 图源:浦项工科大学 研究人员合作开发了碲硒复合氧化物半导体材料。他们成功创造了高性能和高稳定性的p型薄膜晶体管(
    的头像 发表于 04-30 14:58 433次阅读
    <b class='flag-5'>研究人员</b>开发出高性能p型非晶氧化物半导体

    研究人员发现提高激光加工分辨率的新方法

    通过透明玻璃聚焦定制激光束可以在材料内部形成一个小光斑。东北大学的研究人员研发了一种利用这种小光斑改进激光材料加工、提高加工分辨率的方法。 他们的研究成果发表在《光学通讯》(Optics
    的头像 发表于 04-18 06:30 292次阅读
    <b class='flag-5'>研究人员</b><b class='flag-5'>发现</b>提高激光加工分辨率的新方法

    研究人员首次将光子滤波器和调制器组合在单个芯片上

    悉尼大学的研究人员将光子滤波器和调制器组合在单个芯片上,使他们能够精确检测宽带射频频谱上的信号。这项工作使光子芯片更接近有朝一日,有可能取代光纤网络中体积更大、更复杂的电子射频芯片。
    的头像 发表于 01-02 16:30 578次阅读

    研究人员发现光子探测新技术

      中佛罗里达大学研究员、纳米科学技术中心教授Debashis Chanda开发了一种新技术来检测光子——从可见光到无线电频率的基本粒子,在携带细胞通信方面起着重要作用。 这一进步可能会导致各个领域
    的头像 发表于 12-21 06:35 324次阅读

    研究人员创造一种六角形心电图贴片 实现遥感与数据传输功能

    导    语在《Applied Physics Reviews》期刊上,研究人员提出了一种新型可穿戴心电图贴片,旨在增强床旁诊断,检测心血管疾病并帮助评估整体心脏健康状况。该研究的重点在于利用有源干
    的头像 发表于 12-13 16:44 438次阅读

    研究人员设计一种新的3D喷墨打印技术

    据悉,一带韧带和肌腱的骨骼机械手现在可以通过一次3D打印完成 —— 这是通过一种新的增材制造方法实现的,这种方法可以同时以高分辨率打印刚性和弹性材料。 这项新工作是瑞士苏黎世联邦理工学院的研究人员
    的头像 发表于 11-20 17:01 673次阅读

    SC23 | 研究人员竞相使用 NVIDIA CUDA Quantum 大力推进研究工作

    众多企业机构正通过 NVIDIA 软件和 GPU 上的混合量子计算获得洞察,全球最大的化工企业巴斯夫就是其中之一。 巴斯夫的两位研究人员 Michael Kuehn 和 Davide Vodola
    的头像 发表于 11-14 20:05 560次阅读
    SC23 | <b class='flag-5'>研究人员</b>竞相使用 NVIDIA CUDA Quantum 大力推进<b class='flag-5'>研究</b>工作

    谷歌研究人员利用现有的耳机来测量心率

    谷歌的研究人员发现,当音乐播放时,超声波方法效果很好,但它在嘈杂的环境中还可能存在问题,“APG信号有时会非常嘈杂,或可受到身体运动的严重干扰。”然而,他们发现,他们可以通过使用多个频率并找出其中最准确的信号来克服运动问题。
    的头像 发表于 11-09 16:32 632次阅读

    谷歌研究人员发现耳机和软件可使用超声波测量心率

    在9to5Google近日发现的一个新的研究博客中写道,他们尝试了一种不同的方法,称为听力体积描记术(audioplethysmography,APG),使用超声波测量心率。他们用现成的有源降噪
    的头像 发表于 11-09 16:32 1237次阅读

    研究人员发现了迄今为止最快的半导体

    科学家们发现了他们所说的迄今为止最快、最高效的半导体。尽管这种新材料是用地球上最稀有的元素之一制成,但研究人员表示,有可能会发现由更丰富的材料制成的替代物,其运行速度相当快。
    的头像 发表于 11-08 16:28 580次阅读

    加州大学研究人员推出首款稳定的全固态热晶体管

    加州大学洛杉矶分校(UCLA)的一组研究人员利用电场来调节半导体器件的传热,推出了首款稳定的全固态热晶体管。 该小组的研究详细阐述了该设备的预期应用和操作机制,该研究计划发表在11月3日的《科学
    的头像 发表于 11-07 15:42 510次阅读