0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google研究人员发现黑科技 只听你想听的声音

454398 来源:网络整理 作者: 工程师1 2018-04-18 00:32 次阅读

Google 的研究人员创建了一个视听模型,可以通过算法视频中的多个声音分离,得到一个清晰的单个语音。

一位二次元朋友说他有一种能力,就是在 B 站开弹幕看视频时,想看视频就看视频,想看弹幕就看弹幕,两者可以自动分离,不会互相干扰。类似的,人类在听觉上也有一种选择能力,就是人在集中注意力听某个声音时,可以自动忽略其他声音或噪音,感觉像是把要听的声音放大了一样,这种现象叫做鸡尾酒会效应。

这种能力对我们来说好像很自然,但对于计算机可是个不小的挑战。最近,Google 的研究人员创建了一个视听模型,可以通过算法将视频中的多个声音分离,得到一个清晰的单个语音。简单来说,你可以选择只听视频中某个人讲话的声音,而不用担心被干扰。

结合视觉听觉信号,识别并分离音轨

利用这种技术制作的视频可以将特定人物的声音增强,把其他无关的声音去掉。在普通的单音轨视频中,用户可以点击自己想关注的人物,或者算法会结合上下段内容来自动选择突出谁的声音。这项技术可以用于增强视频中的语音,提高视听效果。

这项技术的原理是结合视频中的听觉和视觉信号,以此来识别并分离语音。就像识别唇语的原理一样,一个人说话时发出的声音和他嘴部的运动存在某种关联,所以可以利用这一点,来辨别某段声音是谁发出的。在视觉信号的帮助下,即使是在多种声音混杂的环境中,单个声音的特征也变得更明显,更重要的是,你还可以在听到清晰声音的同时看到人嘴部的运动,更容易接收并理解信息

研究人员用 10 万个高质量的 YouTube 视频为样本,从视频中提取清晰的演讲片段,没有背景音乐、没有观众鼓掌、没有噪音,并且视频中只有一个说话的人。他们共提取出 2000 个小时的训练数据,用这些干净的视频来合成“鸡尾酒会”的效果。这样就可以训练一个卷积神经网络模型,将合成的视频分离出多个单独的音轨,也就是每个人单独的声音。将每一帧中嘴部运动的视觉信息提取出来,然后找到声谱图中对应的部分。这样就可以训练神经网络,从声音混杂的视频中,根据人的嘴部运动来提取对应的声音碎片,最后输出成具有单独声音轨道的视频,每一个人的声音都可以进行单独播放。

可以提高语音识别能力

这个黑科技在语音识别中尤其有用,比如 YouTube 自己的自动字幕,如果视频中有多种声音混合,字幕就很难准确显示,而如果这几种声音能够单独分离播放,对应的字幕也就更准确,用户也更容易理解。再往远处想,这项技术可以运用到 Google Glass 这样的智能眼镜中,即使是在纷杂世界,你也可以只关注想关注的人,只听 Ta 的声音。除此之外,带视频能力的智能音箱可能是未来的大趋势,有了语音分离能力,语音识别的能力也会更精准、更强大。

这种强大的能力也可能带来隐私问题,比如间谍电影中经常见到的天眼系统,如果再搭配语音分离的能力,岂不是可以做到视听上的全能?不过想达到那样的效果,识别能力就要很精准了。在此之前它的应用可能只是 Google 自己的产品,比如增强视频智能音箱的语音识别能力,还有让 YouTube 的自动字幕更智能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1766

    浏览量

    57619
  • 谷歌
    +关注

    关注

    27

    文章

    6172

    浏览量

    105629
收藏 人收藏

    评论

    相关推荐

    研究人员利用激光束开创量子计算新局面

    演示设备 威特沃特斯兰德大学(Wits)的物理学家利用激光束和日常显示技术开发出了一种创新的计算系统,标志着在寻求更强大的量子计算解决方案方面取得了重大飞跃。 该大学结构光实验室的研究人员取得的这一
    的头像 发表于 12-18 06:24 114次阅读
    <b class='flag-5'>研究人员</b>利用激光束开创量子计算新局面

    NVIDIA AI助力日本制药公司推进药物研发

    制药公司、医疗技术公司和学术研究人员正在开发主权 AI 能力,以驱动药物发现、加速基因组学和医疗设备。
    的头像 发表于 11-19 15:40 311次阅读

    使用PPC母版、tas5825mevm-sb进行测试,但是声音发一声,或者没有声音,为什么?

    使用PPC母版、tas5825mevm-sb进行测试,左通道连接了一个扬声器,电源是12V,按照官方文档测试,如下图。但是声音发一声,或者没有声音
    发表于 10-12 06:49

    研究人员制造可将短波红外光的频率“上转换”到可见光频率范围装置

    据麦姆斯咨询报道,近期,印度科学理工学院(IISc)的研究人员制造了一种可将短波红外光的频率“上转换”到可见光频率范围的装置。 光的上转换具有多种应用,尤其是在国防和光通信领域。首先,印度科学
    的头像 发表于 06-30 15:45 1.2w次阅读

    研究人员:微生物电池可能会对远程应用产生巨大影响

    一粒土壤中可以包含宇宙般的微生物群,据估计数量可以多达100亿。现在,位于英国巴斯的一组研究人员正在开发原型机技术,以收集一些微生物物种呼出的电子。 这个想法是为了给低产出的传感器和开关供电,并可
    的头像 发表于 06-29 17:17 1599次阅读

    使用google-translate和wwe合并后无法使用google-tts怎么解决?

    我打算使用lyrat-mini做一个使用唤醒词唤醒然后后续通过google-sr和google-tts进行交流的聊天机器人,但是当我合并了adf的例子中的wwe和google-translate之后
    发表于 06-28 06:05

    研究人员利用人工智能提升超透镜相机的图像质量

    研究人员利用深度学习技术提高了直接集成在 CMOS 成像芯片上的超透镜相机(左)的图像质量。超透镜利用 1000 纳米高的圆柱形氮化硅纳米柱阵列(右图)操纵光线。 研究人员利用深度学习技术提高了超
    的头像 发表于 06-11 06:34 390次阅读
    <b class='flag-5'>研究人员</b>利用人工智能提升超透镜相机的图像质量

    MIT/三星研究人员利用活体拉曼光谱直接观察葡萄糖指纹图谱

    MIT/三星研究人员对葡萄糖拉曼光谱进行活体观测 Direct observation of glucose fingerprint using in vivo Raman spectroscopy
    的头像 发表于 06-05 06:35 377次阅读
    MIT/三星<b class='flag-5'>研究人员</b>利用活体拉曼光谱直接观察葡萄糖指纹图谱

    光子动量的发现揭示了新型硅基光电功能

    来源:半导体芯科技编译 在加州大学欧文分校化学家的指导下,一组研究人员发现了一种光与物质相互作用的新方式。这一突破有可能提高太阳能发电系统、发光二极管、半导体激光器和其他技术的效率。研究小组
    的头像 发表于 05-28 10:00 347次阅读
    光子动量的<b class='flag-5'>发现</b>揭示了新型硅基光电功能

    研究人员利用定制光控制二维材料的量子特性

    的发展铺平了道路。 由美国能源部SLAC国家加速器实验室和斯坦福大学研究人员领导的研究小组将这种方法应用于一种名为六方氮化硼(hBN)的材料,这种材料由单层原子以蜂窝状排列而成,其特性使其非常适合量子操纵。在实验中,科学家们利用一种电
    的头像 发表于 05-06 06:29 261次阅读
    <b class='flag-5'>研究人员</b>利用定制光控制二维材料的量子特性

    研究人员开发出高性能p型非晶氧化物半导体

    和 107 的开/关电流比,与早期 n 型氧化物薄膜晶体管的关键电气属性非常相似。此外,薄膜晶体管在长时间偏置应力下表现出显著的稳定性以及大面积薄膜的均匀性。 图源:浦项工科大学 研究人员合作开发了碲硒复合氧化物半导体材料。他们成功创造了高性能和高稳定性的p型薄膜晶体管(
    的头像 发表于 04-30 14:58 534次阅读
    <b class='flag-5'>研究人员</b>开发出高性能p型非晶氧化物半导体

    突破!研究人员首次实现量子互联网关键连接

    行业芯事
    电子发烧友网官方
    发布于 :2024年04月22日 11:11:26

    研究人员发现提高激光加工分辨率的新方法

    通过透明玻璃聚焦定制激光束可以在材料内部形成一个小光斑。东北大学的研究人员研发了一种利用这种小光斑改进激光材料加工、提高加工分辨率的方法。 他们的研究成果发表在《光学通讯》(Optics
    的头像 发表于 04-18 06:30 370次阅读
    <b class='flag-5'>研究人员</b><b class='flag-5'>发现</b>提高激光加工分辨率的新方法

    谷歌发布最先进的开放模型Gemma

    和 AlphaCode。今天,我们很高兴地介绍 Google 的新一代开放模型,以协助开发者和研究人员负责任地构建 AI。
    的头像 发表于 02-23 10:12 638次阅读
    谷歌发布最先进的开放模型Gemma

    侧信道攻击技术揭示:如何利用微弱声音提取指纹

    研究人员透露,在测试中,以0.01%的高标准误认率(FAR)为条件,PrintListener有27.9%的概率成功获取指纹部分特征,9.3%的概率获取全部特征。
    的头像 发表于 02-20 14:14 552次阅读