Google研究人员发现黑科技只听你想听的声音-电子发烧友网

Google 的研究人员创建了一个视听模型，可以通过算法将视频中的多个声音分离，得到一个清晰的单个语音。

一位二次元朋友说他有一种能力，就是在 B 站开弹幕看视频时，想看视频就看视频，想看弹幕就看弹幕，两者可以自动分离，不会互相干扰。类似的，人类在听觉上也有一种选择能力，就是人在集中注意力听某个声音时，可以自动忽略其他声音或噪音，感觉像是把要听的声音放大了一样，这种现象叫做鸡尾酒会效应。

这种能力对我们来说好像很自然，但对于计算机可是个不小的挑战。最近，Google 的研究人员创建了一个视听模型，可以通过算法将视频中的多个声音分离，得到一个清晰的单个语音。简单来说，你可以选择只听视频中某个人讲话的声音，而不用担心被干扰。

结合视觉听觉信号，识别并分离音轨

利用这种技术制作的视频可以将特定人物的声音增强，把其他无关的声音去掉。在普通的单音轨视频中，用户可以点击自己想关注的人物，或者算法会结合上下段内容来自动选择突出谁的声音。这项技术可以用于增强视频中的语音，提高视听效果。

这项技术的原理是结合视频中的听觉和视觉信号，以此来识别并分离语音。就像识别唇语的原理一样，一个人说话时发出的声音和他嘴部的运动存在某种关联，所以可以利用这一点，来辨别某段声音是谁发出的。在视觉信号的帮助下，即使是在多种声音混杂的环境中，单个声音的特征也变得更明显，更重要的是，你还可以在听到清晰声音的同时看到人嘴部的运动，更容易接收并理解信息。

研究人员用 10 万个高质量的 YouTube 视频为样本，从视频中提取清晰的演讲片段，没有背景音乐、没有观众鼓掌、没有噪音，并且视频中只有一个说话的人。他们共提取出 2000 个小时的训练数据，用这些干净的视频来合成“鸡尾酒会”的效果。这样就可以训练一个卷积神经网络模型，将合成的视频分离出多个单独的音轨，也就是每个人单独的声音。将每一帧中嘴部运动的视觉信息提取出来，然后找到声谱图中对应的部分。这样就可以训练神经网络，从声音混杂的视频中，根据人的嘴部运动来提取对应的声音碎片，最后输出成具有单独声音轨道的视频，每一个人的声音都可以进行单独播放。

可以提高语音识别能力

这个黑科技在语音识别中尤其有用，比如 YouTube 自己的自动字幕，如果视频中有多种声音混合，字幕就很难准确显示，而如果这几种声音能够单独分离播放，对应的字幕也就更准确，用户也更容易理解。再往远处想，这项技术可以运用到 Google Glass 这样的智能眼镜中，即使是在纷杂世界，你也可以只关注想关注的人，只听 Ta 的声音。除此之外，带视频能力的智能音箱可能是未来的大趋势，有了语音分离能力，语音识别的能力也会更精准、更强大。

这种强大的能力也可能带来隐私问题，比如间谍电影中经常见到的天眼系统，如果再搭配语音分离的能力，岂不是可以做到视听上的全能？不过想达到那样的效果，识别能力就要很精准了。在此之前它的应用可能只是 Google 自己的产品，比如增强视频智能音箱的语音识别能力，还有让 YouTube 的自动字幕更智能。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉