谷歌拟用WaveNetEQ技术提高Duo的通话质量可自动判断且替换丢失的音频数据-电子发烧友网

随着 4G、5G 通信技术发展，网络通话越来越盛行。但是网络不稳定是常态，所以通话中我们时不时可能会蹦出一句，“你能再重复一遍吗，刚刚网络不太好。”为了提高通话质量，谷歌近期在视频聊天应用 Duo 中应用了一种新技术 WaveNetEQ ，在出现音频丢包情况时，该技术会判断丢失的音频数据可能是什么，并替换掉它。

背后的技术支持来自谷歌声名在外的 DeepMind 团队。

一个完整的在线呼叫，数据经常会被分成多个小块，每小块就是一个数据包 packet 。然而，在这些“数据包”从发送方传输到接收方的过程中，数据包通常会以错误的顺序到达，从而产生抖动相关问题，或者直接丢失，造成音频空白。

谷歌给出一份资料显示， Duo 99% 的通话都有数据包丢失、过度抖动或网络延迟情况。20% 的通话丢失了超过 3% 的音频，10% 的通话丢包率超过 8% ，也就是说每次通话都有很多音频需要替换。

每个视音频 app 都会用某种方式处理丢包。谷歌表示，这些数据包丢失隐藏（PLC）过程可能很难更好地填补 60 毫秒或更长时间的空白。过去常用算法是 NetEQ ，这是 webRTC 中音频技术方面的两大核心技术之一（另一核心技术是音频的前后处理，包括AEC、ANS、AGC等）。webRTC 是谷歌收购 GIPS 再开源的，是目前影响力极大的实时音视频通信解决方案，但用它处理丢包，大多情况下听起来像机器人或机械重复。

谷歌就用了大量的语音数据，训练出了基于 DeepMind WaveRNN 技术的 WaveNetEQ 模型。训练数据集来自 100 多名、48 种不同语言的志愿者，也就是说它可以自动填补 48 种语言的丢包情况。

WaveNetEQ 是一种用于语音合成的递归神经网络模型，由两部分组成，即自回归网络（autoregressive network）和条件网络（conditioning network）。自回归网络的作用是保持信号的平稳流动，而条件网络控制和影响自回归网络以保持音频一致性。

谷歌用 WaveNetEQ 取代了原来的 NetEQ PLC 组件，相对于 NetEQ ，它在声音质感方面无疑有提升，而且 WaveNetEQ 模型跑得足够快，可以在手机上运行，如此也可以规避用户可能担心的数据隐私问题。谷歌称所有的处理都是在设备上进行，因为 Duo 的通话默认情况下就是端到端加密。一旦通话的真实音频恢复，将无缝地切换到现实对话。

不过，WaveNetEQ 替换的内容和时长有限制。目前是支持在 120 毫秒以内的空白，之后会逐渐消失并归零；WaveNetEQ 不是生成完整的单词，而是简单的音节。

目前 WaveNetEQ 已经应用到 Pixel 4 手机上的 Duo APP 中，谷歌表示，它正在将其推广到其他安卓手机上。

当然用机器学习处理音频丢包并不是头一遭，许多公司都在研究相关技术，以国内公司为例，有些是自身业务本就涉及视音频，比如腾讯；有些是音视频云服务商，比如阿里，还有一些是专门的音视频第三方服务商如声网等。
责任编辑：wv

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6168

浏览量
105409
通话

通话

+关注

关注
0

文章
27

浏览量
9546
DeepMind

DeepMind

+关注

关注
0

文章
130

浏览量
10868

即时通话软件音频传输质量测试方案

使用过程中的音频传输质量。即时通话软件基于移动网络链路传输信号，通过本套测试方案中配套的网络损伤仿真设备对传输链路添加不同的网络影响，模拟软件在不同网络环境下的使用情况，进而测得更接近真实应用场景下的

发表于 12-03 14:34 •147次阅读

即时<b class='flag-5'>通话</b>软件<b class='flag-5'>音频</b>传输<b class='flag-5'>质量</b>测试方案

请问TLV320AIC3254EVM-K怎么读取音频数据流？

您好，我在学习TLV320AIC3254EVM-K开发板的过程中碰到一个这样的问题，TI提供的软件是否具备读取I2S的音频数据流的功能，或者是否有PC机软件可以读取音频数据流，或者其它方法？请高手帮忙解决，万分感谢！

发表于 10-31 06:14

请问TLV320AIC3254采样后的音频数据如何在电脑上播放？

TLV320AIC3254采样后的音频数据如何在电脑上播放

发表于 10-25 07:58

使用PCM4204进行音频数据采集的过程中，如何把采集到的音频数据通过USB传输到PC上呢？

在使用PCM4204进行音频数据采集的过程中，如何把采集到的音频数据通过USB传输到PC上呢？USB控制命令和音频数据如何做，麻烦大佬指点一下，谢谢！

发表于 10-15 06:44

PCM1860音频数据传输格式不可控怎么处理？

一.问题：PCM1860音频数据传输格式不可控，且音频传输格式具有随机性。在使用PCM1860+TI28335电路板，采集驻极体麦克信号（连接pcm1860的VINL1和VINL2接口

发表于 10-10 06:12

怎么判断PLC程序丢失了

PLC（Programmable Logic Controller，可编程逻辑控制器）是一种广泛应用于工业自动化领域的控制器。PLC程序丢失可能会导致设备无法正常运行，甚至造成生产中断。因此，判断

发表于 07-25 10:01 •1315次阅读

如何设置I2S寄存器以接收32位字的24位音频数据？

。I2S_FIFO_CONF寄存器的第 16-18 位的 Rx FIFO 模式设置为 2 （= 每通道 24 位，全数据中断）。从从ADC接收的数据来看，当我将I2S_BITS_MOD设置为15时，似乎丢失了最高有效位。如何设

发表于 07-19 10:14

请问如何输出32bit的i2s音频数据？

播放蓝牙音乐的时候，接收到音频是Receive music info from Bluetooth, sample_rates=44100, bits=16, ch=2。但是我的功放是要使用bits=32的音频数据。如何修改？。谢谢

发表于 06-28 06:27

ble和a2dp共存，进入ble扫描的时候，音频数据接收会丢失怎么解决？

ble和a2dp共存，进入ble扫描的时候。音频数据接收会丢失。会卡卡顿怎么解决？

发表于 06-24 08:10

音频放大器怎么判断好坏

音频放大器的好坏直接影响到音质的表现和音响系统的稳定性。下面将从多个方面详细介绍如何判断音频放大器的好坏，并通过具体的数字和信息进行说明。本文旨在提供一套全面且深入的

发表于 05-31 18:03 •3767次阅读

播放avi视频时，音频数据该如何处理啊？

请教下，播放 avi 视频时，音频数据该如何处理啊？？？

发表于 05-06 07:56

【RTC程序设计：实时音视频权威指南】音频采集与预处理

音视频通信对音频采集的实时性和性能要求很高。为了降低延迟并提高吞吐量，可能需要采用一些优化技术，如硬件加速、多线程处理等。最后，音频采集还需要考虑与后续处理步骤的衔接问题。例如，采

发表于 04-25 10:41

深圳特信屏蔽器|手机信号放大器：优化通信质量的利器.

放大器能够有效扩大信号覆盖范围，让您在边远地区或建筑深处也能保持良好的通信质量；2、提升通话质量：信号放大器可以减少通话中断和杂音，提升通话质量，让

发表于 04-02 09:16

USB音频通话解码板高性价比高推力PCM384Khz

USB音频解码板高性价比高推力PCM384Khz USB音频解码板是一款基于高性能USB AUDIO数字音频单芯片+高能性耳放应用，可

发表于 01-06 12:32 •1382次阅读

USB音频通话解码板高性价比高推力PCM384Khz

USB音频解码板高性价比高推力PCM384Khz USB音频解码板是一款基于高性能USB AUDIO数字音频单芯片+高能性耳放应用，可替换

发表于 01-06 12:32 •1次下载

搜索历史

谷歌拟用WaveNetEQ技术提高Duo的通话质量可自动判断且替换丢失的音频数据

评论