谷歌语音匹配功能或将会添加在Android TV中进行应用-电子发烧友网

6月15日消息，谷歌最近正在将其语音匹配功能运用在更多设备上。

谷歌几周前增加了“使用语音匹配功能来确认在Assistant中付款”的选项，根据9to5Google的发现，该语音匹配功能或许会有另一种实现方式——在Android TV上“搜索”应用程序的最新更新的代码中，有几行代码暗示该服务将来可能会出现“语音匹配”。

Android TV或将能使用谷歌语音匹配功能

语音匹配助手可以识别用户的身份，它将会截取用户的语音片段，以形成唯一的语音模型，该模型仅存储在用户的设备上。用户的语音模型可能会临时发送给谷歌，以更好地识别语音。如果用户此后决定不使用“语音匹配”功能，只需将其从“助手设置”中删除即可。该语音匹配功能在许多情况下可能会有所帮助，例如启动与特定语音相关联的Netflix或Stadia账户。

不过，几行代码并不一定意味着谷歌的语音匹配功能将会在Android TV上出现，但这仍然是一个有力的暗示。该公司显然正在尝试统一其平台上的功能，并且向Android TV添加语音匹配支持只是此过程的一个步骤。

传统的说话人分类系统依赖于人声的声学差异识别出对话中不同的说话人。根据男人和女人的音高，仅仅使用简单的声学模型，就可以在一步中相对容易地将他们区分开来。然而，想要区分处音高可能相近的说话者，说话者分类系统就需要使用多步方法了。首先，基于检测到的人声特征，使用一个变化检测算法将对话切分成均匀的片段，我们希望每段仅仅包含一个说话人。接着，使用一个深度学习模型将上述说话人的声音片段映射到一个嵌入向量上。最后，在聚类阶段，会对上述嵌入聚类在不同的簇中，追踪对话中的同一个说话人。

在真实场景下，说话人分类系统与声学语音识别（ASR）系统会并行化运行，这两个系统的输出将会被结合，从而为识别出的单词分配标签。传统的说话人分类系统在声学域中进行推断，然后将说话人标签覆盖在由独立的 ASR 系统生成的单词上。这种方法存在很多不足，阻碍了该领域的发展。

我们需要将对话切分成仅仅包含以为说话人的语音的片段。否则，根据这些片段生成的嵌入就不能准确地表征说话人的声学特征。然而，实际上，这里用到的变化检测算法并不是十全十美的，会导致分割出的片段可能包含多位说话人的语音。聚类阶段要求说话人的数量已知，并且这一阶段对于输入的准确性十分敏感。

系统需要在用于估计人声特征的片段大小和期望的模型准确率之间做出艰难的权衡。片段越长，人声特征的质量就越高，因为此时模型拥有更多关于说话人的信息。这然而，这就带来了将较短的插入语分配给错误的说话人的风险。这将产生非常严重的后果，例如，在处理临床医学或金融领域的对话的环境下，我们需要准确地追踪肯定和否定的陈述。

传统的说话人分类系统并没有一套方便的机制，从而利用在许多自然对话中非藏明显的语言学线索。例如，“你多久服一次药？”在临床对话中最有可能是医护人员说的，而不会是病人说的。类似地，“我们应该什么时候上交作业？”则最有可能是学生说的，而不是老师说的。语言学的线索也标志着说话人有很高的概率发生了改变（例如，在一个问句之后）。

然而，传统的说话人分类系统也有一些性能较好的例子，在谷歌此前发布的一篇博文中就介绍了其中之一。在此工作中，循环神经网络（RNN）的隐藏状态会追踪说话人，克服了聚类阶段的缺点。而本文提出的模型则采用了不容的方法，引入了语言学线索。

我们研发出了一种简单的新型模型，该模型不仅完美地融合了声学和语音线索，而且将说话人分类和语音识别任务融合在了同一个系统中。相较于相同环境下仅仅进行语音识别的系统相比，这个集成模型并没有显著降低语音识别性能。

我们意识到，很关键的一点是：RNN-T 架构非常适用于集成声学和语言学线索。RNN-T 模型由三个不同的网络组成：（1）转录网络（或称编码器），将声帧映射到一个潜在表征上。（2）预测网络，在给定先前的目标标签的情况下，预测下一个目标标签。（3）级联网络，融合上述两个网络的输出，并在该时间步生成这组输出标签的概率分布。

在图形处理单元（GPU）或张量处理单元（TPU）这样的加速器上训练 RNN-T 并不是一件容易的事，这是因为损失函数的计算需要运行“前向推导-反向传播”算法，该过程涉及到所有可能的输入和输出序列的对齐。最近，该问题在一种对 TPU 友好的“前向-后向”算法中得到了解决，它将该问题重新定义为一个矩阵乘法的序列。我们还利用了TensorFlow 平台中的一个高效的 RNN-T 损失的实现，这使得模型开发可以迅速地进行迭代，从而训练了一个非常深的网络。

这个集成模型可以直接像一个语音识别模型一样训练。训练使用的参考译文包含说话人所说的单词，以及紧随其后的指定说话人角色的标签。例如，“作业的截止日期是什么时候？”《学生》，“我希望你们在明天上课之前上交作业”《老师》。当模型根据音频和相应的参考译文样本训练好之后，用户可以输入对话记录，然后得到形式相似的输出结果。我们的分析说明，RNN-T 系统上的改进会影响到所有类型的误差率（包括较快的说话者转换，单词边界的切分，在存在语音覆盖的情况下错误的说话者对齐，以及较差的音频质量）。此外，相较于传统的系统，RNN-T 系统展现出了一致的性能，以每段对话的平均误差作为评价指标时，方差有明显的降低。

传统系统和 RNN-T 系统错误率的对比，由人类标注者进行分类。此外，该集成模型还可以预测其它一些标签，这些标签对于生成对读者更加友好的 ASR 译文是必需的。例如，我们已经可以使用匹配好的训练数据，通过标点符号和大小写标志，提升译文质量。相较于我们之前的模型（单独训练，并作为一个 ASR 的后处理步骤），我们的输出在标点符号和大小写上的误差更小。

责任编辑：gt

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Android

Android

+关注

关注
12

文章
3947

浏览量
128371
谷歌

谷歌

+关注

关注
27

文章
6211

浏览量
106438

谷歌“减法”新动作：砍掉耳机按键唤醒朗读功能

电子发烧友网报道（文/莫婷婷）近期，谷歌宣布将对耳机上的 Google Assistant语音助手功能进行调整，取消通过触控唤醒助理“自动朗读未读通知”的功能。

发表于 02-22 22:56 •1821次阅读

<b class='flag-5'>谷歌</b>“减法”新动作：砍掉耳机按键唤醒朗读<b class='flag-5'>功能</b>

RK3588 技术分享 | 在Android系统中使用NPU实现Yolov5分类检测

NPU。应用领域图像识别: NPU能够迅速对图像进行分类、检测和分割等操作，大大提升了处理效率。语音识别: NPU实现了实时语音转换和语音合成

发表于 10-24 10:13

谷歌正式向Pixel设备推送Android 15稳定版

10月17日最新资讯，谷歌今日已正式向Pixel系列设备推送Android 15稳定版更新。目前，已有部分Pixel设备成功完成升级，而更大范围的推送预计将在本周末进行。

发表于 10-17 16:31 •583次阅读

谷歌开始推送Android 15稳定版

近日，谷歌正式向Pixel系列设备推送了Android 15稳定版操作系统。目前，已有部分Pixel设备率先完成了系统升级，预计本周晚些时候，更大规模的更新推送将全面展开。

发表于 10-17 16:12 •1724次阅读

谷歌Android 15 Beta 3的新功能

从近期发布的 Beta 3 开始，Android 15 达成了平台稳定性里程碑版本，这意味着开发者 API 和所有面向应用的行为都已是最终版本，您可以查阅它们并将其集成到您的应用中，并且针对

发表于 09-09 15:55 •616次阅读

RK3588 技术分享 | 在Android系统中使用NPU实现Yolov5分类检测

NPU。应用领域图像识别: NPU能够迅速对图像进行分类、检测和分割等操作，大大提升了处理效率。语音识别: NPU实现了实时语音转换和语音合成

发表于 08-20 11:13

谷歌针对Android和iOS版Chrome发布五项更新

在移动设备上搜索内容应该像在电脑上一样流畅。近期，我们针对 Android 和 iOS 版 Chrome 发布了五项更新，旨在让您能够更轻松地在手机或平板电脑上进行搜索。

发表于 08-09 16:56 •858次阅读

谷歌宣布对Android设备流媒体服务进行重大扩展

8月8日，谷歌宣布对其Android设备流媒体服务进行重大扩展，此举旨在进一步赋能开发者，让他们能够远程接入并测试更多品牌及型号的真实Android物理设备。自2014年该服务问世以来

发表于 08-08 16:30 •759次阅读

谷歌推出新款电视盒子Google TV Streamer

据多方媒体报道，谷歌近日推出新款电视盒——Google TV Streamer。相较前几代Chromecast电视棒，此次新品体积更大、外观更为抢眼，且不再隐藏在电视I/O面板下方。

发表于 08-07 17:18 •1219次阅读

语音控制模块_雷龙发展

。　　4.匹配　　在匹配阶段，将提取的特征向量与预定义的词典中的词进行匹配。最常用的匹配算法是动态时间规整（DTW），它能有效地解决

发表于 06-14 17:18

谷歌安卓系统恢复智能音箱音量调节功能，Sonos专利诉讼败诉

Sonos宣称对此功能有专属专利，随后谷歌在Android版本更新中封禁此项功能。然而，加利福尼亚州联邦法院判决谷歌胜诉，并在最新版

发表于 05-22 11:36 •697次阅读

雷鸟创新携手谷歌发布全球首款AR版的Google TV

近日，雷鸟创新与谷歌联手，震撼发布了全球首款AR版的Google TV——Pocket TV，专为海外市场精心打造。这款便携式GTV产品一经问世，便凭借其独特的创新性和强大的功能，吸引

发表于 05-14 09:22 •632次阅读

谷歌核心团队裁员200人

谷歌近日在其“核心”团队中进行了裁员，涉及至少200名员工。此次裁员发生在公司上月月底公布财报之前，谷歌计划将一些岗位转移至印度和墨西哥。

发表于 05-07 09:42 •439次阅读

谷歌明年6月停用Google Fit API，转用Android Health平台

自 2022 年起，谷歌加大了对 Android Health 平台的投入力度，以期实现平台统一性以及简化开发流程。公告指出，谷歌正逐步将 Fit 开发服务纳入 Android Hea

发表于 05-06 11:27 •615次阅读

爱普生语音芯片产品特点与应用市场

目前爱普生语音芯片分为带语音功能MCU和语音 IC两类，MCU可以独立使用，语音 IC则需要配合主芯片使用，适合增

发表于 03-12 10:14 •661次阅读

搜索历史

谷歌语音匹配功能或将会添加在Android TV中进行应用

评论

谷歌“减法”新动作：砍掉耳机按键唤醒朗读功能

RK3588 技术分享 | 在Android系统中使用NPU实现Yolov5分类检测

谷歌正式向Pixel设备推送Android 15稳定版

谷歌开始推送Android 15稳定版

谷歌Android 15 Beta 3的新功能

RK3588 技术分享 | 在Android系统中使用NPU实现Yolov5分类检测

谷歌针对Android和iOS版Chrome发布五项更新

谷歌宣布对Android设备流媒体服务进行重大扩展

谷歌推出新款电视盒子Google TV Streamer

语音控制模块_雷龙发展

谷歌安卓系统恢复智能音箱音量调节功能，Sonos专利诉讼败诉

雷鸟创新携手谷歌发布全球首款AR版的Google TV

谷歌核心团队裁员200人

谷歌明年6月停用Google Fit API，转用Android Health平台

爱普生语音芯片产品特点与应用市场