谷歌全神经元的设备端语音识别器再推新品-电子发烧友网

在近二十年来，尤其是引入深度学习以后，语音识别取得了一系列重大突破，并一步步走向市场并搭载到消费级产品中。然而在用户体验上，「迟钝」可以算得上这些产品最大的槽点之一，这也意味着语音识别的延迟问题已经成为了该领域研究亟待解决的难点。日前，谷歌推出了基于循环神经网络变换器（RNN-T）的全神经元设备端语音识别器，能够很好地解决目前语音识别所存在的延迟难题。谷歌也将这项成果发布在了官方博客上。

2012 年，语音识别研究表明，通过引入深度学习可以显著提高语音识别准确率，因此谷歌也较早地在语音搜索等产品中采用深度学习技术。而这也标志着语音识别领域革命的开始：每一年，谷歌都开发出了从深度神经网络（DNN）到循环神经网络（RNN）、长短期记忆网络（LSTM）、卷积网络（CNNs）等一系列新的架构，进一步地提高了语音识别的质量。然而在此期间，延迟问题依旧是该领域需要攻克的主要难点——当语音助手能够实现快速回答问题时，用户会感觉它有帮助得多。

日前，谷歌正式宣布推出端到端、全神经元的设备端语音识别器，为 Gboard 中的语音输入提供支持。在谷歌 AI 最近的一篇论文《移动设备的流媒体端到端语音识别》（Streaming End-to-End Speech Recognition for Mobile Devices，论文阅读地址：https://arxiv.org/abs/1811.06621）中，其研究团队提出了一种使用循环神经网络变换器（RNN-T，https://arxiv.org/pdf/1211.3711.pdf）技术训练的模型，该技术也足够精简可应用到手机端上。这就意味着语音识别不再存在网络延迟或故障问题——新的识别器即便处于离线状态也能够运行。该模型处理的是字符水平的语音识别，因此当人在说话时，它会逐个字符地输出单词，这就跟有人在实时键入你说的话一样，同时还能达到你对键盘听写系统的预期效果。

谷歌全神经元的设备端语音识别器再推新品

该图对比了识别同一句语音时，服务器端语音识别器（左边）以及新的设备端语音识别器（右边）的生成情况。

关于语音识别的一点历史

传统而言，语音识别系统由几个部分组成：一个将语音分割（一般为 10 毫秒的框架）映射到音素的声学模型；一个将因素合成单词的发音模型；以及一个表达给定短语可能性的语言模型。在早期的系统中，对这些组成部分的优化都是单独进行的。

在 2014 年左右，研究人员就开始重点训练单个神经网络，来直接将一个输入语音波形映射到一个输出句子。研究人员采用这种通过给定一系列语音特征生成一系列单词或字母的序列到序列（sequence-to-sequence）方法开发出了「attention-based」(https://arxiv.org/pdf/1506.07503.pdf)和「listen-attend-spell」(https://arxiv.org/pdf/1508.01211.pdf)模型。虽然这些模型在准确率上表现很好，但是它们一般通过回顾完整的输入序列来识别语音，同时当输入进来的时候也无法让数据流输出一项对于实时语音转录必不可少的特征。

与此同时，当时的一项叫做CTC（connectionist temporal classification）的技术帮助将生产式识别器的延迟时间减半。事实证明，这项进展对于开发出 CTC 最新版本（改版本可以看成是 CTC 的泛化）中采用的 RNN-T 架构来说，是至关重要的一步。

循环神经网络变换器（RNN-T）

RNN-T 是不采用注意力机制的序列到序列模型的一种形式。与大多数序列到序列模型需要处理整个输入序列（本文案例中的语音波形）以生成输出（句子）不同，RNN-T 能持续地处理输入的样本和数据流，并进行符号化的输出，这种符号化的输出有助于进行语音听写。在谷歌研究人员的实现中，符号化的输出就是字母表中的字符。当人在说话时，RNN-T 识别器会逐个输出字符，并进行适当留白。在这一过程中，RNN-T 识别器还会有一条反馈路径，将模型预测的符号输回给自己以预测接下来的符号，具体流程如下图所示：

谷歌全神经元的设备端语音识别器再推新品

RNN-T 的表示：用 x 表示输入语音样本；用 y 表示预测的符号。预测的符号（Softmax 层的输出）y（u-1）通过预测网络被输回给模型，确保预测同时考虑到当前的语音样本以及过去的输出。预测和解码网络都是LSTM RNN，联合的模型则是前馈网络（feedforward network ，相关论文查看地址：https://www.isca-speech.org/archive/Interspeech_2017/pdfs/0233.PDF）。预测网络由 2 个拥有 2048 个单元的层和 1 个有着 640 个维度的投射层组成。解码网络则由 8 个这样的层组成。图源：Chris Thornton

有效地训练这样的模型本来就已经很难了，然而使用谷歌开发的这项能够进一步将单词错误率减少 5% 的新训练技术，对计算能力也提出了更高的要求。对此，谷歌开发了一种平行实现的方法，让 RNN-T 的损失函数能够大批地在谷歌的高性能云平台 TPUv2 芯片上高效运行。

离线识别

在传统的语音识别引擎中，上文中提到的声学、发音和语言模型被「组合」成一个边缘用语音单元及其概率标记的大搜索图（search graph）。在给定输入信号的情况下，当语音波形抵达识别器时，「解码器」就会在图中搜索出概率最大的路径，并读出该路径所采用的单词序列。一般而言，解码器假设基础模型由 FST（Finite State Transducer）表示。然而，尽管现在已经有精密的解码技术，但是依旧存在搜索图太大的问题——谷歌的生成式模型的搜索图大小近 2GB。由于搜索图无法轻易地在移动电话上托管，因此采用这种方法的模型只有在在线连接的情况中才能正常工作。

为了提高语音识别的有效性，谷歌研究人员还试图通过直接将在设备上托管新模型来避免通信网络的延迟及其固有的不可靠性。因此，谷歌提出的这一端到端的方法，不需要在大型解码器图上进行搜索。相反，它采取对单个神经网络进行一系列搜索的方式进行解码。同时，谷歌研究人员训练的 RNN-T 实现了基于服务器的传统模型同样的准确度，但是该模型大小仅为 450MB，本质上更加密集、更加智能地利用了参数和打包信息。不过，即便对于如今的智能手机来说，450 MB 依旧太大了，这样的话当它通过如此庞大的网络进行网络信号传输时，速度就会变得很慢。

对此，谷歌研究人员通过利用其于 2016 年开发的参数量化（parameter quantization ）和混合内核（hybrid kernel）技术(https://arxiv.org/abs/1607.04683)，来进一步缩小模型的大小，并通过采用 ensorFlow Lite 开发库中的模型优化工具包来对外开放。与经过训练的浮点模型相比，模型量化的压缩高出 4 倍，运行速度也提高了 4 倍，从而让 RNN-T 比单核上的实时语音运行得更快。经过压缩后，模型最终缩小至 80MB。

谷歌全新的全神经元设备端 Gboard 语音识别器，刚开始仅能在使用美式英语的 Pixel 手机上使用。考虑到行业趋势，同时随着专业化硬件和算法的融合不断增强，谷歌表示，希望能够将这一技术应用到更多语言和更广泛的应用领域中去。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6172

浏览量
105628
语音识别

语音识别

+关注

关注
38

文章
1742

浏览量
112717

原文标题：语音识别如何突破延迟瓶颈？谷歌推出了基于 RNN-T 的全神经元设备端语音识别器

文章出处：【微信号：CAAI-1981，微信公众号：中国人工智能学会】欢迎添加关注！文章转载请注明出处。

神经元芯片的主要特点和优势

的生物复杂性存在显著差异。神经元芯片通过集成多个处理器、存储器、通信接口以及输入输出（I/O）接口等模块，形成了一个功能强大的单芯片系统，能够支持复杂的网络通信和控制任务。

发表于 07-12 16:42 •1209次阅读

神经元是什么？神经元在神经系统中的作用

神经元，又称神经细胞，是神经系统的基本结构和功能单位。它们负责接收、整合、传导和传递信息，从而参与和调控神经系统的各种活动。神经元在形态上高

发表于 07-12 11:49 •1410次阅读

<b class='flag-5'>神经元</b>是什么？<b class='flag-5'>神经元</b>在<b class='flag-5'>神经</b>系统中的作用

人工神经元模型的基本构成要素

人工神经元模型是人工智能领域中的一个重要概念，它模仿了生物神经元的工作方式，为机器学习和深度学习提供了基础。本文将介绍人工神经元模型的基本构成要素。 神经元的基本概念

发表于 07-11 11:28 •1349次阅读

人工神经元模型的基本原理是什么

人工神经元模型是人工智能领域中的一个重要概念，它模仿了生物神经系统中的神经元行为，为机器学习和深度学习提供了基础。一、人工神经元模型的历史神经

发表于 07-11 11:26 •794次阅读

人工神经元模型由哪两部分组成

人工神经元模型是深度学习、机器学习和人工智能领域的基础，它模仿了生物神经元的工作原理，为构建复杂的神经网络提供了基础。一、人工神经元模型的起源生物

发表于 07-11 11:24 •967次阅读

生物神经元模型包含哪些元素

进行信息传递。神经元的基本结构包括以下几个部分： 1.1 细胞体（Soma）：细胞体是神经元的中心部分，包含细胞核和其他细胞器。细胞体的主要功能是合成和储存蛋白质，为神经元提供能量和物

发表于 07-11 11:21 •1065次阅读

人工智能神经元的基本结构

人工智能神经元的基本结构是一个复杂而深入的话题，涉及到计算机科学、数学、神经科学等多个领域的知识。引言人工智能（Artificial Intelligence，简称AI）是计算机科学的一个分支

发表于 07-11 11:19 •1400次阅读

人工神经元由哪些部分组成

网络的基础。这些网络能够处理和分析大量数据，从而实现诸如图像识别、语音识别和自然语言处理等功能。 2. 神经元的生物学基础在讨论人工神经元

发表于 07-11 11:17 •693次阅读

人工神经元模型的基本原理及应用

人工神经元模型是人工智能和机器学习领域的一个重要概念，它模仿了生物神经元的工作方式，为计算机提供了处理信息的能力。一、人工神经元模型的基本原理生物神经元的结构和功能生物

发表于 07-11 11:15 •973次阅读

人工神经元模型的三要素是什么

人工神经元模型是人工智能和机器学习领域中非常重要的概念之一。它模仿了生物神经元的工作方式，通过数学和算法来实现对数据的处理和学习。一、人工神经元模型的基本概念 1.1 生物神经元与人

发表于 07-11 11:13 •968次阅读

神经元的分类包括哪些

神经元是神经系统的基本功能单位，它们通过电信号和化学信号进行信息传递和处理。神经元的分类非常复杂，可以根据不同的标准进行分类。一、神经元的基本概念 1.1

发表于 07-03 11:36 •1355次阅读

神经元的结构及功能是什么

的细胞，具有独特的形态结构。神经元的基本结构包括细胞体、树突和轴突。（1）细胞体：细胞体是神经元的中心部分，包含细胞核和其他细胞器。细胞核负责控制细胞的生长、分裂和基因表达。细胞体的大小和形状因

发表于 07-03 11:33 •1383次阅读

神经元的基本作用是什么信息

的作用。一、神经元的结构 神经元是一种高度分化的细胞，具有独特的形态和功能。神经元的基本结构包括细胞体、树突和轴突。细胞体：细胞体是神经元的中心部分，包含细胞核和其他细胞

发表于 07-03 11:29 •976次阅读

神经元的信息传递方式是什么

、树突和轴突三部分组成。 1.1 细胞体细胞体是神经元的中心部分，包含细胞核和其他细胞器。细胞核负责控制细胞的生长和分裂，其他细胞器则负责细胞的代谢和能量供应。 1.2 树突树突是神经元

发表于 07-03 11:27 •1339次阅读

神经元与神经网络的区别与联系

在人工智能和机器学习的领域中，神经元和神经网络是两个至关重要的概念。虽然它们都与人脑中的神经系统有着密切的联系，但在实际应用和理论研究中，它们各自扮演着不同的角色。本文旨在深入探讨神经元

发表于 07-01 11:50 •1023次阅读

搜索历史

谷歌全神经元的设备端语音识别器再推新品

评论

神经元芯片的主要特点和优势

神经元是什么？神经元在神经系统中的作用

人工神经元模型的基本构成要素

人工神经元模型的基本原理是什么

人工神经元模型由哪两部分组成

生物神经元模型包含哪些元素

人工智能神经元的基本结构

人工神经元由哪些部分组成

人工神经元模型的基本原理及应用

人工神经元模型的三要素是什么

神经元的分类包括哪些

神经元的结构及功能是什么

神经元的基本作用是什么信息

神经元的信息传递方式是什么

神经元与神经网络的区别与联系