结合卷积和注意机制改进日语ASR-电子发烧友网

自动语音识别（ ASR ）研究通常侧重于高资源语言，如英语，它由数十万小时的语音支持。最近的文献重新关注更复杂的语言，如日语。与其他亚洲语言一样，日语有大量的基本字符集（普通白话中使用了 3000 多个独特的字符），并提出了独特的挑战，例如多个词序。

这篇文章讨论了最近提高日语 ASR 准确性和速度的工作。首先，我们改进了 Conformer ，这是一种最先进的 ASR 神经网络架构，在训练和推理速度方面取得了显著的改进，并且没有精度损失。其次，我们增强了一个具有多头部自我注意机制的纯深度卷积网络，以丰富输入语音波形的全局上下文表示的学习。

语音识别中的深度稀疏整合器

Conformer 是一种神经网络体系结构，广泛应用于多种语言的 ASR 系统中，并取得了较高的精度。然而， Conformer 在训练和推断方面都相对较慢，因为它使用了多头自我注意，对于输入音频波的长度，其时间/内存复杂度为 quadratic 。

这妨碍了它对长音频序列的高效处理，因为在训练和推断过程中需要相对较高的内存占用。这些激励了稀疏关注高效 Conformer 构建。此外，由于注意力较少，内存成本相对较低，我们能够构建一个更深的网络，可以处理由大规模语音数据集提供的长序列。

图 1.深度稀疏 Conformer 的编码器模型架构

如图 1 所示，我们在两个方向上改进了 Conformer 长序列表示能力：稀疏和深入。我们使用一个排名标准，只选择一小部分占主导地位的查询，而不是整个查询集，以节省计算注意力得分的时间。

在执行剩余连接时，使用深度规范化策略，以确保百级 Conformer 块的训练。该策略包括使用一个函数来贴现编码器和解码器部分的参数，该函数分别与编码器层和解码器层的数量相关。

此外，这种深度规范化策略可确保成功构建 10 到 100 层，从而使模型更具表现力。相比之下，与普通 Conformer 相比，深度稀疏 Conformer 的时间和内存成本降低了 10% 到 20% 。

用于语音识别的注意力增强型 Citrinet

NVIDIA 研究人员提出的 Citrinet 是一种基于端到端卷积连接时态分类（ CTC ）的 ASR 模型。为了捕获本地和全局上下文信息， Citrinet 使用 1D 时间通道可分离卷积与子字编码、压缩和激励（ SE ）相结合，使整个体系结构与基于变压器的同类产品相比达到最先进的精度。

将 Citrinet 应用于日本 ASR 涉及几个挑战。具体来说，与类似的深度神经网络模型相比，它的收敛速度相对较慢，并且更难训练出具有类似精度的模型。考虑到影响 Citrinet 收敛速度的卷积层多达 235 个，我们旨在通过在 Citrinet 块的卷积模块中引入多头部注意来减少 CNN 层，同时保持 SE 和剩余模块不变。

图 2.Citrinet 端到端架构和主要构建块

如图 2 所示，加快训练时间需要在每个注意力增强的 Citrinet 块中减少八个卷积层。此外，考虑到自我注意对输入音频波的长度具有二次的时间/记忆复杂性，我们将原来的 23 个 Jasper 块缩减为 8 个块，模型尺寸显著减小。这种设计确保了注意力增强的 Citrinet 对于从 20 秒到 100 秒的长语音序列达到了可比的推理时间。

初步实验表明，基于注意力的模型收敛于 100 到 200 个时间点，而 Citrinet 收敛到最佳错误率需要 500 到 1000 个时间点。在日本 CSJ-500-hour 数据集上的实验表明，与 Citrinet （ 80% 的训练时间）和 Conformer （ 40% 的训练时间和 18.5% 的模型大小）相比， Citrinet 的注意力需要更少的块层，收敛速度更快，字符错误率更低。

总结

通常，我们提出两种新的架构来构建端到端的日本 ASR 模型。在一个方向上，我们改进了基于变压器的 Conformer 训练和推断速度，并保持了其准确性。我们成功地构建了更稀疏和更深入的 Conformer 模型。我们还通过引入多头部自我注意机制和修剪 80% 的 CNN 层，提高了基于 CNN 的 Citrinet 收敛速度和准确性。这些建议是通用的，适用于其他亚洲语言。

关于作者

吴显超博士是 NVIDIA 的高级解决方案架构师。他专注于语音处理和自然语言处理的研究领域。他支持客户在 NVIDIA SDK （如威震天 LM 、 NeMo 和 Riva ）下构建大规模预处理模型和对话人工智能平台。

Somshubra Majumdar 是 NVIDIA NeMo 工具包的资深研究科学家。他于 2016 年获得孟买大学计算机工程学士学位， 2018 年获得芝加哥伊利诺伊大学计算机科学硕士学位。他的研究兴趣包括自动语音识别、语音分类、时间序列分类和深度学习的实际应用。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3703

浏览量
135749
语音识别

语音识别

+关注

关注
38

文章
1758

浏览量
113272
ASR

ASR

+关注

关注
2

文章
44

浏览量
18881

卷积神经网络模型发展及应用

神经网络已经广泛应用于图像分类、目标检测、语义分割以及自然语言处理等领域。首先分析了典型卷积神经网络模型为提高其性能增加网络深度以及宽度的模型结构，分析了采用注意力机制进一步提升模型性能的网络结构，然后归纳

发表于 08-02 10:39

μC/OS-II 任务调度机制的改进

介绍μC/OS-II 任务调度机制,并提出一种改进方法,使μC/OS-II变成一个兼备实时与分时任务调度机制的操作系统；论述改进后系统的特点和要注

发表于 04-15 11:21 •14次下载

Snort匹配机制的改进

基于规则的模式匹配是Snort 检测引擎的主要机制，本文在结合协议分析和模式匹配的基础上,对Snort 匹配机制进行了改进。首先对从网络中获取的数据包进行预先处理，利用协议分

发表于 12-18 17:35 •14次下载

维纳滤波反卷积算法的改进

应用于相关辨识中的维纳滤波反卷积算法对噪声的适应性不理想，辨识效果不佳。据此分析了维纳滤波反卷积算法在对大地辨识的过程中对噪声适应性不理想的原因，并提出了相应的改进算法：根据检测系统冲激响应的频谱

发表于 11-16 11:01 •11次下载

卷积神经网络的权值反向传播机制和MATLAB的实现方法

降低了网络需要训练的数量级。本文以MINST手写体数据库为训练样本，讨论卷积神经网络的权值反向传播机制和MATLAB的实现方法；对激活函数tanh和relu梯度消失问题进行分析和优化，对改进后的激活函数进行训练，得出最优的修正参

发表于 12-06 15:29 •14次下载

卷积神经网络的七个注意事项

卷积神经网络的七个注意事项

发表于 08-24 16:09 •3964次阅读

结合改进Fisher判别准则与GRV模块的卷积神经网络

传统卷积神经网络（CNN）在建模过程中由于数据样本量不足容易岀现过拟合现象，且对随机数据泛化能力较差。为此，设计一种结合改进 Fisher判别准则与GRⅤ模块的卷积神经网络（ FDCN

发表于 03-17 11:11 •4次下载

基于通道注意力机制的SSD目标检测算法

为提升原始SSD算法的小目标检测精度及鲁棒性，提出一种基于通道注意力机制的SSD目标检测算法。在原始SSD算法的基础上对高层特征图进行全局池化操作，结合通道注意力

发表于 03-25 11:04 •20次下载

结合注意力机制的改进深度学习光流网络

为提升基于编解码架构的U型网络在深度学习光流估计中的精度，提岀了一种结合注意力机制的改进有监督深度学习光流网络。网络由收缩和扩张两部分组成，收缩部分利用一系列

发表于 04-07 13:56 •4次下载

基于循环卷积注意力模型的文本情感分类方法

和全局信息。文中针对单标记和多标记情感分类任务，提出一种循环卷积注意力模型（ LSTM-CNN-ATT，LCA）。该模型利用注意力机制融合卷积

发表于 04-14 14:39 •10次下载

结合注意力机制的跨域服装检索方法

针对跨域服装检索中服装商品图像拍摄严格约束光照、背景等条件，而用户图像源自复杂多变的日常生活场景，难以避免背景干扰以及视角、姿态引起的服装形变等问题。提出一种结合注意力机制的跨域服装检索方法。利用

发表于 05-12 14:19 •2次下载

改进胶囊网络优化分成卷积的亚健康识别

针对传统卷积神经网络（CNN）为获得高准确率不断堆叠卷积层、池化层致使模型结构复杂、训练时间长且数据处理方式单一的问题，提出改进胶囊网络优化分层卷积的亚健康识别算法。首先，对原始振动数

发表于 06-03 16:16 •7次下载

计算机视觉中的注意力机制

计算机视觉中的注意力机制卷积神经网络中常用的Attention 参考注意力机制简介与分类注意

发表于 05-22 09:46 •0次下载

一种基于因果路径的层次图卷积注意力网络

机电系统中数据驱动故障检测模型的性能和可解释性。引入了一种混合因果发现算法来发现监测变量之间的继承因果关系。顺序连接因果变量的因果路径用作接收场，使用多尺度卷积来提取特征。基于分层注意力机制来聚合

发表于 11-12 09:52 •535次阅读

ASR与自然语言处理的结合

ASR（Automatic Speech Recognition，自动语音识别）与自然语言处理（NLP）是人工智能领域的两个重要分支，它们在许多应用中紧密结合，共同构成了自然语言理解和生成的技术体系

发表于 11-18 15:19 •638次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

结合卷积和注意机制改进日语ASR

评论

卷积神经网络模型发展及应用

μC/OS-II 任务调度机制的改进

Snort匹配机制的改进

维纳滤波反卷积算法的改进

卷积神经网络的权值反向传播机制和MATLAB的实现方法

卷积神经网络的七个注意事项

结合改进Fisher判别准则与GRV模块的卷积神经网络

基于通道注意力机制的SSD目标检测算法

结合注意力机制的改进深度学习光流网络

基于循环卷积注意力模型的文本情感分类方法

结合注意力机制的跨域服装检索方法

改进胶囊网络优化分成卷积的亚健康识别

计算机视觉中的注意力机制

一种基于因果路径的层次图卷积注意力网络

ASR与自然语言处理的结合