0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

电子工程师 来源:工程师李察 2019-05-05 11:19 次阅读

神经网络的调参无疑是一个巨大的工程。

如何在调参之前拥有更佳的表现?千辛万苦调好了但却过拟合,如何拥有更好的泛化能力?这无疑是人肉调参的必经之痛。一个通用的认知是,训练数据会限制模型表现的上限,能拥有更好的训练数据,无疑成功了一大截儿。

近日,Daniel S. Park 等人在自动语音识别(Automatic Speech Recognition,ASR)模型训练上,找到了一种简单却强大的数据增强方法——SpecAugment。该操作另辟蹊径,将原始语音数据生成的梅尔倒谱图直接进行图像变换,扩增训练数据,化腐朽为神奇,结果很棒。

啥是自动语音识别

自动语音识别,即依托深度神经网络模型将语音自动识别为文本输入,无论是 Siri 助手还是微软小冰,抑或占据生活一部分的微信,都有它的身影,相信这个时代的你也早已习惯用语音转输入解放双手。

传统 ASR 模型的原始输入数据一般先经过预处理,将收集的音波转化为频谱图如梅尔倒频谱,也即梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC,一定程度上模拟了人耳对声音的处理特点)的谱图。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | 音波转化为梅尔倒频谱图结果示意图(来源:Daniel S. Park,et al./ Google Brain)

梅尔倒谱的一般流程是将声音信号进行傅立叶转换得到频谱,再进行取对数以及取逆傅立叶变换。

传统 ASR 模型扩增数据一般是将收集到的音波进行改变加速、减速、加背景噪音等变换来进行数据集的丰富,最后,这种扩增后的音频也要转化为频谱图。

然而,直接改变频谱图进行数据扩增,能否提升模型表现?毕竟,图像领域的扩增手段十分丰富,直接将频谱作为图像用一定手段进行变换结果如何?

Daniel S. Park 等人的 SpecAugment 方法证明,这是一个简单易行的好路子,可以实现在线训练,计算成本低廉无需额外数据,还能使 ASR 任务 LibriSpeech 960h(语音识别技术的最权威主流的开源数据集,包括近 1000 小时的英文发音和对应文字)和 Switchboard 300h(交换机电话语音语料库)比目前最佳模型的表现更好。

SpecAugment 的“出彩”之处

首先,在模型训练之前将输入数据——音频数据的梅尔倒谱,进行图像处理,这也是 SpecAugment 这条野路出彩的基础。即对梅尔倒频谱的横轴一段时间步长的频谱进行左或右扭转翘曲、或者掩蔽一段时长的谱图(时间屏蔽,对纵向进行掩蔽)、或是某些梅尔频率的信号(频率屏蔽,对横向进行掩蔽),得到了一系列的扩增样本。

这样的处理使得模型能够学习到时间轴上发生损失变形的音频、部分频率缺失的音频,以及丢失部分语音片段的音频的特点,增加了训练模型对这些信息的处理能力,也增强模型的泛化能力。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | 梅尔倒频谱的扩增变换手段:从上到下依次为没有应用增强、一定时间步长的扭曲,频率屏蔽和时间屏蔽。(来源:Daniel S. Park,et al/ Google Brain)

模型训练

输入数据处理完毕后,训练语音识别模型,这里采用 LAS(Listen Attend and Spell networks)模型。LAS 模型主要是由 Listener 和 Speller 两个子模型组成,其中 Listener 是一个声学编码器(Encoder,收集数据,相当于“听”),Speller 是一个基于注意力机制的解码器(Decoder,将收集的特征翻译成字符,相当于“说”)

训练 SpecAugment 的 Listener 子模型:输入的梅尔倒谱首先经两层卷积神经网络(CNN),经最大池化且步幅为 2,得到的结果输入到 BLSTM(双向长短期交替记忆模型)中,产生尺寸为 d x w 的基于注意力机制的特征。

训练 SpecAugment 的 Speller 子模型:将上一步骤中基于注意力机制产生的特征向量输入到一个二层 RNN(Recurrent Neural Network)模型中,训练集中的文本已用 WPM(Word Piece Model)进行了 token 处理,利用集束搜索(Beam Search),集束宽为 8,得到 token 表示的预测文本(token 处理即分词处理,之后进行词嵌入,自然语言处理利用词嵌入来将词向量化表示)。至此,实现语音转文本过程。

提升表现

比较训练集扩增前后训练出的 LAS 模型在测试集上的词错误率(Word Error Rate,WER),不改变任何超参数,测试结果错词率显著降低,可见无需调参,扩增训练集效果明显。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | 扩增训练集与否的两个模型在数据集 LibriSpeech 上有噪音测试集和无噪音测试集的表现。(来源:Daniel S. Park,et al/ Google Brain)

对于过拟合问题,虽然训练集上利用扩增的模型表现与无扩增相差并不是很多,但在开发集上,WER 有明显的降低,说明模型泛化能力提升,可以预测未训练过的数据,过拟合得到解决。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | 扩增训练集与否的两个模型在训练集、有噪音开发集和无噪音开发集集上的表现(来源:Daniel S. Park,et al/ Google Brain)

这个模型啥水平?

1)优于现有最佳 ASR 模型

扩增训练集后调整模型参数以及适当训练迭代,使得模型表现达到最佳,在数据集 LibriSpeech 960h 和 Switchboard 300h 有无噪音的测试集上,扩增模型表现与现有最佳模型的错词率结果对比发现,扩增方法明显取胜。无论是传统 ASR 模型(如 HMM)还是端到端的神经网络模型(如 CTC/ASG),采用 SpecAugment 方法训练后的 LAS 模型表现都明显更好。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | LibriSpeech 960h 和 Switchboard 300h 数据集上不同模型的表现(来源:Daniel S. Park,et al/ Google Brain)

2)优于利用语言模型的 ASR 模型

引入利用大量纯文本语料库训练的语言模型(Language Models,LMs)能够使 ASR 模型效果大大提升,因为可以用语料库中的大量信息使模型功能更强,这也是 ASR 任务的一个通用做法。语言模型一般是独立训练的,使用 ASR 模型时需要占据一定内存进行存储,这使其难以在小型设备上应用。而 SpecAugment 模型的优势是,即使不利用语言模型也优于现有引入语言模型的 ASR 模型。这意味着语言模型的大内存问题,有了解决之路。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图 | LibriSpeech 960h 和 Switchboard 300h 数据集上不同 ASR 模型引入语言模型有否的表现(来源:Daniel S. Park,et al/ Google Brain)

总结,利用改变频谱图的方式扩增音频数据样本,训练出的 ASR 模型表现极佳,优于现有最好模型,甚至超过引入语言模型,很好用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4773

    浏览量

    100882
  • 语音识别
    +关注

    关注

    38

    文章

    1742

    浏览量

    112709
  • 图像变换
    +关注

    关注

    0

    文章

    5

    浏览量

    1530

原文标题:简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    空调语音控制方案NRK3501语音识别芯片-让智能生活触手可及!

    NRK3501语音识别芯片支持离线语音控制空调,精准识别,远场降噪,最多支持200离线指令,5米内识别
    的头像 发表于 01-07 11:40 63次阅读
    空调<b class='flag-5'>语音</b>控制方案NRK3501<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片-让智能生活触手可及!

    语音识别技术在医疗领域的应用

    语音识别技术在医疗领域的应用已经越来越广泛,为医疗服务带来了诸多便利和效率提升。以下是对语音识别技术在医疗领域应用的介绍:
    的头像 发表于 11-26 09:35 392次阅读

    ASR与传统语音识别的区别

    ASR(Automatic Speech Recognition,自动语音识别)与传统语音识别在多个方面存在显著的区别。以下是对这两者的对比
    的头像 发表于 11-18 15:22 523次阅读

    ASR语音识别技术应用

    语音识别技术应用的分析: 、ASR语音识别技术原理 ASR语音
    的头像 发表于 11-18 15:12 791次阅读

    基于Arm Neoverse N2实现自动语音识别技术

    自动语音识别 (Automatic Speech Recognition) 技术已经深入到现代生活的方方面面,广泛应用于从语音助手、转录服务,到呼叫中心分析和
    的头像 发表于 11-15 11:35 363次阅读
    基于Arm Neoverse N2实现<b class='flag-5'>自动</b><b class='flag-5'>语音</b><b class='flag-5'>识别</b>技术

    请教,SIM卡PCB走线,这个CKL时钟线和数据线DATA要等长嘛,一条走顶层一条走底层如图这样可以嘛

    请教,SIM卡PCB走线,这个CKL时钟线和数据线DATA要等长嘛,长条顶层一条走底层如图这样可以嘛
    发表于 08-03 22:49

    迟滞比较器的输出为一条直线的原因

    ,如果迟滞比较器的输出为一条直线,这可能是由于多种原因造成的。 迟滞比较器的工作原理 在讨论迟滞比较器输出为一条直线的原因之前,我们首先需要了解其工作原理。迟滞比较器通常由个运算放大器、两个电阻和
    的头像 发表于 07-11 09:36 962次阅读

    车载语音识别系统语音数据采集标注案例

    的作用。般来说,车载语音识别系统主要分为前端和后端两个部分,本文将针对前端语音信号数据采集标注进行实例讲解。
    的头像 发表于 06-19 15:52 371次阅读
    车载<b class='flag-5'>语音</b><b class='flag-5'>识别</b>系统<b class='flag-5'>语音</b><b class='flag-5'>数据</b>采集标注案例

    车载语音识别系统语音数据采集标注案例

    的作用。般来说,车载语音识别系统主要分为前端和后端两个部分,本文将针对前端语音信号数据采集标注进行实例讲解。
    的头像 发表于 06-19 15:49 523次阅读

    “大模型”释放数据要素价值,软通动力唤醒企业沉睡的积累

    释放数据要素价值的路径不止有一条。有一条路相对较短,但多数企业学不来;另一条路正在修,未来可期;
    的头像 发表于 05-22 11:36 507次阅读

    车内语音识别数据在智能驾驶中的价值与应用

    车内语音识别数据在智能驾驶中的价值与应用 、引言 随着智能驾驶技术的不断发展,车内语音识别数据在智能驾驶中的应用越来越广泛。车内
    的头像 发表于 02-19 11:47 614次阅读

    语音数据集:智能驾驶中车内语音识别技术的基石

    、引言 在智能驾驶中,车内语音识别技术发挥着越来越重要的作用。语音数据集作为这技术的基石,其
    的头像 发表于 01-31 16:07 568次阅读

    车内语音识别数据在智能驾驶中的应用与挑战

    、引言 随着智能驾驶技术的不断发展,车内语音识别数据在智能驾驶中的应用越来越广泛。车内语音识别技术为驾驶员提供了更加便捷和安全的驾驶体验,
    的头像 发表于 01-26 18:14 1130次阅读

    UCB_SWAP配置信息共16,写入一条有效配置后,上一条需写1使配置无效是为什么?

    UCB_SWAP配置信息共16,写入一条有效配置后,上一条需写1使配置无效。 经过实测发现配置是从下至上检索,取最后一条
    发表于 01-24 08:31

    面朝欧洲,迈上“云桥”,走一条无忧丝路

    在云桥上走一条无忧丝路,去到欧罗巴的春天
    的头像 发表于 01-10 09:44 1372次阅读
    面朝欧洲,迈上“云桥”,走<b class='flag-5'>一条</b>无忧丝路