0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在雅特力AT32 MCU上实现关键词语音识别(KWS)

雅特力 AT32 MCU 2024-01-06 08:14 次阅读

KWS概述

关键字定位(Keyword Spotting,KWS)技术,已成为可穿戴设备、物联网设备和其他智能终端的关键。诸如“Alexa”,“Hey Siri”或“Ok Google”等短语唤醒智能手机和家用电器上的语音激活功能,已经是语音交互设计产品的广泛需求。
对于KWS,实时响应和高精度才能获得良好的用户体验。最近,神经网络已成为KWS架构的一个有吸引力的选择,因为与传统的语音处理算法相比,它们具有更高的准确性。由于需要实时在线识别的要求,导致KWS应用在内存和计算能力有限的微型微控制器上运行会受到一定限制。KWS的神经网络架构设计必须考虑这些限制。于是,研究人员设计出由于传统CNN的深度可分离卷积神经网络(DS-CNN)架构技术。为了进一步介绍了DS-CNN架构,并展示了开发人员如何在MCU上实现DS-CNN KWS。2018年ARM和斯坦福大学进行了合作,并开源了预训练TensorFlow模型及其语音关键词识别代码,并将结果发表在论文Hello Edge: Keyword Spotting on Microcontrollers中。本文基于此开源模型和代码,在AT32 MCU上对KWS效果进行展示。

KWS实现原理

关键词识别KWS

一个典型的KWS系统由一个特征提取器和一个基于神经网络的分类器组成,如下图所示。首先,长度为L的输入语音信号被分成长度为l且步幅为s的重叠帧,总共有帧T帧。T=(L−l)/S+1从每一帧中提取F个语音特征,则长度为L的整个输入语音信号总共生成T×F个特征。Logmel filter bank energies (LFBE)和Mel-frequency cepstral coefficients (MFCC)常用于基于深度学习语音识别,特别适用于传统语音处理技术。使用LFBE或MFCC进行特征提取涉及将时域语音信号转换为一组频域频谱信号,从而实现输入信号的维度压缩。提取的语音特征矩阵服务于输入分类器模块,该模块导出所输出分类的概率。在需要从连续音频流中识别关键字的实际场景中,利用后端处理模块可以在一段时间内平均每个输出类的输出概率,从而提高预测的整体置信度。图1. KWS数据管道94c6a210-ac28-11ee-aa22-92fbcf53809c.png

卷积神经网络CNN

基于DNN的KWS的一个主要缺点是它无法有效地对语音特征中的局部时间和频谱相关性进行建模。CNN是通过将输入时域和谱域特征视作图像,并对其进行二维卷积处理。卷积层之后通常是批量归一化、基于ReLU的激活函数和可选的最大/平均池化层,这些处理可以降低特征的维数。在推理过程中,批量归一化的参数可以折叠到卷积层的权重中。在某些情况下,为了减少参数和加速训练,在卷积层和密集层之间添加了一个线性低秩层,这是一个没有非线性激活的全连接层。

深度可分离卷积神经网络DS-CNN

深度可分离卷积神经网络(DS-CNN)。最近,深度可分离卷积已被提出作为标准3-D卷积操作的有效替代方案,并已用于在计算机视觉领域实现紧凑的网络架构。DS-CNN首先将输入特征图中的每个通道与一个单独的2-D滤波器进行卷积,然后使用逐点卷积(即1x1)在深度维度上组合输出。通过将标准的3-D卷积分解为2-D卷积,然后是1-D卷积,深度可分离卷积在参数数量和操作方面都更加高效,这使得即使在资源受限的微控制器设备中也可以实现更深、更宽的架构。

例 KWS实作

KWS测试平台

KWS系统需要使用到两个平台,即PC端和AT32 MCU端。PC端:利用TensorFlow与Python撰写完整的深度学习程序代码并训练模型,因本文件使用的学习模式为监督式的学习,需给系统大量的训练数据和Labels,接着将提取到的特征用以训练CNN模型,并反复修正训练的模型,直到模型为此系统优化的状态。AT32 MCU端:利用ARM提供的CMSIS-NN的函式库、DSP函数库和CNN函数库,结合PC端训练好的模型(该模型已下载待MCU)。对输入到MCU端的音频数据进行识别,实现对该语音数据可能的标签进行分类和预测。因此,对于既定模型的KWS识别,AT32 MCU端可实现完全离线识别,无需实时与PC通信或联网通信。本示例,AT32MCU端智能识别的关键词列表如下"yes","no","up","down","left","right","on","off","stop","go";没有输入信号时,输出标签为"Silence";输入信号不在关键词列表时,输出标签为"Unknown"。注意:由于篇幅限制,本文只介绍AT32 MCU的实现流程,如下图阴影部分。图2. KWS实现流程94dd7c9c-ac28-11ee-aa22-92fbcf53809c.png

资源准备

1) 硬件环境:AT-START-F403A BOARD V1.xAT32-Audio-EV V2.x图3. KWS测试的硬件环境94e8d9e8-ac28-11ee-aa22-92fbcf53809c.png2) 软件环境MDK V5.31或更新版本,使用ARM Compiler V6进行编译…\PACK\ArteryTek.AT32F403A_407_DFP.2.1.2.pack或更新版本…\PACK\ARM.CMSIS-DSP.1.11.0.pack或更新版本ML-KWS-for-MCU-master\Project\mdk_v5

软件设计

实验结果

在AT32-Audio-EV V2.x端LINE_IN输入语音信号后,AT Link虚拟串口会打印输出KWS识别的标签和概率。图4. 串口打印识别信息950ae07e-ac28-11ee-aa22-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • mcu
    mcu
    +关注

    关注

    146

    文章

    17123

    浏览量

    350994
  • 语音识别
    +关注

    关注

    38

    文章

    1739

    浏览量

    112635
  • AT32
    +关注

    关注

    1

    文章

    113

    浏览量

    2090
收藏 人收藏

    评论

    相关推荐

    基于Cortex-M处理器的高精度关键词识别实现

    我们可以对神经网络架构进行优化,使之适配微控制器的内存和计算限制范围,并且不会影响精度。我们将在本文中解释和探讨深度可分离卷积神经网络在 Cortex-M 处理器实现关键词识别的潜力
    发表于 07-23 06:59

    何在Cortex-M处理器实现高精度关键词识别

    何在 Cortex-M 处理器实现高精度关键词识别
    发表于 02-05 07:14

    可分离卷积神经网络在 Cortex-M 处理器实现关键词识别

    我们可以对神经网络架构进行优化,使之适配微控制器的内存和计算限制范围,并且不会影响精度。我们将在本文中解释和探讨深度可分离卷积神经网络在 Cortex-M 处理器实现关键词识别的潜力
    发表于 07-26 09:46

    如何通过LD3320语音识别模块识别我们预定的短语

    基于 ASR 语音识别技术,是基于关键词语列表识别的技术。只需要设定好要识别关键词语列表,并把
    发表于 01-12 08:19

    语音识别_ML-KWS-for-MCU_资料大合集

    ML-KWS-for-MCU[1]是一个把Google的基于TensorFlow开源语音识别项目[2](Keyword spotting,简称KWS)应用于
    发表于 02-08 07:07

    AT32实现关键词语音识别KWS

    AT32实现关键词语音识别KWS)本文基于此开源模型和代码,在
    发表于 10-26 07:45

    在Cortex-M处理器完成关键词识别所面临的问题分析

    关键词识别 (KWS) 对于在智能设备实现基于语音的用户交互十分
    的头像 发表于 09-28 09:35 4062次阅读
    在Cortex-M处理器<b class='flag-5'>上</b>完成<b class='flag-5'>关键词</b><b class='flag-5'>识别</b>所面临的问题分析

    携高性能AT32 MCU精彩亮相全球MCU生态发展大会

    技术、边缘AI、新兴应用和生态发展等热门议题。 业务处长陈佳延在大会发表了题为“
    的头像 发表于 08-30 10:04 4517次阅读
    <b class='flag-5'>雅</b><b class='flag-5'>特</b><b class='flag-5'>力</b>携高性能<b class='flag-5'>AT32</b> <b class='flag-5'>MCU</b>精彩亮相全球<b class='flag-5'>MCU</b>生态发展大会

    语音识别_ML-KWS-for-MCU_资料整理

    ML-KWS-for-MCU[1]是一个把Google的基于TensorFlow开源语音识别项目[2](Keyword spotting,简称KWS)应用于
    发表于 12-05 10:51 11次下载
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>_ML-<b class='flag-5'>KWS-for-MCU</b>_资料整理

    AT32 SPI

    AT32 SPI 科技AT32F415系
    发表于 03-30 10:44 491次阅读

    TinyML变得简单:关键词识别(KWS)

    电子发烧友网站提供《TinyML变得简单:关键词识别(KWS).zip》资料免费下载
    发表于 07-13 10:20 3次下载
    TinyML变得简单:<b class='flag-5'>关键词</b><b class='flag-5'>识别</b>(<b class='flag-5'>KWS</b>)

    何在AT32 MCU使用FPU功能

    何在AT32 MCU使用FPU功能
    的头像 发表于 11-01 17:18 4059次阅读
    如<b class='flag-5'>何在</b><b class='flag-5'>AT32</b> <b class='flag-5'>MCU</b><b class='flag-5'>上</b>使用FPU功能

    如何使用AT32 MCU定时器进行PWM输入测试

    如何使用AT32 MCU定时器进行PWM输入测试
    的头像 发表于 10-27 14:20 2742次阅读
    如何使用<b class='flag-5'>雅</b><b class='flag-5'>特</b><b class='flag-5'>力</b><b class='flag-5'>AT32</b> <b class='flag-5'>MCU</b>定时器进行PWM输入测试

    AT32 MCU实现高效电机驱动控制与应用

    发展。受邀出席此次会议,产品市场总监林金海发表了题为“AT32
    的头像 发表于 11-17 08:15 834次阅读
    <b class='flag-5'>雅</b><b class='flag-5'>特</b><b class='flag-5'>力</b><b class='flag-5'>AT32</b> <b class='flag-5'>MCU</b><b class='flag-5'>实现</b>高效电机驱动控制与应用

    AT32 MCU与SEGGER携手合作,开发量产事半功倍

    近日,与SEGGER共同宣布J-Link仿真调试器与Flasher在线烧录器全面支持AT32 MCU产品,SEGGER工具链的加持使
    的头像 发表于 02-23 10:27 409次阅读