语音识别行业的发展现状分析-电子发烧友网

因为资本的涌入、智能家居的火热和人工智能的崛起，市场对语音市场的关注度迅速提升。尤其是近年来随着亚马逊、谷歌、华为和BAT等厂商入局智能音箱，争先押宝这个智能家居的关键入口之后，语音市场变得空前拥挤。

根据 ReportLinker的预测，到2024年，全球智能语音市场规模将跃升到215亿美元，而在当中AI语音芯片就扮演了一个关键角色。不同于过往的芯片只考虑PPA，开发者在选择语音芯片的时候更多是考虑其体验，但这是很多过往的硬件解决方案所不具备的。这就吸引了众多传统厂商或者初创企业开始纷纷涌入AI语音芯片这个赛道，用MCU、DSP或者ASIC的方案来解决现有，有些厂商甚至还推出了颠覆传统的新架构去抢占市场。

但在行业专家看来，这些方案或多或少都存在一些问题。要了解这一点，就必须从语音识别行业的一些现状说起。

语音识别面临的几大挑战

以智能音箱为例，现在的语音识别产品在厂商的智能家居规划蓝图中是扮演一个人与机器交流的桥梁，那在实际应用中就要求音箱能够听得到人说的话，同时还要求它听得清晰和听得准。这就提出了第一个挑战——那就是信噪比。

所谓信噪比，就是目标信号与干扰信号强度比值的对数，我们需要一定的信噪比，才能让机器听得清楚。但根据声音的传播特性，它在空气中衰减会非常大，但人在与智能音箱交流的过程中，可能会处在不同的位置和距离。这就给相关的方案提供商提出了一个难题，这也是语音识别所面临的最大挑战。

第二个问题是非稳态的噪声影响。如果我们面对的是规律的噪声，应对的办法无疑会简单很多。但在实际的使用环境中，我们经常会面对的是带有突发性和不可预见性的噪音，这给供应商也带来了不小的挑战。

第三，多声源的问题。智能音箱在使用的过程中，只会听从一个声源的指令，但在人机交流的过程中，必然会出现干扰源。如何处理这个干扰的问题，也困扰着相关供应商和开发者。

而其实面对这些问题，产业链已经想了不少应对之法。例如麦克风阵列、波束成形和降噪的引入，更强的人工智能芯片加持，但这依然没有能彻底解决问题。

语音识别行业的发展现状分析

如上图所示，在传统方案中，系统最后识别的信号是在波束成形之后做的，因为波束成形依赖于声源定位（即DOA），但DOA一般用单MIC信号来做检测。换而言之，我们这样设计的目的原本是为了提升唤醒率和识别率，但依赖于单MIC信号的检测之后，两者之间就存在相互依赖的关系，这就会给设备的唤醒率造成影响。

其次，传统方案里面有多个模块和多个环节，但他们并不都是以降低识别率为优化目标，这就让降噪、信号增强和最后的识别可能会出现不适配的情况，使得系统虽然降了噪，但没有得到想要的识别率的提升。

再者，传统的流程对硬件要求非常高，对MIC的一致性以及电容元器件的一致性要求非常高。这就节能会导致大家在实验室和在量产线上取得不同的结果。量产场景下的识别率非常差。这主要与波束成形和声源定位要求高，一旦出现波动会影响识别效果有关。

此外，波束成形算法原理是增强设定波束内的信号强度，衰减波束外的信号幅度。那就意味着当干扰声源和目标声源方向非常接近的时候，信号和噪声是会同时增强，这是传统波束成形算法也不能解决的问题。

单从芯片的角度看，也有不少的困难要面对。如算力问题、冯诺依曼架构带来的内存墙问题，还有基于浮点训练出来的模型与定点推理之间的不匹配引致的重新训练和精度丢失等问题。其他如对神经网络支持不够、功耗过高和开发复杂等也是当下很多语音识别芯片的掣肘所在。

市场渴求更好的解决方案。

基于创新架构开辟新路径

面对以上种种挑战，由Marvell中国芯片研发部门前高管鲁勇创立的探境科技正在从架构、芯片、软件和算法等多维度创新入手，帮助语音识别方案客户解决其问题。而其颠覆性创新的SFA（storage First Architectur）架构则是他们“全栈”式服务的基础。

探境科技CEO鲁勇先生首先告诉半导体行业观察记者，他们的SFA架构并不是大家所认为的存算一体架构。在他看来，现在很多所谓的存算一体架构存在着成本、可靠性、算法兼容性等问题。

“我们的SFA从架构上也是将计算和存储单元分开，但是我们的做法是以存储来驱动计算，并且将传统AI运算时要在数据在存储和计算单元中来回搬回多次的过程压缩到一次却又不影响结果精度。这是我们的核心竞争力所在，这也能很多AI语音识别芯片碰到的问题迎刃而解”，鲁勇说。

从实际测试上看，探境科技AI语音芯片的表现优越。据鲁勇介绍，在实际测试中，探境科技的AI语音识别芯片的数据访问可降低10~100倍，存储子系统功耗下降10倍，而基于28nm工艺打造的芯片系统能效超过4T OPS/W。

语音识别行业的发展现状分析

SFA架构芯片与其他芯片的对比

注：在28nm专用测试芯片上得到的对比数据，测试方法为带有卷积加速器扩展指令的DSP模式与SFA架构模式的对比，乘法器数目相同，DRAM为LPDDR4

除了高性能的能耗比之外，这个架构还有非常好的易用性和通用性。

鲁勇指出，基于SFA架构打造的AI芯片不是针对某一个神经网络做的优化，可以支持所有已知的神经网络，并且能让所有神经网络在其上面都能跑出最高的效率；同时它对参数也没有限制，可以用任意的参数；此外，基于SFA架构打造的芯片对数据类型也没有限制，可以支持定点数、位点数。针对常见的稀疏数据，这个芯片也有自适应的支持，而不用人工干预。“探境科技提供的工具链可以让开发者能够零基础切入SFA架构芯片的开发。”鲁勇强调。

基于SFA架构，探境科技开辟出了语音和图像两条产品线，其中语音产品已经获得了客户的高度认可。其中音旋风611功不可没。

据了解，这是探境科技针对智能家居市场推出的一款语音识别芯片，是目前市面上综合性能最好，性价比最高的一款芯片。如下图所示，它能够支持200条的命令词，能够做到99%的唤醒率和极低的误唤醒率。

至于探境科技的另一条产品线图像芯片也已经流片成功，期待探境科技用其给市场带来更多的赋能。

音旋风611

虽然基于SFA打造的芯片拥有多项优势。但正如上文所说，语音识别方案是一个涉及多个模块的项目，芯片只是当中的一环。为此，探境科技从多个角度入手，为语音识别方案商提供了一个交钥匙方案。

针对前文提到的传统麦克风阵列信号增强算法的缺点，探境科技提出了一个新的处理方法，把增强和识别一体化处理，做了一个端到端的识别流程。

据探境科技的技术副总裁李同治介绍，他们在这个识别流程里放弃了用传统数字信号处理算法来做语音增强的做法，而是用一套基于神经网络的AI算法来做信号增强。他指出，这个方案的处理算法所有的参数都是和神经网络一起训练的，这样整体优化的目标都是为了降低最后的识别错误率，而不仅仅是提升信号质量。

端对端的处理算法是最前沿的处理算法

“我们这套降噪算法与传统的降噪算法不一样，我们的降噪算法是基于深度学习的AI降噪算法，不仅可以处理常见的稳态噪声，对一些非稳态的噪声和突发性的噪声也可以很好地处理。”，李同治补充说。

除了这个降噪算法以外，探境科技还开发出了专门用来做语音识别的高计算强度的神经网络HONN。据了解，高强度神经网络的参数量不大，仅为DNN的五分之一，这就让探境科技可以用更少的参数量和更少的存储达到了更好的效果。

与此同时，高强度计算神经网络的算力需求量很大，但DNN只有个位数的计算强度，两者之间差了30倍。这也是为什么其他厂商并没有使用效果更好的HONN，而是DNN的原因。因为这个算力要求对基于SFA打造的AI芯片来说是绰绰有余，但对很多其他架构芯片来说，是难以应付的，李同治告诉记者。

“SFA不仅仅是适配于终端，也适配于云端、推理、训练，可以组合成各种不同的产品形态，适合于终端、推理、训练”，鲁勇最后说，但他也强调，将SFA应用到云端会是一个很漫长的过程。我们现在可以看到的是，探境科技正在用他们的全栈实力在拥挤的语音AI芯片赛道上找到了属于他们的”捷径”。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音识别

语音识别

+关注

关注
38

文章
1739

浏览量
112651
AI芯片

AI芯片

+关注

关注
17

文章
1886

浏览量
35013

机器人谐波减速器的发展现状与趋势

机器人谐波减速器的 发展现状与趋势.

发表于 11-29 10:41 •425次阅读

语音识别技术的应用与发展

语音识别技术的发展可以追溯到20世纪50年代，但直到近年来，随着计算能力的提升和机器学习技术的进步，这项技术才真正成熟并广泛应用于各个领域。语音识别

发表于 11-26 09:20 •413次阅读

ASR语音识别技术应用

语音识别技术应用的分析：一、ASR语音识别技术原理 ASR语音

发表于 11-18 15:12 •623次阅读

医疗机器人发展现状与趋势

医疗机器人作为医疗领域与现代机器人科技的融合体，正逐步引领医疗服务向更高效、更精准的方向发展。以下是对医疗机器人发展现状与趋势的详细分析：

发表于 10-21 15:24 •2267次阅读

工控机厂家发展现状及未来趋势

中发挥着重要作用。本文将探讨工控机厂家的发展现状、市场需求、技术创新以及未来趋势。一、工控机厂家发展现状工控机厂家是指专门从事工业控制计算机设计、研发、生产和销售的企业。在中国

发表于 09-29 11:01 •566次阅读

物联网系统智能控制产品的语音识别方案_离线语音识别芯片分析

01 物联网系统中为什么要使用离线语音识别芯片物联网系统中使用离线语音识别芯片的原因主要基于以下几个方面： 1、实时性与可靠性实时性好：离线语音

发表于 09-26 17:56 •590次阅读

智能制造行业现状与发展趋势

智能制造行业作为现代制造业的重要组成部分，正经历着快速的发展与变革。以下是对智能制造行业现状与发展趋势的详细

发表于 09-15 14:26 •1354次阅读

Transformer模型在语音识别和语音生成中的应用优势

自然语言处理、语音识别、语音生成等多个领域展现出强大的潜力和广泛的应用前景。本文将从Transformer模型的基本原理出发，深入探讨其在语音

发表于 07-03 18:24 •1110次阅读

2.晶体和振荡器行业研究及十五五规划分析报告(行业发展现状及“十五五”前景预测)

行业发展现状及“十五五”前景预测2.1全球晶体和振荡器供需现状及预测（2019-2030）2.1.1全球晶体和振荡器产能、产量、产能利用率及发展趋势（2019-2030）图14：全球晶

发表于 06-21 14:08 •332次阅读

STM32国内外发展现状

电子发烧友网站提供《STM32国内外发展现状.docx》资料免费下载

发表于 04-08 15:56 •37次下载

万兆电口模块的产业发展现状与前景展望

本文将探讨万兆电口模块的产业发展现状及未来前景。市场需求增长迅速，企业、数据中心、园区网等需求不断推动产业快速发展。产业链布局完整，技术创新推动产业发展。未来市场将继续扩大，产业链上下游企业需加强协同合作。

发表于 02-21 16:13 •461次阅读

工程振弦采集仪监测技术的发展现状与展望

工程振弦采集仪监测技术的发展现状与展望工程振弦采集仪监测技术是指利用振弦采集仪对工程结构进行振动检测和监测的技术。随着工程结构的复杂化和要求的提高，工程振弦采集仪监测技术也在不断发展和完善。工程

发表于 01-22 14:44 •334次阅读

三坐标测量机发展现状以及三坐标国产化的意义

随着中国制造业不断发展壮大，三坐标测量机作为一个关键的检测设备，其发展现状备受关注。通过国内企业的不断努力和政府的支持，中国三坐标测量机市场蓬勃发展。同时，国产化的推动也为中国制造业带来了更大的机遇和

发表于 01-17 09:25 •2223次阅读

区块链技术发展现状和趋势

近年来，区块链技术作为一项颠覆性的创新技术，引起了全球各行各业的广泛关注。区块链技术的出现，为金融、供应链、物联网等各个领域带来了很多变革的机会。本文将从区块链技术的起源、发展现状以及未来趋势等方面

发表于 01-11 10:31 •2322次阅读

乘用车一体化电池的发展现状和未来趋势

佐思汽研发布《2024年乘用车CTP、CTC和CTB一体化电池行业研究报告》，对乘用车一体化电池发展现状及主机厂、供应商相关产品布局进行了梳理研究，并对乘用车一体化电池未来发展趋势进行预测。

发表于 01-10 14:06 •1159次阅读