语音识别“拐点”已至，现在切入才是好时机？-电子发烧友网

“现在切入语音识别正是好时机，更早进入也是在教育市场，过去两年一些公司的出货量经历了非常残酷的考验。现在行业进入拐点时期，我们进入正是最好的时间点”，探境科技CEO鲁勇对<电子发烧友>表示。

“拐点”之说何来？

根据Gartner在今年8月底发布的“人工智能技术成熟度曲线”可以看到，处于生产力成熟期（Plateau of Productivity）的技术仅有两项：语音识别（Speech Recognition）和GPU加速器（accelerators），且正处于爬升态势。来自市场的反馈同样如此，这两项技术是当前落地最快、最多的AI项目。

在语音识别的落地项目中，场景最多的当属智能家居领域，以智能音箱为典型代表。但是，从用户反馈来看，两大问题已经浮现出来：一是在真实语音交互场景中，在复杂的声场环境、噪音的影响下，语音识别准确率直线下降；二是越来越多安全问题的爆出，让用户对于家中的这个“云耳朵”充满了担忧。

第一批智能音箱在满足了用户的好奇心之后，成为非常鸡肋的一个产品，要么在家中落灰，要么需要时时警惕，仅在偶尔使用时才敢接上电源。

在成为爆款这件事上，智能音箱让业界失望了。

满足好奇心过后，语音交互下一波靠什么撬动市场？是价格吗？

是，也不全是。在巨大的市场痛点面前，谁能抓住用户需求，真正解决问题，谁才有希望在这条拥挤的赛道上前进一小段。

市场正在开始新一轮的筛选。

市场需要什么样的语音识别方案？

语音作为人机交互的重要方式之一，终极目标是实现自然的交互。而当前的技术远远达不到，在语音识别这一环节，解决噪音问题、提升远场语音识别率、消除用户顾虑/提升安全性成为当务之急。

在家居场景下，语音识别面临两大挑战：

第一是低信噪比。在我们的生活场景中，存在着一些高噪声的环境，比如抽油烟机或者扫地机器人，这些设备上噪声最低也有70分贝。麦克风距离这些设备非常近，而操作者距离麦克风会更远些，这些因素叠加，会导致语音识别设备采集到的信噪比非常低，给识别带来很大的挑战。

第二是非稳态的噪声的影响。传统降噪算法无法处理，比如电视剧声音/音乐突然的节奏变化，或者是做饭时叮叮咣咣的声音等，都带有突发性和不可预见性。

为了解决上述挑战，增强语音信号质量、提升信噪比，业界通常采用麦克风阵列的方式。但是，在干扰信号和目标声源方向接近的场景下，传统的麦克风阵列增强算法几乎无法处理。

据<电子发烧友>了解，目前市面上的智能语音芯片方案可粗略分为两种：一种是披着“AI”外衣的DSP，这种方案可实现轻量级的NN支持，在识别指令数量方面有提升，但是通常并无降噪支持；另一种可支持RNN/CNN/DNN等模型、架构上通常采用MCU+NN或MCU+DSP+NN。

在鲁勇看来，未来用户体验要求会越来越高，相应地将造成算法越来越复杂，对算力的要求将更高。只有从底层进行颠覆性创新，才能真正解决问题。

揭密探境语音识别三大核心技术

AI降噪+HONN神经网络提升识别率

在语音识别的研发过程中，一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。想做好识别，首先要在降噪处理上下功夫。

探境自研的AI降噪算法基于深度学习，不仅能够处理稳态的噪声，非稳态的突发性噪声也能很好的过滤。据探境科技副总裁李同治介绍，凭借探境AI降噪算法的有效性，他曾将一批信噪比在3dB左右的语音数据做了测试，降噪后比降噪前提高30%识别准确率。

在对声音进行降噪处理之后，就进入到了语音识别环节。在这一环节中，神经网络模型所需的算力决定了模型的描述能力，同时也决定了模型处理能力和识别率的上限。

以往的语音识别算法，用的最多的是全连接的操作DNN/DTNN。据了解，国内多家语音识别芯片采用的都是DNN的方法。

探境将计算机视觉的经验迁移到语音识别中，在语音识别算法上加入了更多的卷积操作，重新设计了一个高计算强度的神经网络，即HONN（High Operation Neural Network）。

图：DNN与HONN区别

在高计算强度神经网络里，每一个处理单元变成了立体维度，所能处理的信息量和计算密度，也远远超过传统DNN/DTNN的方法。

由于多了一个维度的识别，性能方面得到了显著提升：DNN需要1.6M的存储空间，而HONN仅需要350k，这意味着可以使用存储空间更少、成本更低的芯片来做语音识别。

同时，DNN与HONN所需的算力相反。在处理高强度模型单帧时，HONN需要超过几百兆OPS，而一般的DNN模型需要个位数的算力。两者相差超过30倍。对于神经网络来说，模型所需的算力决定了模型的描述能力，同时也决定了模型处理能力和识别率的上限，从国内外趋势来看，最近工业和学术界趋向于使用算力需求大的模型来做建模。

据李同治介绍，就好比动物界大脑新皮层的容量决定着物种的智力程度，比如人类的新皮层容量是普通哺乳动物的近100倍，相应的，人类的智能程度超出普通哺乳动物几个数量级。

卷积运算与人类大脑负责感知模块的处理方法类似，能够提取满足大脑认知的本质特征。在参数数量相同的条件下，HONN通过卷积操作能够提供更高的计算强度，提高模型的算力需求。相对安静的环境下两者之间差别不大，但是当信噪比进一步降低时，基于HONN的方法识别优势非常明显。

端到端FCSP双麦算法简化识别流程

“为了克服传统分模块语音增强算法的缺点，我们设计出了基于FCSP的端到端AI双麦算法”，李同治表示。FCSP（Frequency Complex Subspace Projection）是探境自研的频域复数子空间投影算法的简称。

据了解，“端到端”是目前国际前沿的处理算法，亚马逊、谷歌等都在采用类似的方法。探境基于FCSP的端到端双麦算法直接输入阵列信号，输出的是最终的识别结果，中间部分全部交给基于深度学习的AI算法来处理，不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化，避免了语音增强与语音识别模块错配的问题。在信噪比为0dB时，相对于传统的处理算法，相对识别错误率降低超过20%。

存储优先的SFA芯片架构

鲁勇谈到，在核心技术方面，市面上一些玩家像是在跛着脚走路，要么有芯片没算法，要么有算法没芯片，这样在市场上无法形成真正的竞争力。性能优异的算法+算力强劲且通用性强的芯片，才能充分发挥实力，探境就是要提供全栈式的技术能力，包括芯片设计、算法研究、软件开发和系统集成，提供Turn-key整体解决方案。

探境的骨干力量在行业内拥有10-20年的工作经验，其中一些曾就职于Marvell、英伟达、高通、Intel、硅谷数模等知名公司。基于多年的经验和对AI未来的预判，他们决定推翻冯诺依曼体系，推出了存储优先（SFA）的芯片架构。

SFA架构以存储驱动计算，具有能效比高、资源利用率高、通用性强等特点。在SFA架构上实现深度学习时，只需要一个较高层次的神经网络描述。SFA的编译器首先将这个神经网络进行全部融合，然后根据具体架构实现的规模产生一个统一的存储流图，再进行存储节点的时空映射，最后根据各个节点之间的计算类型配置计算单元，组合起来形成一个统一的固件供SFA控制器使用。

在28nm常规工艺芯片的对比测试中，SFA架构在乘法器数目相同情况下（DRAM为LPDDR4），结果如下表，系统能效超过4T OPS/W，甚至超过12nm的芯片方案。

测试网络	数据访问量 DSP VS SFA	存储子系统功耗 DSP/SFA
inceptionv3	32：1	9：1
mobilenetssd	43：1	11：1
resnet50	17：1	6：1
VGG19	108：1	17：1
yolov2	47：1	12：1

注：测试方法为带有卷积加速器扩展指令的DSP模式与SFA架构模式的对比

探境有一句宣传语：NPU的性能，MCU的价格，背后动力主要来源于芯片架构的优化。设计这样一个全新的架构难度不言而喻，据鲁勇介绍，其中涉及数学、计算机架构、数据管理调度、硬件设计经验等，是个复杂的综合工程，并且要把这些方法揉在一起发挥出最大效力，通过算法和调度方式降低资源的连接复杂度，从而降低功耗，提高对数据本身的使用效率。他强调，SFA存储优先，不同于存算一体架构。后者需要从底层工艺去修改芯片设计，而存储优先是算法上的更新，无需修改芯片底层单元库。在当前商业化节奏越来越快的潮流之下，这种架构更通用、更兼容，大大加快了商业化落地速度。

探境能否渐入佳境？

依托于独有的AI降噪技术和HONN神经网络，探境的Voitist音旋风611可以覆盖绝大部分生活场景，量产供货仅半年，已经实现百万级出货。目前，探境拥有约30家合作伙伴，包括美的、海尔等智能家居制造大厂，智能家居制造商阿凡达智控、渠道商世强科技也刚刚与探境达成合作。

从探境首次曝光的产品矩阵来看，覆盖低功耗产品、主流产品、旗舰产品三大系列、六颗AI芯片，对于离在线一体、本地NLP、超低功耗产品等都有布局，希望形成智能家居网络的矩阵式入口。

离线智能语音交互是当前一个重要的细分领域，无需联网可在本地实现语音交互，不仅能够保护隐私安全，同时也可以减少用户大量数据传送到云端的压力，当前主要应用于白电市场。可通过离线智能语音控制的家电产品目前包括：灯控、空调、电视机、油烟机、玩具等。

不过，探境不仅仅满足于做一家语音方案公司。初尝到语音市场的甜头后，探境把触角伸到了下一个红利市场——图像识别。据鲁勇介绍，探境的图像芯片在2019年Q4已经流片成功，在某些领域已经开始产生营收了。根据公布的核心指标来看，核心能效比IPS/W达800，是目前全球AI芯片中最高的，而这足以支撑探境去云端推理市场正面PK。

不过，就像鲁勇所说，AI芯片像马拉松长跑，比的是耐力，而不是冲刺速度，在这场比赛中，不是要看谁跑得快，而是要看谁有潜力到达终点，谁在中途不走岔路。

探境能否从智能家居开始，打稳地基，渐入佳境？还需要市场应用最后给出答案。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人机交互

人机交互

+关注

关注
12

文章
1206

浏览量
55387
语音识别

语音识别

+关注

关注
38

文章
1739

浏览量
112638
NPU

NPU

+关注

关注
2

文章
282

浏览量
18585
探境科技

探境科技

+关注

关注
0

文章
4

浏览量
1810

NRK3502系列芯片 | 制氧机离线语音识别方案

NRK3502芯片制氧机离线语音识别方案制氧机离线语音识别方案是基于NRK3502蓝牙双模智能语音IoT芯片，依托于九芯电子在

发表于 12-04 01:02 •121次阅读

NRK3502系列芯片 | 制氧机离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>方案

语音识别与自然语言处理的关系

在人工智能的快速发展中，语音识别和自然语言处理（NLP）成为了两个重要的技术支柱。语音识别技术使得机器能够理解人类的语音，而自然语言处理则让

发表于 11-26 09:21 •345次阅读

语音识别技术的应用与发展

语音识别技术的发展可以追溯到20世纪50年代，但直到近年来，随着计算能力的提升和机器学习技术的进步，这项技术才真正成熟并广泛应用于各个领域。语音识别技术的应用不仅提高了工作效率，也极大

发表于 11-26 09:20 •401次阅读

ASR与传统语音识别的区别

ASR（Automatic Speech Recognition，自动语音识别）与传统语音识别在多个方面存在显著的区别。以下是对这两者的对比：一、技术基础 ASR ：基于深度学习算

发表于 11-18 15:22 •450次阅读

ASR语音识别技术应用

ASR（Automatic Speech Recognition）语音识别技术，是计算机科学与人工智能领域的重要突破，能将人类语音转换为文本，广泛应用于智能家居、医疗、交通等多个领域。以下是对ASR

发表于 11-18 15:12 •584次阅读

物联网系统智能控制产品的语音识别方案_离线语音识别芯片分析

01 物联网系统中为什么要使用离线语音识别芯片物联网系统中使用离线语音识别芯片的原因主要基于以下几个方面： 1、实时性与可靠性实时性好：离线语音

发表于 09-26 17:56 •568次阅读

WTK6900FC语音识别模块

语音识别

WT-深圳唯创知音电子有限公司
发布于 :2024年09月25日 17:35:07

唯创知音WT2605C用在离在线语音识别方案# #语音芯片 #语音识别 #唯创知音

语音识别

WT-深圳唯创知音电子有限公司
发布于 :2024年09月12日 17:24:28

什么是离线语音识别芯片？与在线语音识别的区别

离线语音识别芯片适用于智能家电等，特点为小词汇量、低成本、安全性高、响应快，无需联网。在线语音识别功能更广泛、识别准确率高，但依赖稳定网络。

发表于 07-22 11:33 •399次阅读

ESP32-WROOM跑了官方的语音识别中的asr例程，但是切换到语音识别就会出错的原因？

我是用的是ESP32-WROOM芯片，用的Vscode+IDF+ADF，我跑了一下官方的语音识别中的asr例程，但是我发现，语音唤醒可以，但是一旦切换到语音

发表于 07-19 08:27

Transformer模型在语音识别和语音生成中的应用优势

随着人工智能技术的飞速发展，语音识别和语音生成作为人机交互的重要组成部分，正逐渐渗透到我们生活的各个方面。而Transformer模型，自其诞生以来，凭借其独特的自注意力机制和并行计算能力，在

发表于 07-03 18:24 •1088次阅读

车载语音识别系统语音数据采集标注案例

车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术，载语音识别系统通过辨别声音的语调、语速和音量，将所听到的语音转化成可读取的语

发表于 06-19 15:52 •354次阅读

车载语音识别系统语音数据采集标注案例

车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术，载语音识别系统通过辨别声音的语调、语速和音量，将所听到的语音转化成可读取的语

发表于 06-19 15:49 •507次阅读

语音识别的技术历程及工作原理

语音识别的本质是一种基于语音特征参数的模式识别，即通过学习，系统能够把输入的语音按一定模式进行分类，进而依据判定准则找出最佳匹配结果。

发表于 03-22 16:58 •3122次阅读

澎湃微离线语音识别应用实例

随着科技的飞速发展，人机交互的方式也在不断演变。在键盘、触摸屏之后，语音识别技术正逐渐成为人机交互的新宠。从技术路线上来讲语音识别又分为在线语音

发表于 03-15 14:11 •416次阅读

搜索历史

语音识别“拐点”已至，现在切入才是好时机？

“拐点”之说何来？

市场需要什么样的语音识别方案？

揭密探境语音识别三大核心技术

端到端FCSP双麦算法简化识别流程

探境能否渐入佳境？

评论

NRK3502系列芯片 | 制氧机离线语音识别方案

语音识别与自然语言处理的关系

语音识别技术的应用与发展

ASR与传统语音识别的区别

ASR语音识别技术应用

物联网系统智能控制产品的语音识别方案_离线语音识别芯片分析

WTK6900FC语音识别模块

唯创知音WT2605C用在离在线语音识别方案# #语音芯片 #语音识别 #唯创知音

什么是离线语音识别芯片？与在线语音识别的区别

ESP32-WROOM跑了官方的语音识别中的asr例程，但是切换到语音识别就会出错的原因？

Transformer模型在语音识别和语音生成中的应用优势

车载语音识别系统语音数据采集标注案例

车载语音识别系统语音数据采集标注案例

语音识别的技术历程及工作原理

澎湃微离线语音识别应用实例