IDC 预计,2019 年全球智能家居设备市场出货量将达到 8.327 亿台,将同比增长 26.9%。蛋糕之大让业界一片欢腾,尤其是进入门槛较低的语音识别应用市场,吸引了众多 AI 创业公司的目光,市面上出现了多款针对语音识别的 AI 芯片,其中不乏思必驰、云之声等算法厂商,还有出门问问、若琪等终端厂商,语音 AI 芯片市场的竞争变得异常激烈。
近期,探境科技也推出了具有 AI 双麦降噪功能的语音识别方案,即 Voitist 音旋风 612。可能很多人对探境科技并不是熟悉,其实这并不是一家新的 AI 公司,而是在 2017 年就已经成立,只是公司初期在埋头研发,因此很少出现在公众的视野中。据其技术副总裁李同治介绍,“公司创始人鲁勇曾经在全球著名半导体公司 Marvell 担任研发高管,研发团队有着给苹果、三星、希捷、西数、特斯拉等国际顶级公司量产芯片供货的经验,公司的目标是为客户提供终端人工智能芯片及整体解决方案。如今,公司在北京、上海、深圳、杭州、合肥及美国硅谷都设立了研发基地,目前公司员工近 200 人,其中技术研发人员 150 人,平均研发经验在 15 年以上。”
在今年的 7 月份,探境科技就推出了首款 AI 语音识别芯片音旋风 611,并且已经量产,李同治介绍,“音旋风 611 支持多达 200 条命令词,能够覆盖家庭生活场景中几乎所有常见的语音控制命令;在识别率方面,不低于 99%的唤醒率,超过 97%的识别率,以及低于 24 小时 1 次的误唤醒率。适用于各种需要语音进行控制的应用场景,芯片内嵌领先的 NPU 架构,配合单麦克风即可实现 5-10m 远距离的语音识别,识别延迟小于 0.2 秒,不需要依赖云和网络,可在本地完成推理运算,音旋风 612 是 611 的升级版。”
AI 公司以技术取胜才能走得更远,探境科技能够推出这样的产品也全依赖于技术驱动。AI 应用需要软件和硬件共同实现,市面上的很多公司要么单独做算法,要么单独做硬件,这就容易出现软件和硬件匹配困难的问题,探境科技是在软件和硬件两方面同时研发,从而实现软硬件融合,包括芯片设计、结构框架、系统、算法等全部自主研发。在发布会上,探境科技负责人从硬件方面介绍了公司的独特技术存储优先架构,从软件方面分析了公司的三大黑科技。
“杀手锏”:存储优先架构
传统的处理器一般都采用冯·诺伊曼体系结构,计算单元和存储单元相互独立,每次运算计算单元将数据从存储单元中提取出来,处理完成后再写回存储单元中。近年来,处理器性能飞速提升,但是访问存储器的速度并没有相应的提升,所以访问存储器的速度无法跟上处理器消耗数据的速度,导致处理器的计算性能无法充分发挥出来,这就出现“存储墙”问题。
为了解决“存储墙”问题,探境科技推出了存储优先架构(即SFA架构),这是一种不同的技术路线。探境科技创始人鲁勇解释,所有深度学习算法和 AI 芯片都面临一个问题,它们并不是要做卷积运算的乘法或加法,这并不是最难解决的问题,难点是在于有很多数据在重复使用,数据在存储器里的位置、相对关系、读取的性能会影响到算法运行的性能。而且数据的存储带宽要求很大,存储功耗很高。传统上的解决方式不考虑存储墙的问题,暴力增加存储单元,成本很高。我们用一种独特的芯片架构来推翻冯诺依曼体系架构,把数据读取的次数降低,降低数据的冗余,从而降低带宽的需求,通过算法和调度数据的方式,改进数据管理,在硬件上控制数据流,降低数据重复使用,通过软件和硬件结合,在芯片上降低资源的链接复杂度,这种架构我们称为存储优先架构,其实我们改善的是芯片本身的原因。”
从效果来看,鲁勇强调,“这种方法可以带来超高的能效比,数据访问可降低 10-100 倍,存储子系统功耗下降 10 倍以上,28nm 工艺系统能效超过 4T Ops/W。”
鲁勇将 SFA 架构称为真正符合商业应用的 AI 芯片架构,因为其采用成熟的设计方案,无需对底层器件进行修改设计,可以走商业化路径;通用性高,芯片面向的场景众多,必须支持多种算法才可以被商业化;同时易用性高,用户学习成本低,模型移植简单。
需要指出的是,一般 AI 芯片只针对某一神经网络进行运算,SFA 架构支持任何神经网络,而且可以调整参数。
存储优先算法既然如此高效,为什么其它 AI 公司没有开发?鲁勇的解释是,这是一项有技术门槛的技术,不仅在技术上需要要懂数学原理、架构、数据管理知识,同时需要有丰富的芯片设计经验,综合起来才能做到高效率,这些都是探境科技所具备的。
如果说存储优先架构是探境科技在硬件上实现的优化,软件上又做了哪些工作?李同治向我们做了详细介绍。
三大“黑科技”加身,出货量过百万
李同治将探境科技在软件上的创新归结为三大“黑科技”,分别是 AI 降噪算法、高计算强度神经网络 HONN、基于 FCSP 的端到端 AI 双麦算法。
黑科技之一:AI降噪算法
目前在智能家居应用中,语音识别面临环境噪杂或者距离远,从而导致识别不清的难题,智能家居设备厂家急需一种能够准确过滤噪音,并提取目标声源的方案。
在语音识别技术中,信噪比是衡量识别的目标声源与其它干扰声源强度比值的对数。一般将信噪比低于 15dB 的称为噪声环境。信噪比越低,识别难度越大。在语音识别的研发过程中,一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。想做好识别,首先要在降噪处理上下功夫。
探境科技自研了 AI 降噪算法基于深度学习,不仅能够处理稳态的噪声,非稳态的突发性噪声也能快速过滤。为了验证探境 AI 降噪算法的有效性,技术人员将一批信噪比在 3dB 左右的语音数据送到一个知名的云端公开语音识别引擎做了测试,降噪后比降噪前提高 30%识别准确率。
黑科技之二:高计算强度神经网络HONN
在对声音进行降噪处理之后,就进入到了语音识别环节。在这一环节中,神经网络模型所需的算力决定了模型的描述能力,同时也决定了模型处理能力和识别率的上限。在传统的语音识别算法里,国内很多语音识别芯片都采用了全连接操作 DNN 技术。但是相对全连接操作,卷积操作能够提供更高的计算强度,且卷积运算与人类大脑负责感知模块的处理方法类似,能够提取满足大脑认知的本质特征。
探境将其计算机视觉中的一些经验迁移到语音识别中,在语音识别算法上加入了更多的卷积操作,重新设计了一个高计算强度的神经网络,即 HONN(High Operation Neural Network)。
李同治解释,“对比发现,HONN 仅需要 350k 的存储空间,而 DNN 需要 1.6M 的存储空间,更低的存储需求意味着成本更低。同时 DNN 与 HONN 所需的算力相反,处理高强度模型单帧时,HONN 需要超过几百兆 OPS,而一般的 DNN 模型仅为个位数的算力,两者相差超过 30 倍。对于神经网络来说,模型所需的算力决定了模型识别率的上限。相对安静的环境下两者之间差别不大,但是当信噪比进一步降低时,基于 HONN 的方法识别优势非常明显。”
在实际测试中,在抽油烟机的噪音中(大约 70 分贝),HONN 方式下的识别信噪比约为 3~5dB,单灯模型的识别效果非常准确。
黑科技之三:基于FCSP的端到端AI双麦算法
信噪比还有一种更严苛的情况,就是 0dB 和负 dB,0dB 意味着噪声和信号强度一样,甚至噪声比语音信号还要强,面对这种应用场景,探境科技采用了基于 FCSP 的端到端 AI 双麦算法。
传统的麦克风阵列处理算法有几大缺点,从而造成处理效果并不理想。“为了克服传统处理方式的缺点,我们设计出了基于 FCSP 的端到端 AI 双麦算法。”李同治对记者表示“FCSP(Frequency Complex Subspace Projection)是我们自研的频域复数子空间投影算法的简称,这个算法直接输入阵列信号,输出的是最终的识别结果,中间部分全部交给基于深度学习的 AI 算法来处理,不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化,避免了语音增强与语音识别模块错配的问题。”
另外,在模型训练期间,采取了“注意力增强”的学习方法,能够灵敏的检测到唤醒词和命令词,即使干扰信号与目标信号方向接近,也能灵敏的进行唤醒和识别。李同治做了一个形象的比喻,“这个类似于在一个嘈杂的环境里面,如果有人喊自己的名字,一下子就能反应过来。”
李同治强调,“我们采取了频域复数子空间投影,抗噪性能强,在信噪比为 0dB 时,相对于传统的处理算法,相对识别错误率降低超过 20%。”
通过 AI 语音算法+HONN 神经网络模型来提升识别率,再通过 FCSP“端到端”的双麦处理算法简化识别流程,降低最终识别错误率,探境的语音算法实现了跨越式的升级,加上通过存储优先架构打造的 AI 芯片,探境科技可以为客户提供芯片、算法俱全的 Turn-key 方案。
除了支持 AI 双麦的 Voitist 音旋风 612 之外,还包括在离线一体的 Voitist 音旋风 621、以及语音芯片的旗舰产品——可支持本地 NLP 的音旋风 7 系列。探境目前拥有约 30 家合作伙伴,既有美的、海尔等智能家居制造大厂,也有世强科技在垂直领域颇具影响力的渠道商,知名智能家居制造商阿凡达智控也刚刚与探境达成合作,目前,探境科技的产品出货量已达百万级别。
未来规划:从语音到图像,离线在线一体方案已在路上
近两年,边缘计算大热,随着数据量不断增大,云端的承载压力越来越大,因此终端客户寻求在边缘完成部分数据处理,从而分担云端的压力。尤其在 AI 领域,未来对延迟和带宽提出更苛刻的要求,探境科技也认为,真正的人工智能应用场景,是不需要借助云端服务等做远程支持的,只有将人工智能做到终端上来,让每个设备都具备人工智能,才是现阶段“人工智能”的进化。
目前厂商多采用在线方案,就是打一个数据包放到云端,而离线方案是语音识别算法在本地,音乐等播放内容还是放在云端。据鲁勇透露,未来探境还会将语音产品进行二次升级,推出更多在线离线一体化方案。探境科技采用 HONN 神经网络模型,意味着处理模型变小,放在边缘的存储容量变小,成本也随之降低。关于用户对在线方案和离在线一起方案的选择,鲁勇表示,离线在线一体方案和在线方案两种会共存,毕竟用户的想法不同,选择也不同。
关于产品规划,鲁勇还表示,“探境不仅仅是一个语音芯片公司,而是一家语音、图像整体结合的 AI 芯片公司。除了语言市场之外,我们还看好工业视觉、新零售、安防、辅助驾驶等市场。我们的图像芯片在 2019 年 Q4 就已经流片成功,在某些应用中已经开始产生营收。AI 芯片的蛋糕非常大,探境希望可以联合上下游一起,开发生态,开放 SDK 和工具链,不仅是大家可以直接使用我们的产品,我们也希望有大量的合作伙伴,完成更多的场景开发。”
鲁勇认为,AI 芯片这一领域不像手机 APP 那样,瞬间可以凭一款应用获得数百万的用户,AI 芯片更像马拉松长跑,比的是耐力,而不是冲刺速度,在这场比赛中,不是要看谁跑得快,而是要看谁有潜力到达终点,谁在中途不走岔路。探境作为创业公司,虽然进入市场比较晚,但是这也是一个拐点期,市场教育工作已经完成,后面市场竞争还是看核心技术,我们的优势在于软件和硬件都自主研发,因此算法移植非常快,我们将从智能家居领域开始,先打好地基,再逐渐加码,等待市场大潮的到来。
评论
查看更多