应用深度学习变革传统语音信号处理，让机器拥有类似人耳一样的听觉感知能力-电子发烧友网

智能语音是人工智能技术的重要组成部分，包括声音前端信号处理、语音识别、语义理解、自然语言处理、语音合成等细分领域。在技术的具体落地中，消费级智能硬件是最早显示出市场潜力的赛道，从蓝牙耳机到可穿戴设备再到智能家居，各种产品都离不开相关的智能语音技术，而语音交互的第一步就是听见，声音前端信号处理的效果一定程度上制约了语音识别的效果，当前也有一些公司正在解决这一让各类产品“听得更清晰”的问题。

36氪日前接触到的「大象声科」，是一家专注于机器听觉的人工智能公司。该公司于2017年在深圳成立，致力于应用深度学习变革传统语音信号处理，让机器拥有类似人耳一样的听觉感知能力。据了解，「大象声科」技术的理论基础为CASA（计算机听觉场景分析）+DNN（深度神经网络技术）。CASA 解决的问题是基于人的听觉原理来实现声源分离，该理论的奠基人汪德亮教授也是「大象声科」的首席科学家和联合创始人。公司通过将CASA和深度学习相结合，在业内首家成功实现大规模商用级的噪音和人声的分离，后续有望进一步解决鸡尾酒会问题。（注：鸡尾酒会问题是语音识别领域的痛点和难点，人们在鸡尾酒会中交谈，语音信号会重叠在一起，机器需要将它们分离成独立的信号）

公司创始人兼CEO苗健彰向记者对比了传统信号处理和基于深度学习的信号处理方式的差别——传统的数字信号处理方式主要依据固定噪音特性和方向，通过滤波器对信号进行相应的过滤和增强。但因为生活中的噪音不一定存在固定特性，并可能来自于各种方向反射，所以传统方式或许无法彻底解决复杂噪声环境中的问题。而CASA+DNN的方案是让机器通过训练获得与人类听觉感知相似的机制，从而去认知周边的声场环境，在复杂场景中提取、识别人声。

在技术产业化这一块，「大象声科」首先从“降噪”切入，一方面解决通讯过程中的噪音干扰问题，让人们在复杂的现实噪声场景中拥有更加清晰、更加私密的通话体验；另一方面解决语音识别中噪声干扰问题，让机器在“听清”之后听得“更懂”。为此，公司推出了Vocplus智能语音增强和Vocplus Smart智能语音交互方案，目前已经在手机、耳机、PC、对讲机、VoIP、IoT等行业成功落地。

在研发过程中，苗健彰认为，把技术从理论进行工程落地转化是最大的难点，其中将神经网络小型化和模型的泛化是决定深度学习能否应用于实际产品中的重要环节。“大象声科在这方面有一套独特的技术，能够在不损失精度的情况下，使得算法参数尽量少，计算速度尽量快，这也是为什么目前我们的深度学习降噪算法快速落地到像耳机这类可穿戴产品。另外，市面上已经有上千万台设备搭载了公司的算法，帮助公司沉淀了大量数据。大象声科将人耳的听觉机理与深度学习相结合，也大幅提升了算法的泛化性能，形成了较高的技术壁垒。”他介绍。

相较而言，公司目前在手机、耳机等消费电子行业有比较多的应用案例，这和行业本身的需求和规模相关。“现在中国绝大部分的手机品牌，比如小米、OPPO、vivo都已经有使用「大象声科」的通话降噪技术（Vocplus Telecom）以及游戏抗啸叫技术（DHS）的量产案例。”苗健彰说。在前不久发布的华为FreeLace Pro耳机上，也搭载了公司的Vocplus AI三麦通话降噪方案。

此外，自去年以来的TWS耳机增长浪潮，也让越来越多的耳机厂商逐渐采纳以AI技术为主导的通话降噪方案。「大象声科」是率先在蓝牙耳机上落地AI语音降噪的公司，首个成功量产案例是OPPO Enco Q1 。并且，2020年「大象声科」与漫步者合作，成功落地了第一个AI算法结合骨传导sensor的通话降噪方案，可以让TWS耳机在通话时完全屏蔽周围噪音（包含人声噪音在内），实现私密性更强的通话体验。

谈及客户方的具体考量维度，苗健彰介绍客户主要会围绕通话清晰度进行评价，在这方面，业内有一套衡量通话降噪效果的客观标准3QUEST，测试指标包括：S-MOS（人声保留程度），N-MOS（噪音消除程度），G-MOS（综合通话降噪性能），而公司由于采用较独特的AI技术，在测评中得以展现优势。

在产业合作上，「大象声科」目前已与Qualcomm，CEVA，Cirrus Logic，Infineon，Rockchip和BES等国内外知名芯片厂商建立合作关系。其中值得一提的是，公司在2018年拿到了小米和高通的融资，并在之后和高通一起进行联合技术推广，这也为公司在市场拓展和品牌建设方面提供了一定帮助。在收费模式上，大象有按照license授权和按项目收费两种方式，当前license总装机量在数千万级别，今年的营收在数千万元量级。

在未来的行业延展中，「大象声科」计划进一步完善整个语音技术链条，把应用场景从近场拓展到远场，为更多行业如助听器、智能家居、会议系统、智能车载等带来更精准更智能的语音解决方案。

团队方面，公司创始人兼CEO苗健彰UBC软件工程学硕士毕业，曾就职于IBM、RBC等500强企业，并在加拿大成功创办过一家软件公司。联合创始人兼首席科学家汪德亮教授是计算机听觉场景分析奠基人之一，也是全球首位将深度学习应用于语音增强的科学家。联合创始人兼CTO张学良多年从事语音分离、增强算法研发工作，是内蒙古大学计算机学院教授。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1792

文章
47416

浏览量
238930
智能语音

智能语音

+关注

关注
10

文章
786

浏览量
48810
深度学习

深度学习

+关注

关注
73

文章
5507

浏览量
121272

原文标题：用深度学习改变语音信号处理，大象声科让机器像人耳一样“聆听”

文章出处：【微信号：MEMSensor，微信公众号：MEMS】欢迎添加关注！文章转载请注明出处。

传统机器学习方法和应用指导

用于开发生物学数据的机器学习方法。尽管深度学习（一般指神经网络算法）是一个强大的工具，目前也非常

发表于 12-30 09:16 •254次阅读

<b class='flag-5'>传统</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

。多模态融合的创新与突破机器人控制技术的另一个重要突破在于多模态大模型的应用。相比于仅通过文字进行人机交互的传统方法，现代机器人能够融合视觉、声音、定位等多模态输入信息，为任务执行

发表于 12-29 23:04

【「具身智能机器人系统」阅读体验】+初品的体验

解决许多技术的和非技术的挑战，如提高智能体的自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。未来的研究需要将视觉、语音和其他传感技术与机器人技术相结合，以探索更加先进的知识表

发表于 12-20 19:17

语音识别与自然语言处理的关系

在人工智能的快速发展中，语音识别和自然语言处理（NLP）成为了两个重要的技术支柱。语音识别技术使得机器能够理解人类的语音，而自然语言

发表于 11-26 09:21 •459次阅读

语音识别机器人的工作原理

语音识别机器人的工作原理主要基于一系列复杂的技术流程，包括信号采集、预处理、特征提取、声学模型匹配、语言模型预测以及最终的解码输出。

发表于 10-25 09:25 •493次阅读

基于MATLAB的数字滤波器语音信号去噪

1.1设计目标（1）利用Windows下的录音或其他软件，采集一段语音信号，名为“add.wav”，利用MATLAB中的audioread命令对该信号进行采样；（2）根据语音信号的

发表于 10-10 18:22 •1120次阅读

基于MATLAB的数字滤波器<b class='flag-5'>语音信号</b>去噪

音频信号通常包括哪些声音信号

音频信号是指通过声音传输的信号，它包含了各种不同的声音信号。以下是对音频信号中常见的声音信号的介绍：语

发表于 08-25 15:43 •1410次阅读

FPGA在人工智能中的应用有哪些？

：FPGA在语音识别领域也有广泛应用。通过算法优化和硬件自适应能力，FPGA可以实现高效的语音信号处理和识别，提供低延时、高精度的语音识别系

发表于 07-29 17:05

深度学习的基本原理与核心算法

随着大数据时代的到来，传统机器学习方法在处理复杂模式上的局限性日益凸显。深度学习（Deep Le

发表于 07-04 11:44 •2200次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于

发表于 07-01 11:40 •1430次阅读

梯云物联|AI提高物联网感知能力：让电梯更智能、安全！

在当今日新月异的科技浪潮中，人工智能（AI）与物联网（IoT）的深度融合正在为各行各业带来革命性的变化。特别是在电梯行业中，AI技术的引入不仅极大地提升了物联网的感知能力，更让电梯变得更加智能和安全。

发表于 06-03 11:49 •543次阅读

传统计算机视觉对比深度学习

深度学习是一种技术，它使用一种称为梯度反向传播的优化技术来生成“程序”(也称为“神经网络”)，就像上面故事中学者学生编写的那些程序一样。

发表于 03-31 09:48 •461次阅读

为什么深度学习的效果更好？

导读深度学习是机器学习的一个子集，已成为人工智能领域的一项变

发表于 03-09 08:26 •639次阅读

让机器拥有说话能力，智能语音与音频处理SoC

AI，还需要智能语音与音频处理SoC。智能语音与音频处理SoC 所谓智能语音与音频处理

发表于 02-02 00:15 •2802次阅读

【技术科普】主流的深度学习模型有哪些？AI开发工程师必备！

接近于人工智能。它通过学习样本数据的内在规律和表示层次，对文字、图像和声音等数据进行解释。深度学习的目标是让机器像人

发表于 01-30 15:26 •643次阅读

搜索历史

应用深度学习变革传统语音信号处理，让机器拥有类似人耳一样的听觉感知能力

评论

传统机器学习方法和应用指导

【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

【「具身智能机器人系统」阅读体验】+初品的体验

语音识别与自然语言处理的关系

语音识别机器人的工作原理

基于MATLAB的数字滤波器语音信号去噪

音频信号通常包括哪些声音信号

FPGA在人工智能中的应用有哪些？

深度学习的基本原理与核心算法

深度学习与传统机器学习的对比

梯云物联|AI提高物联网感知能力：让电梯更智能、安全！

传统计算机视觉对比深度学习

为什么深度学习的效果更好？

让机器拥有说话能力，智能语音与音频处理SoC

【技术科普】主流的深度学习模型有哪些？AI开发工程师必备！