0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器怎么获取辨音能力?

中科院半导体所 来源:中国科普博览 2020-08-27 16:37 次阅读

不知道你是否有这样的经历,月底穷困潦倒的你中午走进人潮喧哗的食堂,正在心里疯狂比较哪个菜更便宜时,忽然听到五米开外某人的一声“咱们发工资了”,于是你理直气壮地对食堂大妈喊道:“加个鸡腿!”

还有,不管在哪里,周围有多吵,一旦有人叫自己的名字,总是能听到。人能够在如此嘈杂的环境下精确捕捉到想听到的声音,甚至还能知道声音的方位,相比之下,现在的很多智能设备却做不到这一点,这究竟是为什么呢?

Part. 1

人的听觉为什么具有选择性

说起人的听觉,有一个著名的效应——鸡尾酒会效应,它是指在喧闹的鸡尾酒会上,参会者大脑中的听觉系统可以将他的注意力集中约束在他感兴趣的谈话内容上,而自动忽略其他“无关”的噪声,即使周围环境非常嘈杂。

然而,这种我们人类用两只耳朵就能搞定的小问题,对于智能音箱等语音交互设备来说,却并不是那么容易的。当它们身处嘈杂的环境时,很容易就受到各种来路不明的声音的连环暴击,最终陷入我是谁我在哪我在干嘛的死循环中无法自拔(感兴趣的同学可以打开你身边的语音交互设备尝试一下)…

于是,攻(工)城(程)狮(师)们本着大力出奇迹的原则,不惜斥巨资为它们装上很多个金光闪闪的麦克风用来接收声音,又去全世界各地搜罗各种各样的声音数据,没日没夜地投喂它们。但是,机器们学习的效果不是十分理想,鸡尾酒会问题至今仍然困扰着世界各地的语音攻城狮们。

这时有的同学可能就要坐不住了:“就这?还用学?看来我的学霸属性就要藏不住了!”这位同学你先冷静一下,事情可并不是你想的那么简单哟。

其实,你能具有这种听觉选择能力首先要感谢你的妈妈给了你两只忽闪忽闪的大耳朵,这使得你的耳膜并不是像麦克风一样是直接裸露在空气中的。你的耳廓、头部、肩膀、躯干等身体部位对于声音来说像是一个“迷宫”,来自不同方位的声音需要从不同的入口进入,经历上述部位的一系列反射后最终到达“迷宫”的中心——耳膜,然后你的大脑就能感知到这个声音啦。

由于声波所走过的路径不同,它们的频谱也会发生不同程度的修改。在这个“迷宫”的不同位置,仿佛潜伏着一群造型师(没错,就是让你又爱又恨的Tony老师),声波路过时总是难免被“改造”一番。由于这些造型师们风格迥异、水平参差不齐,在大脑看来,这些声波就变得各有特色,所以很容易区分,怎么说呢…有点像…

所以当你还是个小baby的时候,你还没能累积足够多的听音经验,你的大脑对这些改造过的声音可能一时无法辨认,因此导致你对声音的辨别能力可能比较弱。随着你慢慢长大,听到的声音越来越多,你的大脑就会慢慢摸清套路,建立一套自己的算法(数据库),这样即使是好几个声音同时出现在你面前,你也能很轻松地区分他们。

Part. 2

机器怎么获取辨音能力

那么问题来了!能不能让机器像我们人一样,拥有能够分辨不同声音的能力呢?答案是肯定哒!前不久,中科院声学所的杨军研究员团队就提出了一种基于声学超材料的单通道多声源定位与分离系统,只使用一个带有超材料外壳的单通道传声器,即可实现三维空间中多个同时发声声源的实时定位与分离。研究成果发表在了综合类期刊Advanced Science上。

别...别激动…说人话就是——给麦克风做了一个忽闪忽闪的“大耳朵”,不过这个耳朵跟我们的耳朵差别有点大,它长这样…

左图:超材料结构模型图 右图:超材料结构实物图

(图片来源:作者绘制与拍摄)

我们暂且叫他“蜂窝耳”吧。这个“蜂窝耳”由外中内三层半球壳嵌套而成,每一层球壳上都随机设置大小不一的圆孔,球壳之间随机插入了若干块横向和纵向的挡板来制造大小不一的腔体,在球心位置则放着一个单通道的麦克风。这些大小随机的圆孔和隔板使“蜂窝耳”具有高度的空间不对称性,因此会对来自不同方向的声波起到不同的调制效果。

这个“蜂窝耳”中的声学结构就像是一个个风格迥异的Tony老师,声波经过时总是难逃老师们的“改造”,这位老师画个眉毛,那位老师涂个口红,所以等它到麦克风的面前时,早就不是它原本的样子啦。

你可能已经猜到,“蜂窝耳”的学名就是——声学滤波器。刚才所说的声波的“改造”过程其实就是滤波过程,滤波后的声信号频谱会发生相应的改变,因此被麦克风接收到的信号就会产生与来波方向有关的差异性了。

那么问题又来了——你以为声波们长得不一样,机器就能很快辨别出来吗?想得美!

我们还需要训练一个算法,让机器提取这些声波身上的独家特征,最终定位和识别来自不同方向的声音。拥有这个算法就好像拥有了一本Tony老师们的《造型百科全书》,里面记录了各位Tony老师的改造技能和偏爱风格。从某种意义上说,这个算法也可以帮助广大男同胞完美应对女朋友每日的灵魂拷问:“你觉得我今天有什么不一样吗?”是不是很想来一套!

Part. 3

机器戴耳记

一切准备就绪,我们的“蜂窝耳”就可以正式上岗啦!

来自不同方向的声波从外表面不同的位置进入“蜂窝耳”,经过不同的传播路径时被不同的造型师改造,被球心的麦克风接收;熟读《造型百科全书》的算法对接收信号进行处理,最终重建出它们的来波方向和声音的内容。这种超材料结构+智能算法的组合,只用一个麦克风就能实现多声源的实时定位和分离。攻城狮们再也不用担心麦克风数量不够用啦!

“蜂窝耳”的工作流程

(图片来源:作者绘制)

你是不是也很好奇“蜂窝耳”的效果如何呢?来看看研究人员针对多个生活场景进行的听音测试。

实验场景(图片来源:作者拍摄)

“蜂窝耳”(图片红框里)放在中间,周围均匀放置16个音响用于播放测试所用的声音。测试所用到的声音包括马路上的鸣笛声、动物的叫声、各种乐器声、人说话的声音等等,好奇心爆棚的笔者曾一度跑到“蜂窝耳”的位置,试图挑战一下这个听音测试,当时的场景大概是这个样子的…

不过,这对训练有素的“蜂窝耳”来说就是小菜一碟啦。当空间中同时发声的声源不超过三个,定位与分离的准确率可以达到90%以上,耗时也不超过1s,是不是棒棒哒!

当然,现在的“蜂窝耳”还只能算一个小baby,它的声学结构设计和后端算法仍有待进一步的磨合和提升,研究人员也正在马不停蹄地研发“蜂窝耳”2.0版本。随着语音技术的发展,我们身边越来越多的电子设备都搭载了语音交互系统,希望这个“蜂窝耳”能让这些设备更加智能,使人与机器之间的交互更加流畅和便捷。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 滤波器
    +关注

    关注

    160

    文章

    7727

    浏览量

    177674
  • 智能设备
    +关注

    关注

    5

    文章

    1045

    浏览量

    50443
  • 智能音箱
    +关注

    关注

    31

    文章

    1783

    浏览量

    78496

原文标题:嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?

文章出处:【微信号:bdtdsj,微信公众号:中科院半导体所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    适用于机器视觉应用的智能机器视觉控制平台

    工控机在机器视觉系统设计中是不可或缺的核心组件,在机器视觉中发挥着至关重要的作用,其强大的计算能力、高度的稳定性和可靠性、实时性以及图像处理和识别能力,为
    的头像 发表于 11-23 01:08 32次阅读
    适用于<b class='flag-5'>机器</b>视觉应用的智能<b class='flag-5'>机器</b>视觉控制平台

    获取通信事件计数器与获取通信事件记录

    11功能码主要用于获取从设备通信计数器中的状态字和事件计数的值,本功能码不支持广播模式。通过在通信报文之前和之后读取通信事件计数值,可以确定从设备是否正常处理报文。
    的头像 发表于 11-05 15:16 1915次阅读

    机器人技术的发展趋势

    机器人技术的发展趋势呈现出多元化、智能化和广泛应用的特点。 一、智能化与自主化 人工智能(AI)与机器学习 : AI和机器学习在机器人领域的应用日益普及,为
    的头像 发表于 10-25 09:27 476次阅读

    解锁机器人视觉与人工智能的潜力,从“盲人机器”改造成有视觉能力机器人(上)

    的地方,它赋予机器“看”并解释周围环境的能力。通过使用相机作为“眼睛”和高级AI作为“大脑”,机器人视觉为机器人提供了感知环境、智能移动、实时反应和执行复杂任务所
    的头像 发表于 10-12 09:56 328次阅读
    解锁<b class='flag-5'>机器</b>人视觉与人工智能的潜力,从“盲人<b class='flag-5'>机器</b>”改造成有视觉<b class='flag-5'>能力</b>的<b class='flag-5'>机器</b>人(上)

    处理器指令的获取过程

    微处理器指令的获取是计算机执行程序过程中的关键环节,它决定了微处理器如何对数据和指令进行处理。以下将详细阐述微处理器指令的获取过程,包括指令的来源、存储位置、读取方式以及相关的硬件和软件支持。
    的头像 发表于 10-05 15:16 208次阅读

    鸿蒙开发文件管理:【@ohos.environment (目录环境能力)】

    该模块提供环境目录能力获取内存存储根目录、公共文件根目录的JS接口。
    的头像 发表于 06-13 10:27 447次阅读
    鸿蒙开发文件管理:【@ohos.environment (目录环境<b class='flag-5'>能力</b>)】

    请问如何获取CCG5和HMD之间的请求信息(rdo)?

    现在我们可以使用 dpm_update_src_cap()修改源 pdo,CCG5 会向 HMD 发送源能力,我们想知道是否有任何函数可以从 HMD 获取 rdo。
    发表于 05-27 06:57

    OpenAI API Key获取与充值教程:助开发者解锁GPT-4.0 API

    在人工智能的浪潮中,OpenAI 的 GPT-4.0 模型以其卓越的语言理解和生成能力引领了技术的新高潮。为开发者提供了强大的工具来创建更智能、更互动的应用。本文将详细介绍如何获取并充值
    的头像 发表于 04-28 16:35 9986次阅读
    OpenAI API Key<b class='flag-5'>获取</b>与充值教程:助开发者解锁GPT-4.0 API

    HarmonyOS开发:【基于命令行(获取源码)】

    在Ubuntu环境下通过以下步骤获取OpenHarmony源码。
    的头像 发表于 04-25 22:08 370次阅读
    HarmonyOS开发:【基于命令行(<b class='flag-5'>获取</b>源码)】

    工业智能机器人以其卓越的技术和创新能力,正引领着行业的升级与变革

    “技术先锋”富唯智能机器人:推动移动机器人行业升级与变革 在快速发展的移动机器人领域中,富唯智能机器人以其卓越的技术和创新能力,正引领着行
    的头像 发表于 03-04 11:47 546次阅读
    工业智能<b class='flag-5'>机器</b>人以其卓越的技术和创新<b class='flag-5'>能力</b>,正引领着行业的升级与变革

    计算机视觉与图像处理、模式识别、机器学习学科之间的关系

    计算机视觉(computer vision):用计算机来模拟人的视觉机理获取和处理信息的能力。就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图
    的头像 发表于 01-18 16:41 535次阅读

    获取Telegram的用户IP地址

    最近有个需求,查了些资料发现,Telegram有语音通话功能,也可以类似QQ一样通过语音通话的连接获取对方的IP地址, Denis Simonov (原文为俄语)发表过一篇文章,演示了如何通过 Telegram 语音呼叫获取目标人员的IP地址,只需5秒的呼叫时间就能拿到I
    的头像 发表于 01-12 11:35 1593次阅读
    <b class='flag-5'>获取</b>Telegram的用户IP地址

    labview鼠标坐标怎么获取

    获取LabVIEW中鼠标坐标的方法实际上非常简单。在LabVIEW的Block Diagram或Front Panel中,可以使用以下方法来获取鼠标的坐标: 使用鼠标坐标节点 LabVIEW提供了一
    的头像 发表于 01-07 17:24 3753次阅读

    鸿蒙原生应用/元服务开发-Stage模型能力接口(六)

    、 ContextConstant.AreaMode 使用时通过ContextConstant.AreaMode获取。 系统能力 :以下各项对应的系统能力均为
    发表于 12-18 14:40

    获取qlineedit里面的输入值

    在编程中,我们经常需要获取用户在界面上的输入值,其中一个常见的控件是QLineEdit。QLineEdit是Qt框架中的一个文本输入框,允许用户输入文本信息。 要获取QLineEdit中的输入值
    的头像 发表于 11-30 16:13 2304次阅读