如何使用音频来估计与讲话用户之间的距离，并识别周围的声音-电子发烧友网

最新研究表明，苹果公司正在研究HomePod或其他设备如何使用音频来估计与讲话用户之间的距离，并识别周围的声音。

Apple的HomePod已经非常擅长于听到您的声音，即使它正在大声播放音乐。苹果公司有两项单独的新专利申请表明，苹果公司希望将其改进，并将设备的聆听能力提高到一个新水平。

其中之一，“基于学习的距离估计”，不仅涉及使用音频来识别用户，而且要弄清楚他们在哪里。

专利申请说：“通常希望设备使用［其］紧凑型麦克风阵列来估算从设备到用户的距离。” “例如，该设备可以基于用户到该设备的估计距离来调整播放音量或来自智能辅助设备的响应。”

继续说：“因此，如果用户离设备非常近，则不会大量播放音乐或语音。” 或者，如果用户离得很远，则可以将媒体播放或来自智能助手设备的响应调整为更大的音量。”

同样的想法也意味着将其引入苹果公司目前令人印象深刻但有些瑕疵的系统，在该系统中，所有设备都会尝试确定您对“嘿，Siri”说的是什么。

苹果公司说：“在有多个设备的应用程序中，这些设备可以在彼此之间进行协调或仲裁，以根据从每个设备到用户的距离来决定应回答一个或多个设备的查询。”

苹果公司提出了简单和更复杂的解决方案，它们都可以同时使用。更简单的方法是让设备先执行HomePod的工作并首先绘制其环境图。

然后，它实际上具有“在声学环境中的测量点或模拟点的网格”。在这种情况下，可以将声音与此“网格”进行比较，以大致了解说话者所在的位置。

但是，Apple认为这本身并不足够好，并且还说它与Siri最少一起使用。那是因为一个人说话时可能会动弹，而且他们要求快速回应-此提议不适合。

备选地，然后，“如果至少两个麦克风阵列可用”，则“可以使用三角测量方法来估计语音源的距离”。

但是，这里的关键部分是至少需要两个带麦克风的设备。因此，Apple提供了另一个涉及更多的解决方案，其中涉及“基于学习的系统，如深度神经网络（DNN）”，并且不需要多个设备。

专利申请说：“深度学习系统可以根据紧凑型麦克风阵列接收到的语音信号来估计每个时间帧的语音源距离。”

这个DNN系统可以做的是确定什么是语音，什么是背景噪声。然后，它可以计算“有关直接信号传播的信息”以及“混响效果和噪声”。

该申请归功于三位发明者，包括Mehrez Souden和Joshua D. Atkins。他们先前的相关工作包括已获专利的如何使用比普通麦克风少的声音来录制完整空间声音的专利。

这特别涉及Apple AR中的音频，该最新专利申请涉及真实环境中的物理设备。但是，如果只是为了避免用太大声的HomePod mini炸毁别人的耳朵而感到很麻烦，那还有很多事情要做。

该专利申请说：“例如，助听器之类的辅助和增强型助听器可以根据语音源的距离来增强音频信号。”

这也是第二个新公开的专利申请重点关注的内容。

识别重要的声音

“基于观察到的声音识别声源的系统和方法”，是关于让一些设备识别其他声音并为我们做出反应。

“许多家用电器，例如微波炉，洗衣机，洗碗机和门铃，会发出声音来提醒用户该器具的状况已经改变，”该专利申请开始。

它继续说：“但是，由于各种原因，用户可能无法听到家用电器发出的声音警报。” “例如，用户可能有听力障碍，用户可能在外面或在另一个房间里，或者设备可能发出被家庭声学场景遮挡的声音。”

也不必是您的煮蛋计时器关闭。该专利同样涉及“公共场所（政府大楼），半公共场所（办公室大厅）和私人场所（住宅或办公大楼）”中的声音。

它说：“（这些）也有声学场景，可以包含带有信息的声音。” “例如，铃，铃或蜂鸣器可能指示门已经打开或关闭，或者警报器可能发出警报声或其他声音，警告附近的人有危险（例如，烟，火或一氧化碳）。”

总体而言，该专利申请主要详述了可以“训练”设备以识别“常见声音”的方法。然后，它将继续侦听其中的任何一个，并且当听到一个声音时，可以发出“响应于确定声音存在于声学场景中的选定输出”。

换句话说，如果是您的煮蛋计时器关闭，则该设备可能会使您的Apple Watch在手腕上轻按。或者，如果是防盗警报，则该设备可以通知当局。

苹果公司表示：“声音中包含大量的上下文信息。” “识别常见的声音可以使电子设备响应于观察到的环境（例如，根据观察到的声音确定）来适应其行为或提供服务，从而增加它们对用户的相关性和价值，同时需要更少的用户帮助或输入。”

第二项专利申请归功于包括丹尼尔·克林格（Daniel C. Klinger）在内的四位发明家。他先前的工作包括一项专利申请，该专利用于通过HomePod或其他设备进行安全的电话呼叫。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

音频

音频

+关注

关注
29

文章
2882

浏览量
81623
苹果公司

苹果公司

+关注

关注
2

文章
447

浏览量
22598
深度学习

深度学习

+关注

关注
73

文章
5504

浏览量
121234

TIKOOL太酷信息无线内部通话系统允许多个人一起讲话，频道内会不会很吵？

传统的对讲机声音采样率普遍是4K，音质差，往往音量大但稍有干扰就听不清内容；TIKOOL太酷无线内部通话系统音频采样率可达16K，音质数倍的提升，具备极高的声音还原度，如同面对面聊天，多人讲话

发表于 12-18 09:07

音频功放芯片：音频设备的核心驱动力

音频功放芯片是音频设备核心，放大音频信号并精准控制音质、音量。高保真、稳定、易集成，但面临散热和成本问题。尽管如此，它仍是呈现高品质声音不可

发表于 12-17 16:37 •237次阅读

TLV320aic3104怎么设置使耳机能听到人讲话的声音？

我公司有项目正在使用TLV320AIC3104 这颗TI codec IC，已拿到这颗IC的开发套件,但是现在用TLV320aic3104评估板有些问题请教。从电脑里面输出声音，耳机能正常收听。但是还不知道怎么设置使耳机能听到人讲话的

发表于 11-07 06:44

8127+tlv320aic3104设置立体声采集到音频播放是快进音频的声音，怎么解决？

8127+tlv320aic3104设置单通道采集到的音频播放正常流畅的声音，设置立体声采集到音频播放出来是快进音频的声音就是

发表于 11-05 06:31

用PCM1804做音频转换，输出声音很难听是什么原因导致的?

。目前还不确定问题在哪里，就TTS和PCM之间来检测，有几个可能，TTS输出到PCM的信号需要调制到2.5V的中心电压（已测试，无效果）；TTS输出到PCM的声音信号峰值需放到2.5V。PCM

发表于 10-28 08:01

FSA8049连接耳麦L/R输出声音正常，耳麦话筒讲话声音没有从FSA8049_B1脚输出来是为什么？

请工程帮忙确认一下图中FSA8049连接是否正确，现在遇到的问题是连接耳麦L/R输出声音正常，耳麦话筒讲话声音没有从FSA8049_B1脚输出来，测量B1脚MIC_BIAS电压2.5v正常，B3脚连接耳麦正极就没有电压。

发表于 10-25 11:07

音频信号通常包括哪些声音信号

音频信号是指通过声音传输的信号，它包含了各种不同的声音信号。以下是对音频信号中常见的声音信号的介绍：语音信号语音信号是人类通过声带振动产

发表于 08-25 15:43 •1368次阅读

用opa1671做麦克风前置放大器做音频ADC采样时，距离远声音太小怎么解决？

在用opa1671做麦克风前置放大器做音频ADC采样时，距离远声音太小，距离近声音太大，有没有推荐的自动AGC电路（参考电路），（由于功耗

发表于 08-08 08:23

TEA2025立体声音频功率放大器原理是什么

在音频设备设计中，功率放大器是实现高质量音频输出的关键组件。TEA2025立体声音频功率放大器以其杰出的性能和稳定性，成为音频工程师的理想选择。本文将详细介绍TEA2025立体

发表于 06-11 17:23 •759次阅读

基于深度学习的鸟类声音识别系统

模型被用于对鸟类声音数据进行高精度的分类。然而，现有的大多数鸟类声音识别模型的泛化能力较差，并且采用复杂的算法来提取鸟类声音特征。为了解决这

发表于 05-30 20:30

谷歌增强安卓无障碍体验：用AI描述周围环境等

　据悉，Lookout是谷歌专为盲人与低视力Android用户设计的应用，旨在协助他们识别周边环境并阅读文档。此次升级后，Lookout新增了一种查找模式，可识别包括座椅、桌子等在内的

发表于 05-17 10:18 •418次阅读

【RTC程序设计：实时音视频权威指南】音频采集与渲染

在进行视频的采集与渲染的同时，我们还需要对音频进行实时的采集和渲染。对于rtc来说，音频的实时性和流畅性更加重要。声音是由于物体在空气中振动而产生的压力波，声波的存在依赖于空气介质，那么声音

发表于 04-28 21:00

苹果获家庭声音定位和识别专利，HomePod可监听婴儿哭闹并向用户发

据美国商标与专利管理局最近公布信息，苹果成功取得一项关于音频的专利，透过监测室内响动，为用户提供另一间房内事件详情。该专利名为《家庭声音定位及辨识》

发表于 02-28 11:41 •818次阅读

如何将HC-SR04连接到Arduino并编写一个简单的程序来测量距离

一种流行的Arduino超声波传感器是HC-SR04。它广泛用于非接触式距离测量，通常用于机器人和自动化项目。本指南将向您展示如何将HC-SR04连接到Arduino并编写一个简单的程序来测量

发表于 02-11 10:17 •2392次阅读

立体声音频放大器电路图分享

立体声音频放大器是一种专门设计用于处理立体声音频信号的放大器。它通常具有两个独立的放大通道，分别用于处理左声道和右声道的音频信号。立体声音频放大器的主要目的是增强

发表于 02-06 14:45 •2710次阅读

搜索历史

如何使用音频来估计与讲话用户之间的距离，并识别周围的声音

评论

TIKOOL太酷信息无线内部通话系统允许多个人一起讲话，频道内会不会很吵？

音频功放芯片：音频设备的核心驱动力

TLV320aic3104怎么设置使耳机能听到人讲话的声音？

8127+tlv320aic3104设置立体声采集到音频播放是快进音频的声音，怎么解决？

用PCM1804做音频转换，输出声音很难听是什么原因导致的?

FSA8049连接耳麦L/R输出声音正常，耳麦话筒讲话声音没有从FSA8049_B1脚输出来是为什么？

音频信号通常包括哪些声音信号

用opa1671做麦克风前置放大器做音频ADC采样时，距离远声音太小怎么解决？

TEA2025立体声音频功率放大器原理是什么

基于深度学习的鸟类声音识别系统

谷歌增强安卓无障碍体验：用AI描述周围环境等

【RTC程序设计：实时音视频权威指南】音频采集与渲染

苹果获家庭声音定位和识别专利，HomePod可监听婴儿哭闹并向用户发

如何将HC-SR04连接到Arduino并编写一个简单的程序来测量距离

立体声音频放大器电路图分享