如何借鉴人类听觉系统，基于自编码器学习音频嵌入表示-电子发烧友网

编者按：Kanda机器学习工程师Daniel Rothmann讲解了如何借鉴人类听觉系统，基于自编码器学习音频嵌入表示。

图片来源：Jonathan Gross

AI技术的显著突破都是通过建模人类系统达成的。尽管人工神经网络这一数学模型不过是从人类神经元运作的方式中获得了最初的启发，它们在解决复杂而含混的真实世界问题上的应用有目共睹。此外，建模人脑神经网络的架构深度为学习数据更多有意义表示开启了广泛的可能性。

在图像识别和处理领域，借鉴复杂而更具有空间不变性的视觉系统细胞的CNN大大改进了我们的技术。如果你有兴趣在音频频谱上应用图像识别技术，可以看下本系列的第二篇文章。

只要人类的感知能力超过机器，我们就能持续通过理解人类学习的原理而取得进展。人类非常擅长感知任务，特别是机器听觉这一领域，当前AI的表现与人类的差距明显。有鉴于视觉处理依靠借鉴人类系统得到的收获，我认为用于机器听觉的神经网络能够持续基于类似的过程得到改进。

框架概览

在这一系列文章中，我将详细介绍奥胡斯大学和智能扬声器生产商Dynaudio A/S合作开发的实时音频信号处理框架。该框架的灵感主要来自于认知科学——试图结合生物学、神经科学、心理学、哲学以更好地理解我们的认知能力的科学。

认知声音性质

也许声音最抽象的一方面就是人类是如何感知它的。尽管信号处理问题的解答方案需要在低层操作强度、空间、时间性质的参数，但最终的目标常常是认知上的：以特定方式变换信号，调整声音的感知。

例如，如果有人想要通过编程的方式将说话录音的性别修改一下，那么在定义其低层属性之前，有必要先以更有意义的形式描述这一问题。说话人的性别可以被视作一个由多种因素决定的认知性质：嗓音的音高、音色，发音的不同，措辞的不同，以及通常人们如何理解这些性质和性别的关系。

这些参数可以通过强度、空间、时间性质之类的低层特征描述，但通过更复杂的组合它们才形成了高层表示。这形成了音频特性的层次结构，从中可以导出声音的“含义”。表示人类嗓音的认知性质可以看成声音的强度、空间、统计学性质的时域发展的组合模式。

神经网络非常擅长提取数据的抽象表示，因此很适合检测声音的认知性质这一任务。为了构建达成这一目的的系统，让我们首先检视下人类听觉器官是如何表示声音的，供神经网络处理的声音表示可以从中得到借鉴。

耳蜗表示

人类的听觉始于外耳的耳廓。耳廓起到空间预处理的作用，取决于传入声音和听话人的相对方向，耳廓修改了传入的声音。接着，声音从耳廓的开口传入耳道。耳道通过共鸣进一步修改传入声音的空间特性，共鸣将放大1-6kHz中的频率1。

声波到达耳道尽头后刺激附着在鼓膜上的听小骨（人体内最小的骨头）。这些听小骨将耳道的压力传输到内耳中充满液体的耳蜗1。神经网络的声音表示对借鉴耳蜗很有兴趣，因为耳蜗正是人类负责将听觉振动转换为神经活动的器官。

耳蜗是由赖斯纳氏膜和基底膜分隔的盘管。耳蜗中有大约3500个内毛细胞1。随着压力传入耳蜗，耳蜗中的两道膜被下压。基底膜底部窄而硬，顶部宽而松，这样，特定频率上的回应自顶部至底部递增。

简单地说，基底膜可以被看成一组连续的带通滤波器，沿着基底膜区分出声音的频谱成分。

这就是人类转换声音压力至神经活动的主要机制。因此，我们有理由假设声音的空间表示对使用AI建模声音感知会有帮助。由于基底膜的频率响应呈指数变化2，对数频率表示可能是最高效的。我们可以使用gammatone滤波器组得到这样的表示。这些滤波器常用于建模听觉系统的空间过滤，因为它们近似revor函数。通过测量听觉神经纤维对白噪声刺激的响应，我们可以导出人类听觉过滤器的冲动响应函数，该函数被称为revor函数3。

由于耳蜗具备大约3500个内毛细胞，而人类能够检测到约2-5毫秒的声音空隙1，空间解析度为3500的gammatone滤波器组搭配2毫秒的窗口看上去是在机器上达到类似人类的空间表示的最佳参数。然而，在实际场合，我觉得可以假定更低的解析度仍能在大多数分析和处理任务中取得所需效果，而且从算力的角度来说这样更可行。

网上有一些用于听觉分析的软件库。值得注意的一个例子是Jason Heeris的Gammatone Filterbank Toolkit。它提供了可供调整的滤波器，以及使用gammatone滤波器对音频信号进行频谱类分析的工具。

神经编码

在神经活动从耳蜗到听觉神经，沿着听觉通路传递的过程中，在达到听觉皮层之前，脑干核团对其进行了一系列处理。

这些处理形成了表示刺激和感知之间的接口的神经编码4。关于这些核团的特定内部工作机制的很多知识都是基于推测的，或者未知的，所以我将仅仅介绍核团的高层功能。

单耳听觉通路的简化示意图

人类每只耳朵都有一组核团，这些核团相互连接。不过，出于简单性，上图只画了单耳的流程。耳蜗核是来自听觉神经的神经信号的第一个编码步骤。它包含性质不同的各种神经元，对声音的特征进行初步处理，其中部分传向负责定位声音的上橄榄体，剩余部分传向和更高级特征相关的外侧丘系和下丘1。

J. J. Eggermont在“Between sound and perception: reviewing the search for a neural code”（声音和感知之间：神经编码研究回顾）一文中详细描述了耳蜗核中的信息流：“腹侧耳蜗核（VCN）提取并增强在听觉神经纤维的激活模式中多路传播的频率和时间信息，并将结果分配到两个通路：声音定位通路和声音识别通路。VCN的前部（AVCN）主要负责声音定位，它的两种多毛细胞为上橄榄复合体（SOC）提供输入，SOC在每个频率上分别映射双耳时间差（ITD）和强度差（ILD）。”4

声音识别通路传输的信息可以表示元音之类复杂的频谱。这一表示主要由腹侧耳蜗核中特殊类型的单元（梳齿型神经元）创建4。这些听觉编码的细节难以明确，但它们启发我们传入频率频谱的“编码”形式可能改善对低层声音特征的理解，也让神经网络处理声象不那么昂贵。

频谱声音编码

我们可以应用无监督自编码器神经网络架构来学习复杂频谱的常见性质。类似词嵌入，我们有可能找到频率频谱中的共性，这些共性表示声音的选定特征（或者高度压缩的含义）。

训练自编码器编码输入为压缩表示，该表示可以重建和输入高度相似的表示。这意味着自编码器的目标输出是输入自身5。如果输入可以在损失不大的情况下重建，那就说明网络学习到了所需编码方式，这一方式编码的内部压缩表示中包含足够多的有意义信息。我们将这一内部表示称为嵌入。自编码器的编码部分可以和解码器解耦，为其他应用生成嵌入。

嵌入还有一个优势，嵌入常常比原始数据的维度要低。例如，自编码器可以将共有3500个值的频率频谱压缩为长度为500的向量。简单来说，这样的向量的每个值可以描述频谱的高层特征，例如元音、刺耳、谐波——这些只是举例，因为自编码器推导出的统计学共同因素的含义常常难以用简单的语言标记。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100720
视觉系统

视觉系统

+关注

关注
3

文章
334

浏览量
30698
ai技术

ai技术

+关注

关注
1

文章
1268

浏览量
24291

原文标题：机器听觉：三、基于自编码器学习声音嵌入表示

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

基于变分自编码器的异常小区检测

；另一个是正则化损失（regularization loss），它有助于学习具有良好结构的潜在空间，并可以降低在训练数据上的过拟合。　　2.3基于变分自编码器的异常小区检测　　基于变分自编码器的异常小区

发表于 12-03 15:06

是什么让变分自编码器成为如此成功的多媒体生成工具呢？

标准自编码器能学习生成紧凑的数据表达并重建输入数据，然而除了像去噪自编码器等为数不多的应用外，它的应用却极其有限。其根本原因在于自编码器将输入转换为隐含空间中的表达并不是连续的，使得其

发表于 04-19 16:48 •1.3w次阅读

是什么让变分<b class='flag-5'>自编码器</b>成为如此成功的多媒体生成工具呢？

自编码器介绍

自编码器若仅要求X≈Y，且对隐藏神经元进行稀疏约束，从而使大部分节点值为0或接近0的无效值，便得到稀疏自动编码算法。一般情况下，隐含层的神经元数应少于输入X的个数，因为此时才能保证这个网络结构的价值。

发表于 06-11 15:07 •4928次阅读

稀疏自编码器及TensorFlow实现详解

　稀疏自编码器（又称稀疏自动编码机）中，重构误差中添加了一个稀疏惩罚，用来限定任何时刻的隐藏层中并不是所有单元都被激活。如果 m 是输入模式的总数，那么可以定义一个参数 ρ_hat，用来表示每个隐藏层单元的行为（平均激活多少次）

发表于 06-11 16:45 •3851次阅读

稀疏<b class='flag-5'>自编码器</b>及TensorFlow实现详解

基于稀疏自编码器的属性网络嵌入算法SAANE

在多数属性网络嵌入算法中，拓扑结构的设计只考虑节点间直接链接，而未考虑节点间间接链接及不同节点的共同链接比，导致不能充分提取网络真实拓扑特征。针对该问题，提出一种基于稀疏自编码器的属性网络嵌入算法

发表于 03-27 10:26 •7次下载

基于稀疏<b class='flag-5'>自编码器</b>的属性网络<b class='flag-5'>嵌入</b>算法SAANE

自编码器基础理论与实现方法、应用综述

自编码器是深度学习中的一种非常重要的无监督学习方法，能够从大量无标签的数据中自动学习，得到蕴含在数据中的有效特征。因此，自编码方法近年来受到

发表于 03-31 11:24 •9次下载

<b class='flag-5'>自编码器</b>基础理论与实现方法、应用综述

一种多通道自编码器深度学习的入侵检测方法

的自编码器，其重构的两个新特征向量与原始样本共同组成多通道特征向量表示;然后利用一维卷积神经网络（CNN）对多通道特征向量表示进行处理，学习通道之间可能的依赖关系，用于更好地区分正常流

发表于 04-07 15:23 •7次下载

一种多通道<b class='flag-5'>自编码器</b>深度<b class='flag-5'>学习</b>的入侵检测方法

基于变分自编码器的网络表示学习方法

，将这些信息融入到网络表示学习过程中，有助于提升下游任务的性能。但是针对不同的应用场景，结构和属性信息并不总是线性相关，而且它们都是高度非线性的数据。提岀一种基于变分自编码器的网络表示

发表于 05-12 14:50 •27次下载

基于自编码特征的语音声学综合特征提取

信噪比衡量）很低。在不影响可懂度的情况下，为了提高语音増强后语音质量，提出了一种基于自编码特征的综合特征。首先利用自编码器提取自编码特征，然后利用 Group Lasso算法验证自编码

发表于 05-19 16:33 •27次下载

结合深度学习的自编码器端到端物理层优化方案

5G规模化商用可提供髙速低延时的通信服务，但由于逐块设计的通信模型可解释性程度较低，增加了其物理层优化的复杂度。针对该问题，利用深度学习在结构化信息表示和数据提取上的优势，在其基础上提出一种自编码器

发表于 05-24 15:18 •7次下载

自编码器神经网络应用及实验综述

发表于 06-07 16:38 •7次下载

堆叠降噪自动编码器（SDAE）

自动编码器（Auto-Encoder，AE） 自编码器（autoencoder）是神经网络的一种，经过训练后能尝试将输入复制到输出。自编码器内部有一个隐藏层 h，可以产生编码（code

发表于 01-11 17:04 •6544次阅读

自编码器 AE（AutoEncoder）程序

原文链接 1.程序讲解（1）香草编码器 在这种自编码器的最简单结构中，只有三个网络层，即只有一个隐藏层的神经网络。它的输入和输出是相同的，可通过使用Adam优化器和均方误差损失函数，来学习

发表于 01-11 17:29 •1351次阅读

编码器音频功能

数字视频监控系统需要音频功能，音频功能包括音频输入和输出功能，输入功能是对前端的音频输入进行与视频同步的录音，输出功能指控制中心可以对前端现

发表于 08-25 11:11 •757次阅读

自编码器的原理和类型

自编码器（Autoencoder, AE）是一种无监督学习的神经网络模型，它通过编码器和解码器的组合，实现了对输入数据的压缩和重构。自编码器

发表于 07-09 11:25 •1160次阅读

搜索历史

如何借鉴人类听觉系统，基于自编码器学习音频嵌入表示

评论