在语音处理中，通过使用大数据可以轻松解决很多任务-电子发烧友网

在语音处理中，通过使用大量数据可以轻松解决很多任务。例如，将语音转换为文本的自动语音识别 (Automatic Speech Recognition，ASR)。相比之下，“非语义”任务侧重于语音中含义以外的其他方面，如“副语言(Paralinguistic)”任务中包含了语音情感识别等其他类型的任务，例如发言者识别、语言识别和某些基于语音的医疗诊断。完成这些任务的训练系统通常利用尽可能大的数据集来确保良好结果。然而，直接依赖海量数据集的机器学习技术在小数据集上进行训练时往往不太成功。

为了缩小大数据集和小数据集之间的性能差距，可以在大数据集上训练表征模型 (Representation Model)，然后将其转移到小数据集的环境中。表征模型能够通过两种方式提高性能：将高维数据（如图像和音频）转换到较低维度进而训练小模型，而且表征模型还可以用作预训练。此外，如果表征模型小到可以在设备端运行或训练，就能让原始数据始终保留在设备中，在为用户提供个性化模型好处的同时，以保护隐私的方式提高性能。虽然表征学习已普遍用于文本领域（如 BERT和 ALBERT）和图像领域（如 Inception 层和 SimCLR），但这种方法在语音领域尚未得到充分利用。

下：使用大型语音数据集训练模型，然后将其推广到其他环境；左上：设备端个性化 - 个性化的设备端模型将安全和隐私相结合；中上：嵌入向量的小模型 - 通用表征将高维度、少示例的数据集转换到低维度，同时不降低准确率；较小的模型训练速度更快，并且经过正则化。右上：全模型微调 - 大数据集可以使用嵌入向量模型作为预训练以提高性能

如果没有一个衡量“语音表征有用性”的标准基准，就很难显著地改进通用表征，尤其是对于非语义语音任务。尽管 T5框架系统地评估了文本嵌入向量，并且视觉领域任务自适应基准 (VTAB) 对图像嵌入向量评估进行了标准化，两者均促进了相应领域表征学习的进展，但对于非语义语音嵌入向量却没有类似基准。

在“Towards Learning a Universal Non-Semantic Representation of Speech”中，我们对语音相关应用的表征学习做出了三项努力：

提出一个比较语音表征的非语义语音 (NOn-Semantic Speech，NOSS) 基准，其中包括多样化的数据集和基准任务，例如语音情感识别、语言识别和发言者识别。这些数据集可在TensorFlow Datasets 的“音频”部分中找到。

创建并开源了 TRIpLet Loss 网络 (TRILL)，此全新模型小到可以在设备端执行和微调，同时仍然优于其他表征模型。

进行了大规模研究来比较不同的表征，并开源了用于计算新表征性能的代码。

Towards Learning a Universal Non-Semantic Representation of Speech
https://arxiv.org/abs/2002.12764

这些数据集
https://tensorflow.google.cn/datasets/catalog/overview#audio

TensorFlow Datasets
https://tensorflow.google.cn/datasets/

TRIpLet Loss 网络
https://aihub.cloud.google.com/s?q=nonsemantic-speech-benchmark

开源
https://github.com/google-research/google-research/tree/master/non_semantic_speech_benchmark

语音嵌入向量的新基准

为了能够有效指导模型开发，基准必须包含具有类似解决方案的任务，并排除存在显著差异的任务。既往工作或为独立处理各种潜在语音任务，或为将语义任务和非语义任务归纳在一起。我们的工作在一定程度上通过关注在语音任务子集上表现良好的神经网络架构，提高了非语义语音任务的性能。

NOSS 基准的任务选择依据：

多样性 - 需要覆盖一系列使用案例；

复杂性 - 应该具有挑战性；

可用性，特别强调开源任务。

我们结合了具有不同规模和任务的六个数据集。

下游基准任务的数据集

*我们的研究使用根据内部政策筛选的数据集子集计算 VoxCeleb 结果

我们还引入了三个额外的演讲者内部任务，并测试个性化场景下的性能。在具有 k 个演讲者的某些数据集中，我们可以创建 k 个不同的任务，只针对单一演讲者进行训练和测试。整体性能是各演讲者的平均值。三个额外的演讲者内部任务衡量了嵌入向量适应特定演讲者的能力，这是个性化设备端模型的必要能力。随着 ML 向智能手机和物联网延伸，这些模型变得越来越重要。

为了帮助研究人员比较语音嵌入向量，我们已经将基准中的六个数据集添加到 TensorFlow Datasets 中（在“音频”部分），并开源了评估框架。

将基准中的六个数据集添加到 TensorFlow Datasets 中
https://tensorflow.google.cn/datasets/catalog/overview#audio

开源了评估框架
https://github.com/google-research/google-research/tree/master/non_semantic_speech_benchmark

TRILL：非语义语音分类的新技术

在语音领域中，从一个数据集学习嵌入向量并将其应用到其他任务不如其他模式中那样普遍。然而，使用一项任务的数据帮助另一项任务（不一定是嵌入向量）的迁移学习，作为一种更为通用的技术，具有一些引人注目的应用，例如个性化语音识别器和少量样本的语音模仿：文本到语音的转换。过去已经有多种语音表征，但其中大多是在较小规模和较低多样性的数据上进行训练，或主要在语音识别上进行测试，或两者皆有。

我们基于约 2500 小时语音的大型多样化数据集 AudioSet 为起点，创建跨环境和任务的实用数据衍生语音表征。我们通过先前的度量学习工作得出简单的自监督标准，在此标准上训练嵌入向量模型 - 来自相同音频的嵌入向量在嵌入向量空间中应该比来自不同音频的嵌入向量更为接近。与 BERT 和其他文本嵌入向量类似，自监督损失函数不需要标签，只依赖于数据本身的结构。这种自监督形式最适合非语义语音，因为非语义现象在时间上比 ASR 和其他亚秒级语音特征更稳定。这种简单的自监督标准捕获了下游任务所用的大量声学特性。

AudioSet
https://research.google.com/audioset/

TRILL 损失：来自相同音频的嵌入向量在嵌入空间中比来自不同音频的嵌入向量更为接近

TRILL 架构基于 MobileNet，其速度适合在移动设备上运行。为了在这种小架构上实现高准确率，我们在不降低性能的同时从更大的 ResNet50 模型中提取出嵌入向量。

基准结果

我们首先比较了 TRILL 与其他深度学习表征的性能。这些表征并不局限于语音识别，并在类似的不同数据集上进行训练。此外，我们还将 TRILL 与热门的 OpenSMILE 特征提取器进行比较。OpenSMILE 使用预深度学习技术（如：傅里叶变换系数、使用基音测量的时间序列的“基音跟踪”等）以及随机初始化网络，这些技术已被证明是强大的基线。

为了对不同性能特征的任务进行性能汇总，我们首先针对给定的任务和嵌入向量训练少量的简单模型，选择最佳结果。然后，为了了解特定嵌入向量对所有任务的影响，我们以模型和任务为解释变量，对观察到的精度进行了线性回归计算。模型对准确率的影响即为回归模型中的相关系数。对于给定任务，从一种模型切换到另一种模型时，产生的准确率变化的差异预计为下图中 y 值。

对模型准确率的影响

在我们的研究中，TRILL 性能优于其他表征。TRILL 的成功在于训练数据集的多样性、网络的上下文大窗口以及 TRILL 训练损失的通用性，最后一项因素保留了大量声学特征，而不是过早地关注特定方面。需要注意的是，来自网络层的中间表征往往更具有通用性。中间表征更大，时间粒度更细，在分类网络的情况下，它们保留了更通用的信息，而不像训练它们的类那样具体。

通用模型的另一个优势是可以在新任务上初始化模型。当新任务的样本量较小时，相较于从头训练模型，对现有模型进行微调可能会获得更好的结果。尽管没有针对特定数据集进行超参数调整，但使用此技术，我们仍然在六个基准任务的三个任务上取得了新的 SOTA 结果。

为了更新的表征，我们还在Interspeech 2020 Computational Paralinguistics Challenge (ComParE) 的口罩赛道中进行了测试。在挑战中，模型必须预测发言者是否佩戴口罩，因为口罩会影响语音。口罩的影响有时微乎其微，并且音频片段只有一秒。TRILL 线性模型表现比基线模型更好的性能，该模型融合了许多不同模型的特征，如传统的光谱和深度学习特征。

Interspeech 2020 Computational Paralinguistics Challenge (ComParE)
http://www.compare.openaudio.eu/compare2020/

基线模型
http://compare.openaudio.eu/wp-content/uploads/2020/05/INTERSPEECH_2020_ComParE.pdf

总结

评估 NOSS 的代码位于 GitHub，数据集位于 TensorFlow Datasets，TRILL 模型位于 AI Hub。

GitHub
https://github.com/google-research/google-research/tree/master/non_semantic_speech_benchmark

TensorFlow Datasets
https://tensorflow.google.cn/datasets/catalog/overview#audio

AI Hub
https://aihub.cloud.google.com/s?q=nonsemantic-speech-benchmark

非语义语音基准可帮助研究人员创建语音嵌入向量，适用于包括个性化和小数据集问题的各种环境。我们将 TRILL 模型提供给研究界，作为等待超越的基线嵌入向量。

致谢

这项工作的核心团队包括 Joel Shor、Aren Jansen、Ronnie Maor、Oran Lang、Omry Tuval、Felix de Chaumont Quitry、Marco Tagliasacchi、Ira Shavitt、Dotan Emanuel 和 Yinnon Haviv。我们还要感谢 Avinatan Hassidim 和 Yossi Matias 的技术指导。

原文标题：通过自监督学习对语音表征与个性化模型进行改善

文章出处：【微信公众号：TensorFlow】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

大数据

大数据

+关注

关注
64

文章
8889

浏览量
137439
语言识别

语言识别

+关注

关注
0

文章
15

浏览量
4826

原文标题：通过自监督学习对语音表征与个性化模型进行改善

文章出处：【微信号：tensorflowers，微信公众号：Tensorflowers】欢迎添加关注！文章转载请注明出处。

缓存对大数据处理的影响分析

缓存对大数据处理的影响显著且重要，主要体现在以下几个方面：一、提高数据访问速度在大数据环境中，数据

发表于 12-18 09:45 •130次阅读

cmp在数据处理中的应用如何优化cmp性能

，然后在多个处理器上并行处理，显著提高了数据处理的速度和吞吐量。 1. CMP在大数据处理

发表于 12-17 09:27 •246次阅读

raid 在大数据分析中的应用

的具体应用：一、提高性能并行读写：RAID技术通过并行读写多个磁盘，可以显著提高数据的读写速度。在大数据分析环境

发表于 11-12 09:44 •249次阅读

RK3588 技术分享 | 在Android系统中使用NPU实现Yolov5分类检测

随着人工智能和大数据时代的到来，传统嵌入式处理器中的CPU和GPU逐渐无法满足日益增长的深度学习需求。为了应对这一挑战，在一些高端处理器

发表于 10-24 10:13

云计算在大数据分析中的应用

云计算在大数据分析中的应用广泛且深入，它为用户提供了存储、计算、分析和预测的强大能力。以下是对云计算在大数据分析中应用的介绍：一、存储和处理

发表于 10-24 09:18 •454次阅读

RK3588 技术分享 | 在Android系统中使用NPU实现Yolov5分类检测

随着人工智能和大数据时代的到来，传统嵌入式处理器中的CPU和GPU逐渐无法满足日益增长的深度学习需求。为了应对这一挑战，在一些高端处理器

发表于 08-20 11:13

FPGA在人工智能中的应用有哪些？

和安全的云计算和网络服务。三、具体应用场景图像分类：在图像分类任务中，FPGA可以承担前置处理、图像卷积、全连接等

发表于 07-29 17:05

车内语音识别数据在智能驾驶中的价值与应用

和个性化提供了有力支持。本文将详细介绍车内语音识别数据在智能驾驶中的价值、应用以及面临的挑战和未来的发展趋势。二、车内语音识别

发表于 02-19 11:47 •594次阅读

语音数据集在智能驾驶中的价值与应用

、应用场景以及挑战。二、语音数据集在智能驾驶中的价值提升驾驶安全性：通过语音指令，驾驶员

发表于 01-31 17:08 •430次阅读

语音数据集在智能驾驶中的关键作用与应用

中的关键作用、应用、挑战以及未来的发展趋势。二、语音数据集在智能驾驶中的关键作用训练与优化：高质量的

发表于 01-31 16:22 •471次阅读

语音数据集：智能驾驶中车内语音识别技术的基石

的发展趋势。二、语音数据集在智能驾驶中的应用训练与优化：高质量的语音数据集是训练和优化

发表于 01-31 16:07 •553次阅读

大数据技术是干嘛的 大数据核心技术有哪些

的核心技术，包括数据采集、存储与管理、处理与分析等方面。一、大数据技术背景和概念 1.1 背景随着互联网技术的迅猛发展，人们可以通过各种

发表于 01-31 11:07 •3465次阅读

车内语音识别数据在智能驾驶中的应用与挑战

详细介绍车内语音识别数据在智能驾驶中的应用、面临的挑战以及未来的发展趋势。二、车内语音识别数据

发表于 01-26 18:14 •1119次阅读

语音数据集在智能语音助手中的应用与挑战

。本文将详细介绍语音数据集在智能语音助手中的应用、面临的挑战以及未来的发展趋势。二、语音数据集

发表于 01-18 15:46 •393次阅读

语音数据集在智能语音搜索中的应用与挑战

一、引言随着互联网的普及和移动设备的兴起，智能语音搜索已经成为人们获取信息的重要方式之一。智能语音搜索通过语音交互的方式，为用户提供更加便捷、高效的信息查询服务。

发表于 01-18 15:09 •555次阅读

搜索历史

在语音处理中，通过使用大数据可以轻松解决很多任务

评论

缓存对大数据处理的影响分析

cmp在数据处理中的应用如何优化cmp性能

raid 在大数据分析中的应用

RK3588 技术分享 | 在Android系统中使用NPU实现Yolov5分类检测

云计算在大数据分析中的应用

RK3588 技术分享 | 在Android系统中使用NPU实现Yolov5分类检测

FPGA在人工智能中的应用有哪些？

车内语音识别数据在智能驾驶中的价值与应用

语音数据集在智能驾驶中的价值与应用

语音数据集在智能驾驶中的关键作用与应用

语音数据集：智能驾驶中车内语音识别技术的基石

大数据技术是干嘛的大数据核心技术有哪些

车内语音识别数据在智能驾驶中的应用与挑战

语音数据集在智能语音助手中的应用与挑战

语音数据集在智能语音搜索中的应用与挑战