计算模型通过预测对语音进行解码-电子发烧友网

大脑通过识别音节来分析口语。日内瓦大学（UNIGE）和不断发展的语言国家能力研究中心（NCCR）的科学家设计了一种计算模型，该模型再现了中枢神经系统执行此操作所采用的复杂机制。该模型汇集了两个独立的理论框架，使用等效于大脑活动产生的神经元振动来处理关联语音的连续声音流。

该模型根据称为预测编码的理论起作用，从而大脑通过不断尝试基于候选假设（此模型中的音节）来预测感觉信号来优化感知。结果模型在《自然通讯》杂志上进行了描述，该模型有助于实时识别以自然语言说出的数百个句子中包含的数千个音节。这证实了神经元振动可以用来协调我们听到的音节流与大脑预测的想法。

UNIGE医学院基础神经科学系教授，不断发展的语言NCCR联合主任Anne-Lise Giraud说：“脑部活动会产生可通过脑电图测量的神经元振荡。”这些是电磁波，是由整个神经元网络的相干电活动产生的。有几种类型，根据它们的频率定义。它们被称为α，β，θ，δ或γ波。这些节奏单独或叠加在一起，与不同的认知功能相关，例如感知，记忆，注意力，机敏性等。

但是，神经科学家尚不知道他们是否对这些功能做出积极贡献以及如何发挥作用。在2015年发表的一项较早研究中，Giraud教授的团队表明，theta波（低频）和gamma波（高频）相互配合，对音节中的音流进行排序，并分析其内容，以便对其进行识别。

总部位于日内瓦的科学家根据这些生理节律开发了一种突跳的神经网络计算机模型，该模型在现场（在线）音节排序方面的性能优于传统的自动语音识别系统。

在他们的第一个模型中，theta波（介于4赫兹与8赫兹之间）使跟随系统感知的音节节奏成为可能。伽马波（大约30赫兹）用于将听觉信号切成较小的切片并进行编码。这会产生一个链接到每个声音序列的“音素”配置文件，可以将其与后一个音节进行比较，并与已知音节库进行比较。这种类型的模型的优点之一是，它可以自发地适应语音速度，语音速度可能因人而异。

在这篇新文章中，为了更接近生物学现实，Giraud教授和她的团队开发了一种新模型，其中结合了来自另一个理论框架的元素，而与神经元振荡无关：“预测编码”。

“该理论认为，大脑的功能是如此之好，因为它一直在使用外界事件如何产生感官信号的学习模型来不断尝试预测和解释环境中正在发生的事情。就口语而言，它试图找到最有效的方法。根据已学到的，并且正在不断更新的一组心理表征，可能会随着声音的发展而使耳朵感知到的声音的可能原因。” Giraud小组的计算神经科学家Itsaso Olasagasti博士说。模型实施。

“我们开发了一种模拟这种预测编码的计算机模型，”基础神经科学系研究员，该论文的第一作者Sevada Hovsepyan解释说。“而且我们通过引入振荡机制来实现它。”

进入系统的声音首先由类似于神经元种群产生的θ（慢）波调制。这样就可以发信号通知音节的轮廓。然后，（快速）伽马波序列有助于在音节被感知时对音节进行编码。在此过程中，系统会建议可能的音节，并在必要时更正选择。在两个级别之间来回几次后，它会发现正确的音节。随后，系统在每个音节结束时将其重置为零。

该模型已成功使用220个句子中的2888个不同音节以英语自然语言进行了测试。Giraud教授说：“一方面，我们成功地将两个非常不同的理论框架整合到一个计算机模型中。”“另一方面，我们已经表明，神经元振荡很可能在节奏上使大脑的内源性功能与通过感觉器官从外部传入的信号对齐。如果将其放回预测编码理论中，则意味着这些振荡可能使大脑大脑在正确的时机做出正确的假设。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4772

浏览量
100852
计算模型

计算模型

+关注

关注
0

文章
29

浏览量
9863
自然语言

自然语言

+关注

关注
1

文章
288

浏览量
13357

语音识别机器人的工作原理

语音识别机器人的工作原理主要基于一系列复杂的技术流程，包括信号采集、预处理、特征提取、声学模型匹配、语言模型预测以及最终的解码输出。一、信

发表于 10-25 09:25 •486次阅读

NVIDIA Modulus助力风阻预测模型实现

NVIDIA 与百度飞桨双方技术团队通过在数据、算法、模型等多个方面的合作，共同打造了一款适用于车辆空气动力学数值模拟的 3D 高精度汽车风阻预测模型——DNNFluid-Car。经过

发表于 08-23 17:10 •896次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

习语言的表达方式和生成能力。通过预测文本中缺失的部分或下一个词，模型逐渐掌握语言的规律和特征。常用的模型结构 Transformer架构：大语言

发表于 08-02 11:03

matlab预测模型怎么用

MATLAB预测模型是一种基于统计和数学方法的预测工具，广泛应用于各种领域，如金融、气象、生物医学等。本文将介绍MATLAB预测模型的使用方

发表于 07-11 14:33 •633次阅读

MATLAB预测模型哪个好

在MATLAB中，预测模型的选择取决于数据类型、问题复杂度和预测目标。以下是一些常见的预测模型及其适用场景的介绍：线性回归（Linear

发表于 07-11 14:31 •436次阅读

如何使用MATLAB创建预测模型

在这篇文章中，我们将讨论如何使用MATLAB创建预测模型。MATLAB（矩阵实验室）是一种用于数值计算、可视化和编程的高级编程语言和交互式环境。它广泛应用于工程、科学研究和金融领域。 1.

发表于 07-11 14:29 •694次阅读

matlab预测模型有哪些

环境，使其成为预测模型开发和实现的理想平台。本文将详细介绍MATLAB中常用的预测模型及其应用。线性回归模型线性回归是一种简单的

发表于 07-11 14:27 •777次阅读

arimagarch模型怎么预测

GARCH模型则用于捕捉时间序列的波动性。以下是使用ARIMA-GARCH模型进行预测的一般步骤：数据准备：首先需要收集和整理预测所需的

发表于 07-09 10:22 •509次阅读

神经网络预测模型的构建方法

神经网络模型作为一种强大的预测工具，广泛应用于各种领域，如金融、医疗、交通等。本文将详细介绍神经网络预测模型的构建方法，包括模型设计、数据集

发表于 07-05 17:41 •680次阅读

Transformer模型在语音识别和语音生成中的应用优势

随着人工智能技术的飞速发展，语音识别和语音生成作为人机交互的重要组成部分，正逐渐渗透到我们生活的各个方面。而Transformer模型，自其诞生以来，凭借其独特的自注意力机制和并行计算

发表于 07-03 18:24 •1158次阅读

如何使用神经网络进行建模和预测

神经网络是一种强大的机器学习技术，可以用于建模和预测变量之间的关系。神经网络的基本概念神经网络是一种受人脑启发的计算模型，由大量的节点（神经元）组成，这些节点通过权重连接在一起。每

发表于 07-03 10:23 •775次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

对话 + 文生图 + 设备控制该示例展示了如何通过大模型实现语音输入意图的理解，实现对话、绘图和控制开发板屏幕颜色进行切换，用户可参考代码与教程自行修改。 4接入自定义应用讲解如何在云

发表于 06-18 17:33

基于助听器开发的一种高效的语音增强神经网络

。虽然模型压缩技术是一个活跃的研究领域，但我们是第一个证明其有效性的RNN语音增强，使用剪裁和权重/激活的整型量化。我们还演示了状态更新跳跃，它可以减少计算负载。最后，我们对压缩模型

发表于 06-07 11:29

助听器降噪神经网络模型

在堆栈网络方法中，参数少于一百万个。该模型使用挑战组织者提供的 500 小时的嘈杂语音进行训练。该网络能够进行实时处理（一帧输入，一帧输出）并达到有竞争力的结果。将这两种类型的信号

发表于 05-11 17:15

数字信号处理操作教程_音频解码：3-8 G711A音频解码实验

用脉冲编码调制对音频采样，采样率为8k每秒。它利用一个 64Kbps 未压缩通道传输语音讯号。起压缩率为1：2，即把16位数据压缩成8位。G711是主流的波形声音编解码器。 PCM是对模拟的连续信号进行

发表于 04-24 15:09

搜索历史

计算模型通过预测对语音进行解码

评论

语音识别机器人的工作原理

NVIDIA Modulus助力风阻预测模型实现

【《大语言模型应用指南》阅读体验】+ 基础知识学习

matlab预测模型怎么用

MATLAB预测模型哪个好

如何使用MATLAB创建预测模型

matlab预测模型有哪些

arimagarch模型怎么预测

神经网络预测模型的构建方法

Transformer模型在语音识别和语音生成中的应用优势

如何使用神经网络进行建模和预测

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

基于助听器开发的一种高效的语音增强神经网络

助听器降噪神经网络模型

数字信号处理操作教程_音频解码：3-8 G711A音频解码实验