0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

计算模型通过预测对语音进行解码

倩倩 来源:互联网分析沙龙 2020-07-03 10:17 次阅读

大脑通过识别音节来分析口语。日内瓦大学(UNIGE)和不断发展的语言国家能力研究中心(NCCR)的科学家设计了一种计算模型,该模型再现了中枢神经系统执行此操作所采用的复杂机制。该模型汇集了两个独立的理论框架,使用等效于大脑活动产生的神经元振动来处理关联语音的连续声音流。

该模型根据称为预测编码的理论起作用,从而大脑通过不断尝试基于候选假设(此模型中的音节)来预测感觉信号来优化感知。结果模型在《自然通讯》杂志上进行了描述,该模型有助于实时识别以自然语言说出的数百个句子中包含的数千个音节。这证实了神经元振动可以用来协调我们听到的音节流与大脑预测的想法。

UNIGE医学院基础神经科学系教授,不断发展的语言NCCR联合主任Anne-Lise Giraud说:“脑部活动会产生可通过脑电图测量的神经元振荡。”这些是电磁波,是由整个神经元网络的相干电活动产生的。有几种类型,根据它们的频率定义。它们被称为α,β,θ,δ或γ波。这些节奏单独或叠加在一起,与不同的认知功能相关,例如感知,记忆,注意力,机敏性等。

但是,神经科学家尚不知道他们是否对这些功能做出积极贡献以及如何发挥作用。在2015年发表的一项较早研究中,Giraud教授的团队表明,theta波(低频)和gamma波(高频)相互配合,对音节中的音流进行排序,并分析其内容,以便对其进行识别。

总部位于日内瓦的科学家根据这些生理节律开发了一种突跳的神经网络计算机模型,该模型在现场(在线)音节排序方面的性能优于传统的自动语音识别系统。

在他们的第一个模型中,theta波(介于4赫兹与8赫兹之间)使跟随系统感知的音节节奏成为可能。伽马波(大约30赫兹)用于将听觉信号切成较小的切片并进行编码。这会产生一个链接到每个声音序列的“音素”配置文件,可以将其与后一个音节进行比较,并与已知音节库进行比较。这种类型的模型的优点之一是,它可以自发地适应语音速度,语音速度可能因人而异。

在这篇新文章中,为了更接近生物学现实,Giraud教授和她的团队开发了一种新模型,其中结合了来自另一个理论框架的元素,而与神经元振荡无关:“预测编码”。

“该理论认为,大脑的功能是如此之好,因为它一直在使用外界事件如何产生感官信号的学习模型来不断尝试预测和解释环境中正在发生的事情。就口语而言,它试图找到最有效的方法。根据已学到的,并且正在不断更新的一组心理表征,可能会随着声音的发展而使耳朵感知到的声音的可能原因。” Giraud小组的计算神经科学家Itsaso Olasagasti博士说。模型实施。

“我们开发了一种模拟这种预测编码的计算机模型,”基础神经科学系研究员,该论文的第一作者Sevada Hovsepyan解释说。“而且我们通过引入振荡机制来实现它。”

进入系统的声音首先由类似于神经元种群产生的θ(慢)波调制。这样就可以发信号通知音节的轮廓。然后,(快速)伽马波序列有助于在音节被感知时对音节进行编码。在此过程中,系统会建议可能的音节,并在必要时更正选择。在两个级别之间来回几次后,它会发现正确的音节。随后,系统在每个音节结束时将其重置为零。

该模型已成功使用220个句子中的2888个不同音节以英语自然语言进行了测试。Giraud教授说:“一方面,我们成功地将两个非常不同的理论框架整合到一个计算机模型中。”“另一方面,我们已经表明,神经元振荡很可能在节奏上使大脑的内源性功能与通过感觉器官从外部传入的信号对齐。如果将其放回预测编码理论中,则意味着这些振荡可能使大脑大脑在正确的时机做出正确的假设。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4662

    浏览量

    99495
  • 计算模型
    +关注

    关注

    0

    文章

    25

    浏览量

    9810
  • 自然语言
    +关注

    关注

    1

    文章

    274

    浏览量

    13243
收藏 人收藏

    评论

    相关推荐

    Transformer模型语音识别和语音生成中的应用优势

    随着人工智能技术的飞速发展,语音识别和语音生成作为人机交互的重要组成部分,正逐渐渗透到我们生活的各个方面。而Transformer模型,自其诞生以来,凭借其独特的自注意力机制和并行计算
    的头像 发表于 07-03 18:24 441次阅读

    如何使用神经网络进行建模和预测

    神经网络是一种强大的机器学习技术,可以用于建模和预测变量之间的关系。 神经网络的基本概念 神经网络是一种受人脑启发的计算模型,由大量的节点(神经元)组成,这些节点通过权重连接在一起。每
    的头像 发表于 07-03 10:23 130次阅读

    聆思CSK6视觉语音模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    对话 + 文生图 + 设备控制该示例展示了如何通过模型实现语音输入意图的理解,实现对话、绘图和控制开发板屏幕颜色进行切换,用户可参考代码与教程自行修改。 4接入自定义应用讲解如何在云
    发表于 06-18 17:33

    基于助听器开发的一种高效的语音增强神经网络

    。虽然模型压缩技术是一个活跃的研究领域,但我们是第一个证明其有效性的RNN语音增强,使用剪裁和权重/激活的整型量化。我们还演示了状态更新跳跃,它可以减少计算负载。最后,我们对压缩模型
    发表于 06-07 11:29

    助听器降噪神经网络模型

    在堆栈网络方法中,参数少于一百万个。该模型使用挑战组织者提供的 500 小时的嘈杂语音进行训练。 该网络能够进行实时处理(一帧输入,一帧输 出)并达到有竞争力的结果。将这两种类型的信号
    发表于 05-11 17:15

    数字信号处理操作教程_音频解码:3-8 G711A音频解码实验

    用脉冲编码调制对音频采样,采样率为8k每秒。它利用一个 64Kbps 未压缩通道传输语音讯号。起压缩率为1:2,即把16位数据压缩成8位。G711是主流的波形声音编解码器。 PCM是对模拟的连续信号进行
    发表于 04-24 15:09

    如何基于深度学习模型训练实现工件切割点位置预测

    Hello大家好,今天给大家分享一下如何基于深度学习模型训练实现工件切割点位置预测,主要是通过对YOLOv8姿态评估模型在自定义的数据集上训练,生成一个工件切割分离点
    的头像 发表于 12-22 11:07 441次阅读
    如何基于深度学习<b class='flag-5'>模型</b>训练实现工件切割点位置<b class='flag-5'>预测</b>

    在线研讨会 | 大模型时代语音 AI 模型的训练、优化与应用

    通过业界领先的技术,帮助企业能够快速部署定制化 AI 智能语音端到端流程。 2023 年 12 月 19 日和 21 日 晚间 ,来自 NVIDIA 和 Kaldi 项目的技术专家将做客 Datafun 社区直播间 ,为您介绍如何有针对性的在
    的头像 发表于 12-15 15:50 372次阅读
    在线研讨会 | 大<b class='flag-5'>模型</b>时代<b class='flag-5'>语音</b> AI <b class='flag-5'>模型</b>的训练、优化与应用

    LabVIEW进行癌症预测模型研究

    LabVIEW进行癌症预测模型研究 癌症是一种细胞异常增生的疾病。随着年龄的增长,细胞分裂速度放缓,但癌细胞会失去控制地不断分裂,形成可能良性或恶性的肿瘤。 2012年的国际癌症数据显示,新发癌症
    发表于 12-13 19:04

    基于机器学习的车位状态预测方法

    的停车状态数据通过构建好的GPR模型得到本次时间段停车状态的预测值,并进一步构建残差预测GPR模型,得到残差的
    发表于 09-21 07:24

    模型对手机的改变,不止语音助手

    语音模型
    脑极体
    发布于 :2023年08月30日 17:00:31

    构建神经网络模型的常用方法 神经网络模型的常用算法介绍

    神经网络模型是一种通过模拟生物神经元间相互作用的方式实现信息处理和学习的计算机模型。它能够对输入数据进行分类、回归、预测和聚类等任务,已经广
    发表于 08-28 18:25 808次阅读

    cnn卷积神经网络模型 卷积神经网络预测模型 生成卷积神经网络模型

    cnn卷积神经网络模型 卷积神经网络预测模型 生成卷积神经网络模型  卷积神经网络(Convolutional Neural Network,CNN)是一种深度学习神经网络,最初被广泛
    的头像 发表于 08-21 17:11 953次阅读

    检索增强的语言模型方法的详细剖析

    启发。 1 简介:Retrieval-based LMs = Retrieval + LMs 首先对于一个常规的(自回归)语言模型,其任务目标为通过计算 并加以采样来预测句子中的下一个
    的头像 发表于 08-21 09:58 1447次阅读
    检索增强的语言<b class='flag-5'>模型</b>方法的详细剖析

    语音识别发展 Python进行语音识别案例

      摘要:随着信息化时代的快速到来以及计算机技术的不断完善发展,语音识别在众多领域都得到了应用,同时语音识别有着广阔的发展前景。当下,在对语音识别的研究方面,研究人员大多以线性系统理论
    发表于 07-19 14:32 4次下载