0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

读心术成现实!大脑活动解码成语音

5RJg_mcuworld 来源:YXQ 2019-08-06 14:30 次阅读

说话似乎是一项毫不费力的活动,但它其实是人类最复杂的动作之一。说话需要精确、动态地协调声道发音器官结构中的肌肉——嘴唇、舌头、喉部和下颌。当由于中风、肌萎缩侧索硬化症或其他神经系统疾病而导致言语中断时,丧失说话能力可能是毁灭性的。

来自加州大学旧金山分校的科学家创造了更接近能够恢复说话功能的脑机接口(brain–computer interface,BCI)。

脑机接口旨在帮助瘫痪患者直接从大脑中“读取”他们的意图,并利用这些信息控制外部设备或移动瘫痪的肢体,这项技术目前能够使瘫痪的人每分钟最多能打出8个单词,而加州大学旧金山分享的研究人员开发了一种方法,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平!

这项研究发表在最新一期《自然》杂志上,作者为Anumanchipalli以及华裔科学家Edward Chang等人。

01.每分钟能够生成150单词,接近正常人类水平

加州大学旧金山分校的研究人员与5名志愿者合作,志愿者们接受了一项被称为“颅内监测”的实验,其中电极被用于监测大脑活动,作为癫痫治疗的一部分。

许多癫痫患者的药物治疗效果并不好,他们选择接受脑部手术。在术前,医生必须首先找到病人大脑中癫痫发作的“热点”,这一过程是通过放置在大脑内部或表面的电极来完成的,并监测明显的电信号高峰。

精确定位“热点”的位置可能需要数周时间。在此期间,患者通过植入大脑区域或其附近的电极来度日,这些区域涉及运动和听觉信号。这些患者一般会同意利用这些植入物进行额外的实验。

ECoG电极阵列由记录大脑活动的颅内电极组成

此次招募的五名志愿者同意测试虚拟语音发生器。每个患者都植入了一两个电极阵列:图章大小的、包含几百个微电极的小垫,放置在大脑表面。

实验要求参与者背诵几百个句子,电极会记录运动皮层中神经元的放电模式。研究人员将这些模式与患者在自然说话时嘴唇,舌头,喉部和下颌的微小运动联系起来。然后将这些动作翻译成口语化的句子。

参与的志愿者大脑中的电极阵列位置

实验要求母语为英语的人听这些句子,以测试虚拟语音的流畅性。研究发现,大约70%的虚拟系统生成的内容是可理解的。

最终,这套新系统每分钟能够生成150单词,接近自然讲话的语速水平。而以前基于植入物的通信系统每分钟可以生成大约8个单词。

02.技术细节:两阶段解码方法

在这项工作中,研究人员使用了一种叫做高密度皮层脑电图的技术来跟踪志愿者说话时大脑中控制言语和发音器官运动的区域的活动,志愿者们被要求说了几百句话。

为了重建话语,Anumanchipalli等人不是将大脑信号直接转换为音频信号,而是使用一种两级解码的方法。他们首先将神经信号转换为声道发音器官运动的表示,然后将解码的运动转换为口语句子,如图1所示。两次转换都使用了递归神经网络——一种人工神经网络,在处理和转换具有复杂时间结构的数据时特别有效。

图1:语音合成的脑机接口

在上图A中,以前的语音合成研究采用的方法是使用脑电图(ECoG)设备监测大脑语音相关区域的神经信号,并尝试将这些信号直接解码合成语音,使用一种称为递归神经网络(RNN)的人工神经网络;

上图B中,Anumanchipalli等人开发了一种不同的方法,RNN被用于两阶段解码。其中一个解码步骤是将神经信号转换成声道发声器官(红色)的预估运动,涉及到语音生成的解剖结构(嘴唇、舌头、喉部和下颌)。为了在第一个解码步骤中进行训练,作者需要每个人的声道运动与他们的神经活动关联起来的数据。

因为无法直接测量每个人的声道运动,Anumanchipalli等人构建了一个RNN来预估这些运动,其训练数据是之前收集的大量声道运动数据和语音录音。

这个RNN产生的声道运动估计足以训练第一个解码器。第二个解码步骤将这些估计的动作转换成合成语音。Anumanchipalli和他的同事的两步解码方法产生的口语句子的失真率明显低于直接解码方法获得的句子。

与直接解码声学特征相比,作者采用的两阶段解码方法能明显减小声音失真。如果可以获得跨多种语音条件的海量数据集,那么直接合成可能会接近或优于两阶段解码的方法。

然而,考虑到现实中数据集的匮乏,解码的中间阶段会将声道发音器官正常运动功能的信息带入模型,并限制必须评估的神经网络模型的可能参数。这种方法似乎使神经网络能够实现更高的性能。最终,反映正常运动功能的“仿生”方法可能在复制自然语言典型的快速、高精度通信方面发挥关键作用。

03.不能说话的个体也能实现语音合成

在脑机接口(BCI)研究中,包括新兴的语音脑机接口领域,开发和采用允许跨研究进行有意义的比较的稳健度量是一项挑战。例如,重构原始语音的错误等度量可能与脑机接口的功能性能(即听者是否能听懂合成的语音)几乎没有对应关系。

为了解决这个问题,Anumanchipalli等人从语音工程领域出发,开发了易于复制的人类听众语音可懂度测量方法。他们在众包市场Amazon Mechanical Turk上招募用户,让志愿者识别合成语音中的单词或句子。

与重构错误或以前使用的自动可懂度测量方法不同,这种方法直接测量语音对人类听众的可懂度,而不需要与原始话语进行比较。

Anumanchipalli和他的同事的研究结果为语音合成脑机接口的概念提供了令人信服证据,无论是在音频重建的准确性方面,还是在听者对产生的单词和句子进行分类的能力方面。

然而,在通往临床可行的语音脑机接口的道路上仍有许多挑战。

重构语音的可理解性仍远低于自然语音,脑机接口能否通过收集更大的数据集并继续开发底层的计算方法来进一步改进还有待观察。使用记录局部脑活动的神经接口可能比使用皮层脑电图记录的更为有效。例如,在脑机接口研究的其他领域,皮质内微电极阵列通常比皮质脑电图具有更高的性能。

目前所有语音解码方法的另一个限制是需要使用语音来训练解码器。因此,基于这些方法的脑机接口不能直接应用于无法说话的人。

但是Anumanchipalli和他的同事们发现,当志愿者在不发声的情况下模仿语音时,语音合成仍然是可行的,尽管语音解码的准确率要低得多。无法产生语音相关动作的个体是否能够使用语音合成脑机接口是未来研究的一个问题。

基于神经解码的无声模仿语音合成

值得注意的是,在首次对脑机接口进行概念验证研究以控制健康动物的手臂和手的运动之后,人们对这种脑机接口在瘫痪患者身上的适用性提出了类似的问题。随后的临床试验令人信服地证明,使用脑机接口,人类可以快速交流、控制机械臂、恢复瘫痪肢体的感觉和运动等。

最后,这些令人信服的概念验证证明了不能说话的个体也能实现语音合成,结合脑机接口在上肢瘫痪患者中的快速进展,研究人员认为应该大力考虑涉及言语障碍患者的临床研究。

随着持续的进步,希望更多有语言障碍的人能够重新获得自由表达思想的能力,并重新与周围的世界联系起来。

华裔科学家解码,马斯克脑机接口公司也会有新动作

Nature这篇文章的作者之一是加州大学旧金山分校神经外科教授Edward Chang博士。

Edward Chang

Edward Chang博士的研究重点是言语、运动和人类情感的大脑机制,同时他也是加州大学旧金山分校和加州大学伯克利分校的合作单位——神经工程与假肢中心的联合负责人。该中心汇集了工程、神经病学和神经外科方面的专家,以开发最先进的生物医学技术,用以恢复神经系统残疾患者的功能,如瘫痪和言语障碍。

Edward Chang博士表示,这次在Nature上的研究,“我们通过解码大脑活动提升语音的清晰度,模拟的语音比从大脑中提取声音表示的合成语音更准确、更自然。”

人类将大脑与计算机相连的努力越来越多。

上个月,美国一组科学家在biorxiv.org上发表一篇论文,称找到了快速将电线植入大鼠大脑的方法,论文中描述这个过程是“向人类大脑直接插入计算机潜在系统迈出的重要一步”。

研究人员将他们的系统称为“缝纫机”(sewing machine),科学家在实验室中移除一块老鼠的头骨并插入一根针头,将柔性电极送入老鼠的脑组织。

彭博新闻报道,这组科学家与马斯克的脑机接口公司Neuralink有各种松散关联。

Neuralink于2016年注册为加州的一家医学研究公司,该公司聘请了来自不同大学的几位知名神经科学家,并与加州大学戴维斯分校的实验室签约,对灵长类动物进行研究。

本周三,当Twitter用户询问Neurink的进展时,马斯克说,“可能会在几个月内宣布一些值得注意的事情。”

马斯克认为,脑机接口技术能在2021年之前治疗严重的脑损伤。此外,科学可以通过脑机接口扩大人类的能力。他举了一个例子:人们可以通过心灵感应来传达复杂的概念,“你不需要用语言表达”。

人类是否有一天会与机器合并?马斯克认为,人类已经在某种程度上做到了这一点,因为智能手机等近乎无所不在的技术,因此脑机接口这项工作应该继续下去。

这可能会导致科幻未来,因为人们可以在脑海中下载外语,你觉得呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29780

    浏览量

    268071
  • 深度学习
    +关注

    关注

    73

    文章

    5463

    浏览量

    120880

原文标题:Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音

文章出处:【微信号:mcuworld,微信公众号:嵌入式资讯精选】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    能在DSP的存储器上存MP3或其他格式的音频文件,由DSP读后控制TLV320AIC23转换成语音

    我想用TLV320AIC23和DSP做一个音频系统。我想问一下能在DSP的存储器上存MP3或其他格式的音频文件,由DSP读后控制TLV320AIC23转换成语音?有没有好的方案推荐谢谢!
    发表于 11-01 06:45

    物联网系统中音频方案的“大脑”_语音芯片

    01 物联网系统中为什么要使用语音芯片 物联网系统中使用语音芯片的原因可以归结为以下几个方面: 1、提升用户体验 语音交互:语音芯片使得物联网设备能够理解和响应人类
    的头像 发表于 09-26 14:26 262次阅读
    物联网系统中音频方案的“<b class='flag-5'>大脑</b>”_<b class='flag-5'>语音</b>芯片

    LM567x语音解码器数据表

    电子发烧友网站提供《LM567x语音解码器数据表.pdf》资料免费下载
    发表于 08-20 09:31 0次下载
    LM567x<b class='flag-5'>语音</b><b class='flag-5'>解码</b>器数据表

    电竞游戏USB音频解码语音通话调EQ方案

    电竞游戏USB音频解码语音通话调EQ方案采用全新高端USB解码单芯片,高集中小体积,完美支持USB音频解码和通话交互,在电竞游戏机应用时有非常好的体验。芯片有着高解析力,完美呈现声道设
    的头像 发表于 06-06 11:42 512次阅读
    电竞游戏USB音频<b class='flag-5'>解码</b><b class='flag-5'>语音</b>通话调EQ方案

    KT142C语音芯片下载语音过连接电脑PC的usb虚拟U盘拷贝

    KT142C-sop16语音芯片,下载语音是连接电脑PC的usb虚拟U盘直接拷贝 内置的是320K的空间,但是实际的大小,在电脑里面显示,应该是315Kbyte。 打开我的电脑,芯片连接PC之后,自动多出来了一个U盘[Ud
    的头像 发表于 06-03 10:46 366次阅读
    KT142C<b class='flag-5'>语音</b>芯片下载<b class='flag-5'>语音</b>过连接电脑PC的usb虚拟<b class='flag-5'>成</b>U盘拷贝

    stm32f0怎么不使用语音IC做合成语音

    我这边板子就一个功放电路,要求不使用语音IC做语音,我听别人说去了解MP3这一方面,但我只找到MCU软解码,但我怎么不了解,不清楚怎么做成自己的语音,要的是
    发表于 04-25 06:00

    数字信号处理操作教程_音频解码:3-8 G711A音频解码实验

    一、实验目的 学习G711音频的格式和G711A音频解码的原理,并实现将BIT格式解码为PCM格式。 二、实验原理 G711 G711是国际电信联盟订定出来的一套语音压缩标准,主要用于电话。它主要
    发表于 04-24 15:09

    能不能把单片机上的蜂鸣器换成语音播放模块

    我的毕设选题是基于单片机的智能语音门禁系统设计与实现,所以我在网上买了个智能门锁的板子,但是它没有语音播放,我就想着能不能把蜂鸣器换成语音播放模块,让它开锁的时候播放语音
    发表于 03-26 10:26

    脑机接口:探寻大脑活动解码技术

    据最新研究,2月20日,英国知名学术期刊《自然》(Nature)特别报道了未来脑机接口的发展趋势及潜在影响力。研究强调,脑机接口不仅改变了我们看待大脑的视角,也刷新了我们对大脑各区域间界限与功能的固有看法。
    的头像 发表于 02-25 15:50 663次阅读

    新火种AI|脑洞照进现实!马斯克正式官宣,已将芯片连入大脑...

    与电脑的直接连接更近了一步。 对于“大脑芯片植入”这一类的字眼,喜欢看科幻大片的小伙伴们应该都不陌生。诸如AI,机器人,脑接口技术等概念会时常出现在科幻电影里,很是炫酷。但如今,如此炫酷的科幻桥段却照进了现实,真真切切的发生在了我们日常
    的头像 发表于 02-01 14:38 370次阅读

    NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

    刺激塑造,而且深受过往经验的影响,这些共同促成了大脑中的复杂活动。在认知神经科学领域,解码大脑活动中的视觉信息成为了一项关键任务。功能性磁共
    的头像 发表于 12-24 21:35 472次阅读
    NeurIPS23|视觉 「读脑术」:从<b class='flag-5'>大脑</b><b class='flag-5'>活动</b>中重建你眼中的世界

    WT2003Hx系列高品质语音芯片MP3音频解码IC的特征与应用优势

    在嵌入式语音领域,WT2003Hx系列高品质语音芯片以其卓越的音频解码性能脱颖而出。本文将深入研究该系列芯片的特色与应用优势,重点关注其支持wav、Mp3格式音频解码、高品质播放等方面
    的头像 发表于 12-15 08:35 533次阅读
    WT2003Hx系列高品质<b class='flag-5'>语音</b>芯片MP3音频<b class='flag-5'>解码</b>IC的特征与应用优势

    WT2605C-32N语音芯片:动感单车新革命,音乐解码引领健身潮流

    在健身产业中,唯创知音的WT2605C-32N蓝牙音频MP3音乐解码语音芯片IC,作为动感单车音乐解码的领军者,为健身者带来了更智能、更有趣味性的音乐健身新体验,引领着动感单车的新革命。1.蓝牙连接
    的头像 发表于 12-13 09:18 494次阅读
    WT2605C-32N<b class='flag-5'>语音</b>芯片:动感单车新革命,音乐<b class='flag-5'>解码</b>引领健身潮流

    如何从大脑活动解码自然语言呢?

    语言不仅是人类交流的工具,更是思维和智能的基础。
    的头像 发表于 11-25 15:57 806次阅读
    如何从<b class='flag-5'>大脑</b><b class='flag-5'>活动</b>中<b class='flag-5'>解码</b>自然语言呢?

    离线语音识别及控制是怎样的技术?

    进行处理。  离线语音识别能够在设备上实现实时的语音识别响应,具有响应速度快、隐私保护好、稳定可靠等优势。它广泛应用于移动设备、智能音箱、嵌入式系统等场景,为用户提供便利的语音输入和交
    发表于 11-24 17:41