一种神经解码器，采用循环神经网络的方式将记录的皮质神经信号-电子发烧友网

2019 年 4 月 24 日，来自加州大学旧金山分校（UCSF）神经外科学系 Gopala K. Anumanchipalli，Josh Chartier，Edward F. Chang 团队在 Nature 杂志上发表了题为 “Speech synthesis from neural decoding of spoken sentences” 的论文，引起了不少人士的关注。

据悉，研究人员设计一种神经解码器，采用循环神经网络（Recurrent Neural Network,RNN）的方式将记录的皮质神经信号，然后编码咬合关节运动的表征，以合成可听语音。

也就是说，严重瘫痪的病患可以使用基于该技术的产品通过大脑皮层活动更有效地向任何人发送文字信息。可以想象，像此前受肌萎缩侧索硬化ALS病症多年折磨的著名物理学家史蒂芬 · 霍金（Stephen Hawking）一定也非常乐意看到深度学习技术能够应用于临床医学上的突破。

随后，谷歌大脑 Jeff Dean 通过 Twitter 转发了这条消息，并赞叹该项研究成果，“非常酷！可以直接从神经活动中快速产生语音。”

实际上，他们在 2018 年 11 月 29 日以名为 “Intelligible speech synthesis from neural decoding of spoken sentences” 的论文就已经得到了公开。只不过，那时还是预印本，还未经过同级评审。

我们先来回顾下最新论文的主要内容。

摘要：将大脑神经活动转换成语音的技术，对于因神经损伤而无法正常沟通的人类来说将具有变革意义。从技术上来讲，从神经活动中解码语音是非常具有挑战性的，因为说话需要对声道的咬合结构进行非常精确和快速的多维控制。通过设计一种神经解码器，明确地利用人类皮层活动中编码的运动和声音表征来合成可听语音。

循环神经网络（RNN）将记录的皮质神经信号直接解码为咬合关节运动的表征，然后将这些表征再转换为语音。在封闭的词汇测试中，听众可以很容易地识别和转录皮层活动从而合成语音。即便数据有限，中间关节运动（Intermediate articulatory dynamics ）也能提高性能。

经过解码的语音表征非常保守，使得解码器的一个组件可跨不同受试者进行转换。此外，当受试者静默地模仿句子时，解码器可以合成语音。

以上这些发现提高了使用语音神经假体技术以恢复人类口语交流的临床可行性。

▌研究过程

许多患者是依靠通信设备来转录头部、眼睛或者直接的大脑皮层活动中的信息，然后再控制光标逐个选择字幕来拼写单词。例如，患者此前使用的语音合成系统基本就是这样的原理。虽然该系统显著提高了患者的生活质量，但多数用户很难在一分钟内传递超过 10 个单词，这一速度远低于自然语言中 150 词 / 分钟的平均速度。一个主要障碍就是如何克服当前基于拼写的方法限制，以实现更高效的沟通效率。

基于拼写的方法最好的替代方式就直接进行语音合成。因为拼写是离散字母的连续串联，而语音是由重叠的、多发声器的声道运动的流体产生的。为此，基于声道运动及其产生的声音模仿方法可能是实现自然语言的唯一高效沟通手段，并且还是可以保证用户学习的最直观手段。例如，患有麻痹症（ALS 或脑干中风）的患者，高保真语音控制信号可仅通过使用大脑 - 计算机接口直接记录完整皮质网络进行访问。

为了证明神经语言假体的可行性，研究人员试图将大脑信号转换成可理解的正常说话人语速的合成语音。研究人员采用了一种叫做高密度脑皮层电图（ECoG）的技术，让 5 名患有癫痫病的患者大声说出几百个句子，直接记录下受试者大脑皮层的神经活动，并跟踪控制语音和发生部位运动的大脑区域活动。

如图所示，研究人员采用的解码器方法可分为两个阶段：第一阶段，双向长期短期记忆（bLSTM）循环神经网络解码来自联系神经活动的关节运动特征；第二阶段，单独的 bLSTM 解码来自第一阶段解码出的关节特征的声音特征，然后从解码的声音特征合成音频信号。

训练解码器有三种数据来源：ECoG 记录、声音以及关节运动。

ECoG，从每个电级的原始信号中提取高伽马振幅包络（70-200Hz）和低频分量（1-30Hz）。如果它们位于关键皮质区域，则选择电极：腹侧感觉运动皮层（ventral sensorimotor cortex，vSMC）、颞上回（superiortemporal gyrus，STG）或下额回（inferior frontal gyrus，IFG）。

声音，由于不是典型的频谱图，研究人员使用了 25 个梅尔频率倒频谱系数（MFCC），5 个子带声音强度用于声门激励建模、音调和发声（总共 32 个特征）。这些声学参数是用于感知电管的声音特征，同时最大化音频重建的质量。

关节运动表征，即存在于神经活动和声音之间的解码器的一个关键组成部分。由于无法同步记录神经活动，研究人员采用了一种基于说话人的声音 - 发声（Acoustic-to-Articulatory）转换统计方法，来测出受试者产生的语音信号对应的声道运动轨迹。研究人员还添加了额外的生理特征（如关节运动），并在语音自动解码器中对值进行了优化，进而推断在语音产生期间声道生理的完整中间关节运动表征。

根据这些特征，可以精确地重建语音频谱图。

▌张复伦本人

值得一提的是，该项研究成果之一的 Edward Chang（中文名：张复伦）还是名华裔神经外科医生，擅长治疗成人癫痫、脑肿瘤等疾病，研究主要集中于语言、运动和情感的大脑机制。

最早在 2017 年，张复伦等人在 Science 杂志发表论文，阐述大脑皮层颞上回神经元在语言中的重要性。

在 2011 年 5 月的美国新闻与世界报导对他的采访中，张复伦就表示：“医学界长期忽视神经修复学，直到最近科技发展迅速才获得重视。相信在未来的 5 到 10 年间，电脑科技对神经性疾病患者，如柏金森氏症和阿兹海默症、癫痫等，将会有更多治疗方式。”

据了解，张复伦来自典型的中国***移民家庭。他曾表示：“生命中有很多选择的机会，成为神经外科医师是一连串的机遇，但父母的支持，让他可以全神贯注钻研神经科学，达到今天的成就。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1143

浏览量
40755
神经网络

神经网络

+关注

关注
42

文章
4772

浏览量
100800
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121192

原文标题：打开阿兹海默之门：华裔张复伦利用RNN成功解码脑电波，合成语音 | Nature

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

【PYNQ-Z2试用体验】神经网络基础知识

学习和认知科学领域，是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络由大量的人工

发表于 03-03 22:10

【案例分享】ART神经网络与SOM神经网络

是一种常用的无监督学习策略，在使用改策略时，网络的输出神经元相互竞争，每一时刻只有一个竞争获胜的神经

发表于 07-21 04:30

人工神经网络实现方法有哪些？

人工神经网络(Artificial Neural Network，ANN)是一种类似生物神经网络的信息处理结构，它的提出是为了解决一些非线性，非平稳，复杂的实际问题。那有哪些办法能实现

发表于 08-01 08:06

如何设计BP神经网络图像压缩算法？

称为BP神经网络。采用BP神经网络模型能完成图像数据的压缩处理。在图像压缩中，神经网络的处理优势在于：巨量并行性；信息处理和存储单元结合在一

发表于 08-08 06:11

如何构建神经网络？

原文链接：http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络？神经网络包括：输入层：根据现有数据获取输入的层隐藏层：使用反

发表于 07-12 08:02

卷积神经网络模型发展及应用

神经网络研究的第一次浪潮。1969 年美国数学家及人工智能先驱 Minsky在其著作中证明感知器本质上是一种线性模型[21]，只能处理线性分类问题，最简单的异或问题都无法正确分类，

发表于 08-02 10:39

一种新的基于改进的ADALINE神经网络的DTMF解码器方案

一种新的基于改进的ADALINE神经网络的DTMF解码器方案一、引言 DTMF（双音多频）信号是电话网中常用的信令，无论是家用电话、移动

发表于 11-06 10:04 •2133次阅读

循环神经网络和递归神经网络的区别

处理序列数据方面具有显著的优势，但它们在结构和工作原理上存在一些关键的区别。循环神经网络（RNN） 1.1 RNN的结构循环神经网络是

发表于 07-04 14:19 •929次阅读

循环神经网络和卷积神经网络的区别

结构。它们在处理不同类型的数据和解决不同问题时具有各自的优势和特点。本文将从多个方面比较循环神经网络和卷积神经网络的区别。基本概念循环神经网络

发表于 07-04 14:24 •1309次阅读

循环神经网络的基本原理是什么

循环神经网络（Recurrent Neural Network，简称RNN）是一种具有短期记忆功能的神经网络，它能够处理序列数据，如时间序列、文本序列等。与传统的前馈

发表于 07-04 14:26 •659次阅读

循环神经网络的基本概念

循环神经网络（Recurrent Neural Network，简称RNN）是一种具有循环结构的神经网络，其核心思想是

发表于 07-04 14:31 •697次阅读

循环神经网络算法原理及特点

）相比，RNN在处理序列数据时具有明显的优势。本文将介绍循环神经网络的原理、特点及应用。 1. 循环神经网络的原理 1.1 基本概念

发表于 07-04 14:49 •692次阅读

递归神经网络是循环神经网络吗

。递归神经网络的概念递归神经网络是一种具有短期记忆功能的神经网络，它能够处理序列数据，如时间序列、文本、语音等。与传统的前馈神经网络不同

发表于 07-04 14:54 •779次阅读

递归神经网络与循环神经网络一样吗

神经网络是一种基于树结构的神经网络模型，它通过递归地将输入数据分解为更小的子问题来处理序列数据。RvNN的核心思想是将复杂的序列问题

发表于 07-05 09:28 •887次阅读

rnn是递归神经网络还是循环神经网络

RNN（Recurrent Neural Network）是循环神经网络，而非递归神经网络。循环神经网络是

发表于 07-05 09:52 •585次阅读

搜索历史

一种神经解码器，采用循环神经网络的方式将记录的皮质神经信号

评论

【PYNQ-Z2试用体验】神经网络基础知识

【案例分享】ART神经网络与SOM神经网络

人工神经网络实现方法有哪些？

如何设计BP神经网络图像压缩算法？

如何构建神经网络？

卷积神经网络模型发展及应用

一种新的基于改进的ADALINE神经网络的DTMF解码器方案

循环神经网络和递归神经网络的区别

循环神经网络和卷积神经网络的区别

循环神经网络的基本原理是什么

循环神经网络的基本概念

循环神经网络算法原理及特点

递归神经网络是循环神经网络吗

递归神经网络与循环神经网络一样吗

rnn是递归神经网络还是循环神经网络