0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

WpOh_rgznai100 来源:yxw 2019-06-06 14:09 次阅读

目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。

近年来,基于神经网络的端到端文本到语音合成(Text-to-Speech,TTS)技术取了快速发展。与传统语音合成中的拼接法(concatenative synthesis)和参数法(statistical parametric synthesis)相比,端到端语音合成技术生成的声音通常具有更好的声音自然度。但是,这种技术依然面临以下几个问题:

合成语音的速度较慢:端到端模型通常以自回归(Autoregressive)的方式生成梅尔谱(Mel-Spectrogram),再通过声码器(Vocoder)合成语音,而一段语音的梅尔谱通常能到几百上千帧,导致合成速度较慢;

合成的语音稳定性较差:端到端模型通常采用编码器-注意力-解码器(Encoder-Attention-Decoder)机制进行自回归生成,由于序列生成的错误传播(Error Propagation)以及注意力对齐不准,导致出现重复吐词或漏词现象;

缺乏可控性:自回归的神经网络模型自动决定一条语音的生成长度,无法显式地控制生成语音的语速或者韵律停顿等。

为了解决上述的一系列问题,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,可以并行、稳定、可控地生成高质量的梅尔谱,再借助声码器并行地合成声音。

在LJSpeech数据集上的实验表明,FastSpeech除了在语音质量方面可以与传统端到端自回归模型(如Tacotron2和Transformer TTS)相媲美,还具有以下几点优势:

快速:与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了近38倍,单GPU上的语音合成速度是实时语音速度的30倍;

鲁棒:几乎完全消除了合成语音中重复吐词和漏词问题;

可控:可以平滑地调整语音速度和控制停顿以部分提升韵律。

模型框架

图1. FastSpeech网络架构

前馈Transformer架构

FastSpeech采用一种新型的前馈Transformer网络架构,抛弃掉传统的编码器-注意力-解码器机制,如图1(a)所示。其主要模块采用Transformer的自注意力机制(Self-Attention)以及一维卷积网络(1D Convolution),我们将其称之为FFT块(Feed-Forward Transformer Block, FFT Block),如图1(b)所示。前馈Transformer堆叠多个FFT块,用于音素(Phoneme)到梅尔谱变换,音素侧和梅尔谱侧各有N个FFT块。特别注意的是,中间有一个长度调节器(Length Regulator),用来调节音素序列和梅尔谱序列之间的长度差异。

长度调节器

长度调节器如图1(c)所示。由于音素序列的长度通常小于其梅尔谱序列的长度,即每个音素对应于几个梅尔谱序列,我们将每个音素对齐的梅尔谱序列的长度称为音素持续时间。长度调节器通过每个音素的持续时间将音素序列平铺以匹配到梅尔谱序列的长度。我们可以等比例地延长或者缩短音素的持续时间,用于声音速度的控制。此外,我们还可以通过调整句子中空格字符的持续时间来控制单词之间的停顿,从而调整声音的部分韵律。

音素持续时间预测器

音素持续时间预测对长度调节器来说非常重要。如图1(d)所示,音素持续时间预测器包括一个2层一维卷积网络,以及叠加一个线性层输出标量用以预测音素的持续时间。这个模块堆叠在音素侧的FFT块之上,使用均方误差(MSE)作为损失函数,与FastSpeech模型协同训练。我们的音素持续时间的真实标签信息是从一个额外的基于自回归的Transformer TTS模型中抽取encoder-decoder之间的注意力对齐信息得到的,详细信息可查阅文末论文。

实验评估

为了验证FastSpeech模型的有效性,我们从声音质量、生成速度、鲁棒性和可控制性几个方面来进行了评估。

声音质量

我们选用LJSpeech数据集进行实验,LJSpeech包含13100个英语音频片段和相应的文本,音频的总长度约为24小时。我们将数据集分成3组:300个样本作为验证集,300个样本作为测试集,剩下的12500个样本用来训练。

我们对测试样本作了MOS测试,每个样本至少被20个英语母语评测者评测。MOS指标用来衡量声音接近人声的自然度和音质。我们将FastSpeech方法与以下方法进行对比:1) GT, 真实音频数据;2) GT (Mel + WaveGlow), 用WaveGlow作为声码器将真实梅尔谱转换得到的音频;3) Tacotron 2 (Mel + WaveGlow);4) Transformer TTS (Mel + WaveGlow);5) Merlin (WORLD), 一种常用的参数法语音合成系统,并且采用WORLD作为声码器。

从表1中可以看出,我们的音质几乎可以与自回归的Transformer TTS和Tacotron 2相媲美。

FastSpeech合成的声音Demo:

文字:“The result of the recommendation of the committee of 1862 was the Prison Act of 1865”

合成速度

我们比较FastSpeech与具有近似参数量的Transformer TTS的语音合成速度。从表2可以看出,在梅尔谱的生成速度上,FastSpeech比自回归的Transformer TTS提速将近270倍;在端到端(合成语音)的生成速度上,FastSpeech比自回归的Transformer TTS提速将近38倍。FastSpeech平均合成一条语音的时间为0.18s,由于我们的语音平均时长为6.2s,我们的模型在单GPU上的语音合成速度是实时语音速度的30倍(6.2/0.18)。

图2展示了测试集上生成语音的耗时和生成的梅尔谱长度(梅尔谱长度与语音长度成正比)的可视化关系图。可以看出,随着生成语音长度的增大,FastSpeech的生成耗时并没有发生较大变化,而Transformer TTS的速度对长度非常敏感。这也表明我们的方法非常有效地利用了GPU的并行性实现了加速。

图2. 生成语音的耗时与生成的梅尔谱长度的可视化关系图

鲁棒性

自回归模型中的编码器-解码器注意力机制可能导致音素和梅尔谱之间的错误对齐,进而导致生成的语音出现重复吐词或漏词。为了评估FastSpeech的鲁棒性,我们选择微软(亚洲)互联网工程院语音团队产品线上使用的50个较难的文本对FastSpeech和基准模型Transformer TTS鲁棒性进行测试。从下表可以看出,Transformer TTS的句级错误率为34%,而FastSpeech几乎可以完全消除重复吐词和漏词。

语速调节

FastSpeech可以通过长度调节器很方便地调节音频的语速。通过实验发现,从0.5x到1.5x变速,FastSpeech生成的语音清晰且不失真。

消融对比实验

我们也比较了FastSpeech中一些重要模块和训练方法(包括FFT中的一维卷积、序列级别的知识蒸馏技术和参数初始化)对生成音质效果的影响,通过CMOS的结果来衡量影响程度。由下表可以看出,这些模块和方法确实有助于我们模型效果的提升。

未来,我们将继续提升FastSpeech模型在生成音质上的表现,并且将会把该模型应用到其它语言(例如中文)、多说话人和低资源场景中。我们还会尝试将FastSpeech与并行神经声码器结合在一起训练,形成一个完全端到端训练的语音到文本并行架构。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6557

    浏览量

    103920
  • 互联网
    +关注

    关注

    54

    文章

    11085

    浏览量

    102670
  • 语音合成系统

    关注

    0

    文章

    3

    浏览量

    6353

原文标题:速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Commvault与Pure Storage联合推出网络就绪解决方案

    混合云网络弹性和数据保护解决方案的领先提供商Commvault(纳斯达克代码:CVLT)宣布与Pure Storage联合推出一项网络就绪解决方案。该解决方案能够在帮助企业遵守不断变化的严格法规方面发挥关键作用。
    的头像 发表于 10-15 09:16 389次阅读

    微软和日立达成价值数十亿美元的战略合作

    微软和日本知名公司日立近日宣布了一项价值数十亿美元的战略合作计划,旨在未来三年内共同推动生成式人工智能服务的广泛应用。根据合作协议,日立将深度整合微软云、Azure开放人工智能服务、Dynamics
    的头像 发表于 06-06 09:47 453次阅读

    微软网页版PPT新增语音识别及字幕生成功能

    据报道,微软计划于今年六月份推出网页版PowerPoint全新语音识别功能。此项功能将能够监控PowerPoint视频中的声音,进而自动生成字幕。
    的头像 发表于 05-16 14:36 365次阅读

    共享充电宝语音芯片ic方案支持远程4g无线更新语音

    共享充电宝语音芯片ic方案支持远程4g无线wifi蓝牙更新语音 共享充电宝已经是遍布在大街小巷的好产品,解决了携带充电宝麻烦的痛点 但是很多的共享充电宝在人机交互方便,还做得不够好,比如:借、还设备没有语音提示,相关的状态也
    的头像 发表于 05-13 10:29 479次阅读
    共享充电宝<b class='flag-5'>语音</b>芯片ic方案支持远程4g无线更<b class='flag-5'>新语音</b>

    微软准备推出全新人工智能语言模型

    微软近期传出消息,正在秘密研发一款全新的人工智能语言模型,这款模型在规模上预计将具备与谷歌和OpenAI等业界巨头相抗衡的实力。据悉,这款新模型在微软内部被命名为“MAI-1”,由微软
    的头像 发表于 05-08 09:30 400次阅读

    微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机

    微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机这一消息属实。
    的头像 发表于 04-11 10:14 494次阅读

    微软和Quantinum宣布在量子计算领域实现重大突破

    微软和Quantinum日前表示,他们通过提高量子计算的可靠性,在实现量子计算商业化方面迈出了关键一步。
    的头像 发表于 04-07 10:53 560次阅读

    安富利联合TE Connectivity推出全新WiFi 6E天线解决方案

    随着WiFi 6E技术的兴起,网络连接体验正迎来一场革新。安富利与TE Connectivity(TE)近日联合推出全新的WiFi 6E天线解决方案,该方案以其卓越的频段覆盖和增强的频率带宽,为用户、企业以及服务提供商带来了前所未有的连接价值。
    的头像 发表于 03-07 09:15 872次阅读

    Wipro与Nokia联合推出5G专用无线解决方案,加速企业数字化转型

    领先的技术服务和咨询公司Wipro Limited (NYSE: WIT, BSE: 507685, NSE: WIPRO) 今天宣布与Nokia (NYSE: NOK) 联合推出专用无线解决方案
    的头像 发表于 02-27 14:02 330次阅读

    人形机器人初创公司Figure AI与微软和OpenAI展开融资谈判

    近日,人形机器人初创公司Figure AI Inc.正与微软和OpenAI展开融资谈判,目标筹集高达5亿美元的资金。据悉,微软和OpenAI可能分别投资9500万美元和500万美元。如果谈判成功,这笔资金将使Figure AI的估值达到约19亿美元,不包括新资金。
    的头像 发表于 02-04 11:00 880次阅读

    微软和OpenAI洽谈注资人形机器人公司

    微软和OpenAI正在与领先的人形机器人公司Figure洽谈新一轮融资事宜。据透露,本轮融资金额最高可能达到5亿美元。
    的头像 发表于 02-02 10:41 673次阅读

    语音合成技术在智能驾驶中的创新与应用

    的发展趋势。 二、语音合成技术的创新 语音质量的提升:随着深度学习等技术的不断发展,语音合成技术
    的头像 发表于 02-01 18:09 597次阅读

    语音合成技术在智能驾驶中的应用与展望

    体验。本文将探讨语音合成技术在智能驾驶中的应用、优势以及未来发展趋势。 二、语音合成技术在智能驾驶中的应用 导航与路线指引:通过语音
    的头像 发表于 02-01 17:50 486次阅读

    WT588F02B语音芯片:在线更新语音内容的应用优势

    随着科技的飞速发展,人机交互技术在电子产品中的应用越来越广泛。其中,语音芯片作为实现人机交互的关键组件,发挥着重要的作用。唯创知音推出的WT588F02B语音芯片,以其出色的性能和创新的功能,成为
    的头像 发表于 12-19 08:38 358次阅读
    WT588F02B<b class='flag-5'>语音</b>芯片:在线更<b class='flag-5'>新语音</b>内容的应用优势

    SiC晶圆划片工艺:速度提升100,芯片增加13%

    近日,一家日本厂商发布了一种全新的SiC晶圆划片工艺,与传统工艺相比,这项技术可将划片速度提升100,而且可以帮助SiC厂商增加13%的芯片数量。
    的头像 发表于 11-21 18:15 2307次阅读
    SiC晶圆划片工艺:<b class='flag-5'>速度</b><b class='flag-5'>提升</b>100<b class='flag-5'>倍</b>,芯片增加13%