百度研究院推出了他们有关TTS的成果—

语音合成，也被称作TTS（text-to-speech），该技术的应用目前已十分广泛了，例如智能家居设备和智能助手等，论智也曾报道过很多相关研究项目。

百度研究者利用少量样本实现语音克隆

谷歌发布新语音合成模型Tacotron 2：这竟是机器说的话？

谷歌大脑发力语音搜索：一个用于语音识别的端到端模型

近日，百度研究院推出了他们有关TTS的成果——ClariNet，成为百度在TTS研究上的又一里程碑。此前基于神经内网络的TTS模型是将优化的文本到声谱图和波形合成模型分开来的，这可能会导致不理想的表现。而ClariNet第一次做到了用完全的端到端TTS模型，直接将文本转换成波形图，并且只需要一个神经网络即可。它的全卷积结构能够从零开始快速地训练。ClariNet在语音的自然度方面成功地超越了其他方法。以下是论智对这篇论文的编译。

论文摘要

WaveNet是DeepMind去年推出的基于深度学习的语音生成模型，它可以生成平行的语音波形，即整个句子中所有的词语都可以同时生成对应的波形。现在，我们提出了一种替代WaveNet的方法，我们从自回归的WaveNet中提取一个高斯逆自回归流（Gaussian Inverse autoregressive flow），并且以闭合形式计算KL散度，简化了训练算法并且提供了非常高效的蒸馏过程。除此之外，我们还提出了首个针对语音合成的文本到波形的神经架构（text-to-wave），这是全卷积的，并且可以快速地从零开始进行端到端训练。除此之外，我们还成功地在模型的隐藏表示中创建了并行波形生成器。

并行波形生成

在模型中，我们用高斯自回归WaveNet作为“老师网络”，将高斯逆自回归流作为“学生网络”。2018年，Oord等人提出了概率密度蒸馏法来降低逆自回归流（IAF）的最大可能学习中的难度。蒸馏过程中，学生网络IAF试着将它自己的样本分布与在自回归的WaveNet中训练的样本相匹配。然而，学生网络IAF的输出逻辑分布和教师网络WaveNet的输出之间的KL散度是不相容的，必须使用蒙特卡罗方法进行大概计算。而最终并行的WaveNet需要在蒸馏过程中进行双次采样：首先要将白噪声输入到学生网络中，然后从学生网络的输出分布中选择多个不同样本对KL散度进行估计。

但是在我们的模型中，加入了高斯设置，密度蒸馏方法只需要一个白噪声样本，然后将其输入封闭的KL散度计算中。我们的学生IAF网络在蒸馏过程中和老师WaveNet使用同一个条件网络（2D卷积层）。

Text-to-Wave架构

我们的卷积text-to-wave架构如下图所示：

它是基于另一个基于注意力的卷积TTS模型——Deep Voice 3创建的。Deep Voice 3能够将文本特征（例如字符、音素、强调等）转换成波谱特征（例如log-mel声谱和log-linear声谱）。这些波普特征可以输入到训练波形合成的模型中，例如WaveNet。相反，我们直接将从注意力机制中学习到的隐藏表示输入到神经语音编码器中，用端到端的方式从零训练整个模型。

我们所提出的架构包含四个部分：

编码器：一个和Deep Voice 3相同的编码器，它可以将文本特征编写进内部的隐藏表示。

解码器：同样和Deep Voice 3相同，可以用自回归的方式将编码器中的内容加码城log-mel声谱。

Bridge-net：这是一个卷积中间处理模块，它可以从解码器中处理隐藏表示，并且预测log-linear声谱。与解码器不同的是，它并非是因果联系的，并且可以使用未来的语境。另外，它还可以从框架层到采样层对隐藏表示进行上采样。

语音编码器：高斯自回归WaveNet可以合成波形，但是只能在上采样后的隐藏表示中实现。而它可以由自回归语音编码器的学生IAF网络替换。

实验过程

我们进行了几组实验来评估所提出的并行波形生成方法和text-to-wave结构。我们用了20个小时的英文演讲作为训练数据，下采样后音频变为24kHz。

首先我们测试了生成语音的自然程度，用MOS分数表示：

结果表示，高斯自回归WaveNet和MoGul以及softmax输出水平相当，比MoL要好。

接着我们将一个60层的并行学生网络从20层的高斯自回归WaveNet中进行蒸馏，它包括6个堆叠的高斯逆自回归流，每个流都由一个10层的WaveNet进行参数化。我们测试了前向和逆向KL散度，结果如下：

两种蒸馏方法都得到了不错的分数，我们希望未来加入感知和对比损失后会进一步提升。

最后我们从零训练了text-to-wave模型，并将其与Deep Voice 3中的同类模型相比，结果如下：

该分数表明text-to-wave模型明显比其他模型表现得好，并且有经过蒸馏的语音编码器的模型呢自回归神经编码器的表现水平相当。

结语

百度在语音合成方面的确做出了许多努力，今年三月，他们还推出了神经语音克隆系统，只需输入少量样本就能合成逼真语音。而今天的ClariNet是语音合成的又一里程碑，是该领域第一个真正的端到端模型，在GPU上取得了更高质量的结果。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3579

浏览量
134038
百度

百度

+关注

关注
9

文章
2249

浏览量
90214
深度学习

深度学习

+关注

关注
73

文章
5484

浏览量
120918

原文标题：语音合成的里程碑：百度推出首个完全端到端的TTS模型

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

中马研究院正式挂牌成立

`　　12月30日下午，中马研究院于园区正式挂牌成立，园区管委会副主任杨健豪、主任助理曹全来出席并为研究院揭牌，园区管委会经济发展局全体成员见证揭牌。　　中马研究院旨在打造“立足中马、面向东盟的新型

发表于 01-07 16:02

百度深度学习研究院科学家深度讲解人工智能

的研发经验。在过去的工作中，他发表过论文十余篇，申请中国专利超过100项，其中已经授权的有95项。他曾任职百度深度学习研究院，负责人脸识别方向，曾经多次带领团队在主流的人脸检测、人脸识别竞赛上取得

发表于 07-19 10:01

前百度深度学习研究院科学家分享：机器视觉开发实战经验

其实就是计算机科学的一个分支，将来也是会成为人类社会基础设施的一部分。现在我们邀请来百度深度学习研究院科学家，为大家分享人工智能视觉开发的经验。点击报名直播观看：http

发表于 07-20 11:06

延迟和指令呈现百度人工智能交互设计院的最新研究

有屏智能设备的多维对话：延迟和指令呈现百度人工智能交互设计院最新研究

发表于 05-25 09:46

王劲为何离开百度_百度的巨变真的和空降的陆奇有关？

和E-Loan等。2000年，王劲回到中国，历任阿里巴巴资深技术总监、EBay中国CTO，EBay中国研发中心总经理、谷歌中国工程研究院副院长。2010年4月15日，王劲加入百度，任百度技术副总裁，2013年12月晋升为

发表于 12-24 14:22 •1316次阅读

百度最新AI算法就能克隆任何人的声音！只需 3.7 秒!

Deep Voice是百度AI研究院一个由深度神经网络构建的高质量语音转（TTS ）系统。该系统不仅提高的模拟的时间，百度还优化了它出错的概率。甚至还在一个单GPU服务器上，把推断规模

发表于 04-02 10:55 •1.5w次阅读

百度推出NCRF算法，癌症转移检测准确率喜人

昨天，百度研究院宣布他们开发了一种深度学习算法，在检测乳腺癌的微转移方面超过了人类病理学医生的表现。

发表于 06-26 15:25 •5827次阅读

前百度深度学习研究院科学家分享：机器视觉开发实战！

具有16年的计算机视觉和人工智能方向的研发经验，在过去的工作中，他发表过论文十余篇，申请中国专利超过100项，其中已经授权的有95项。他曾任职百度深度学习研究院，负责人脸识别方向，曾经多次带领团队在主流的人脸检测、

发表于 07-19 15:43 •336次阅读

百度研究院召开大会发现了窥视人工智能的新视角

10个月前，百度研究院在硅谷召开了一场全员大会，院长王海峰宣布了两个新动态，一是设立商业智能实验室和机器人与自动驾驶实验室，二是Kenneth Ward Church、浣军、熊辉三位世界级人工智能领域的科学家加盟百度

发表于 11-15 10:47 •2125次阅读

百度研究院迎来9位世界级AI科学家，深远布局前瞻性研究

2018-11-15 09:27 | 查看: 32 | 评论: 0 | 来自: 今日头条摘要 : 作为百度发展人工智能的核心机构，百度研究院又完成了一次重要的实力扩充。美国当地时间11月13日

发表于 11-26 20:49 •300次阅读

百度再添9位世界级AI科学家加盟

美国时间11月13日，百度研究院在美国硅谷召开会议，宣布百度研究院顾问委员会正式成立，并宣布在2018年陆续迎来9位世界级科学家加盟。当天，百度

发表于 03-01 17:23 •767次阅读

百度研究院对AI产业的预测

百度研究院发布2020十大科技趋势预测，从2019年科技的蓬勃发展中提前展望2020。作为2019年度最受关注的科技热词之一，“AI”自然成为了焦点。百度

发表于 12-26 16:06 •3730次阅读

百度研究院2023科技趋势预测发布

来源：百度AI 1月5日，百度研究院发布2023年十大科技趋势预测，今年上榜的十大科技趋势涵盖了大模型生态、数实融合、虚实共生、自动驾驶、机器人、科学计算、量子计算、隐私计算、科技伦理

发表于 01-06 17:15 •571次阅读

百度研究院2023科技趋势预测发布

来源：百度AI1月5日，百度研究院发布2023年十大科技趋势预测，今年上榜的十大科技趋势涵盖了大模型生态、数实融合、虚实共生、自动驾驶、机器人、科学计算、量子计算、隐私计算、科技伦理和科技可持续发展

发表于 01-13 11:05 •515次阅读

百度蛋白大语言模型研究成果登上Nature子刊封面

百度最新研究成果登上Nature子刊封面，文心生物计算大模型获国际顶刊认可！

发表于 11-25 11:25 •1130次阅读

搜索历史

百度研究院推出了他们有关TTS的成果——ClariNet

评论