关于语音合成的类别以及应用分析-电子发烧友网

语音合成又叫文语转换，是将文本转换成语音的一种技术，是人机交互中必不可少的一个环节。随着技术的发展，现在合成语音的自然度和音质都得到了明显的改善。汽车导航内嵌的语音系统、智能手机语音助手、读书软件等等，这些应用的实现都离不开语音合成。时下热门的AR、机器人、可穿戴设备等也为语音合成技术落地提供了更广阔的市场。

不过，当前语音合成技术还有很多痛点急需要解决，让机器拥有自然、有情感的声音，依旧是语音合成技术最大的难点。语音合成的现状是怎样？一个优质合成音是怎样诞生的？AI浪潮下，你可以如何玩转语音合成？AI公开课第一期，我们为你请到科大讯飞云平台技术服务专家——汪舰为你解答这些问题。

什么是语音合成

语音合成也叫文语转换（Text-To-Speech），简称TTS，简单理解就是“让机器说人话”。

语音合成用在哪里

别看语音合成技术近年来才被广泛应用，实际它已经有两百多年的历史了。

那么语音合成都在我们生活中的哪些地方出现过呢？我总结了三个方面：

第一个是APP，比如QQ阅读这样的读书应用，滴滴出行高德导航这种导航播报类的app；还有以siri为代表的语音助手，都是语音合成功能的常见载体；

另外一类是智能硬件产品，比如非常火的机器人领域，我们都希望机器人可以像真人一样和我们进行交流，所以合成功能基本就是他们的必备能力。

还有一些特殊领域也非常需要语音合成，比如视障阅读，对于视障人士来说，听书比摸书要高效得多。

语音合成里的技术门派

将语音合成技术门派按武侠风格可以划分为：气宗和剑宗。想当年气宗草创之初，创始人的想法很简单，人怎么发声的我就让机器怎么发声，基本就是山寨人体的思路。

但是有拨人认为，气宗这么搞没有前途，而且成效太慢，可操作性太差了，这拨人就是剑宗。剑宗表示，我们完全可以直接找人把语音里面所有的基础片段都录好，然后按照需要直接拼就行了。

技术门派之气宗

先来看看气宗具体是怎么玩的：他们用气囊代替肺，接根管子代替气管，管子末端再装个气门代替声带，气门后面再装个橡胶做的碗状结构来模拟口腔。

这套系统的操作非常简单，一只手掐住脖子就是气门，控制基频高低；另一只手操作口腔就是那个橡胶碗，控制发什么音；剩下的那个用来模拟肺的气囊就只能用脚来踩了。

基频又是什么呢？让我们举个简单的例子，汉语普通话除轻声以外有四种声调，2声的基频就是前低后高，4声的前高后低，3声是先高后低再高。掐气门的手捏得越紧，声道越窄，振动的基频就越高。不过这当个发明爱好还可以，实际用起来肯定不靠谱。但是随着科学的发展，计算机技术开始出现，逐渐普及，给很多领域都带来了全新的变化，语音合成当然也不例外。

技术门派之剑宗

剑宗表示，我们完全可以直接找人把语音里面所有的基础片段都录好，按照需要直接拼就行了。这个基础片段可长可短，可以是音素，可以是音节，甚至是声韵母的拼音。这种方法对人的要求就简单多了，基本上会拼图就能操作，所以也比较速成。

但是在没有计算机的时代，大量单元的管理和拼接是很麻烦的工作，所以每个基础单元一般只保存了较少的样例供选择。那么在合成千变万化的句子的时候，语音的起承转合难免就有些生硬和突兀，拼出来的语音虽然能让人听懂，但很难做到自然流畅。

计算机出现后这个问题得到有效的解决，有了计算和存储能力更大的计算机，他们就可以进行超大规模音库的制作，包括语料设计、音库录制、精细切分、韵律标注；同时进行规则统计，以此来针对不同发音人进行细致调整。这样合成出来的音频音质比较好，一般句子的自然度也不错。

所以在此后很长一段时间，剑宗对气宗在合成音的音质上占据了绝对优势，气宗只在嵌入式的小系统上保留着一小块领地。这种状况直到后来气宗成功引入了在语音识别领域大放异彩的HMM（隐马尔科夫模型）才得到根本改善。

语音合成技术痛点是什么

从合成的发展历史来看，表现力、音质、复杂度和自然度一直是合成技术所追求的四点。其中随着技术的演进，复杂度、自然度、音质三个方面都已经取得了非常不错的成绩。目前各大技术提供商更多的是在研究如何提高合成音的表现力，特别是语气和情感方面。

一条音频是如何合成出来的

这里其实包括了两个过程，一个是语音库的制作过程，一个是使用语音库将文本变成音频的过程。语音库的制作首先需要收集客户的需求，确定音色、风格、使用领域、产品特性、角色要求；然后找到配音员试音，根据需求设计试音文本，收集录音，通过实验分析确定发音人是否合适做音库；然后和客户确认实验效果是否能接受；最后投入音库生产线，录音脚本设计、录音资源训练、效果优化。

然后看一下真正的合成过程：输入文本后首先需要按照词典规则对文本进行语言处理，主要模拟人对自然语言的理解过程，包括文本规整、词的切分、语法语义分析，使计算机对输入的文本能完全理解，并给出后续步骤所需要的各种发音提示。然后是韵律处理，就是为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。最后根据前两部分处理结果的要求输出语音，即合成语音。

语音合成优秀案例解析

QQ阅读演示视频

小程序：AI随身听演示视频

讯飞开放平台的语音合成技术

讯飞开放平台目前以SDK的形式提供语音合成能力

目前提供支持8个平台的合成SDK，免费开放36个在线发音人，还有15个离线发音人可供购买使用，其中发音人xiaoyuan更是支持中英文混合合成。支持各种语言方言13种。另外对于有特殊要求的产品，我们还提供特色发音人的定制服务，例如很多小伙伴比较熟悉的高德地图林志玲的声音，还有之前PPT出现龙泉寺贤二的发音人。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机

计算机

+关注

关注
19

文章
7553

浏览量
88797
语音合成

语音合成

+关注

关注
2

文章
90

浏览量
16216
大数据

大数据

+关注

关注
64

文章
8912

浏览量
137896

搜索历史

关于语音合成的类别以及应用分析

评论

基于W2605C语音识别合成芯片的智能语音交互闹钟方案-AI对话享受智能生活

智能语音的驱动力：揭秘8脚语音芯片在智能设备中的非凡角色

九芯语音合成芯片NVH-FLASH，看这一篇足矣！

语音IC方案，在交通信号灯语音提示器的应用解析，NV040D

视频时钟合成芯片怎么用

语音集成电路是指什么意思

语音集成电路有哪些特点

中英文语音合成芯片（TTS芯片）WT3000T8-在ETC上的应用案例

为什么说TTS语音合成芯片的广泛应用，低功耗才是关键

【解读】VTX316 TTS语音合成芯片几个很实用的应用技巧

助听器降噪神经网络模型

20多年专注语音合成芯片公司分享：TTS芯片端是如何达到100%精准合成的

stm32f0怎么不使用语音IC做合成语音？

WT3000T8-TTS语音合成芯片及应用场景介绍

玩转语音合成芯片（TTS芯片），看这一篇就够了