语音合成又叫文语转换,是将文本转换成语音的一种技术,是人机交互中必不可少的一个环节。随着技术的发展,现在合成语音的自然度和音质都得到了明显的改善。汽车导航内嵌的语音系统、智能手机语音助手、读书软件等等,这些应用的实现都离不开语音合成。时下热门的AR、机器人、可穿戴设备等也为语音合成技术落地提供了更广阔的市场。
不过,当前语音合成技术还有很多痛点急需要解决,让机器拥有自然、有情感的声音,依旧是语音合成技术最大的难点。语音合成的现状是怎样?一个优质合成音是怎样诞生的?AI浪潮下,你可以如何玩转语音合成?AI公开课第一期,我们为你请到科大讯飞云平台技术服务专家——汪舰为你解答这些问题。
什么是语音合成
语音合成也叫文语转换(Text-To-Speech),简称TTS,简单理解就是“让机器说人话”。
语音合成用在哪里
别看语音合成技术近年来才被广泛应用,实际它已经有两百多年的历史了。
那么语音合成都在我们生活中的哪些地方出现过呢?我总结了三个方面:
第一个是APP,比如QQ阅读这样的读书应用,滴滴出行高德导航这种导航播报类的app;还有以siri为代表的语音助手,都是语音合成功能的常见载体;
另外一类是智能硬件产品,比如非常火的机器人领域,我们都希望机器人可以像真人一样和我们进行交流,所以合成功能基本就是他们的必备能力。
还有一些特殊领域也非常需要语音合成,比如视障阅读,对于视障人士来说,听书比摸书要高效得多。
语音合成里的技术门派
将语音合成技术门派按武侠风格可以划分为:气宗和剑宗。想当年气宗草创之初,创始人的想法很简单,人怎么发声的我就让机器怎么发声,基本就是山寨人体的思路。
但是有拨人认为,气宗这么搞没有前途,而且成效太慢,可操作性太差了,这拨人就是剑宗。剑宗表示,我们完全可以直接找人把语音里面所有的基础片段都录好,然后按照需要直接拼就行了。
技术门派之气宗
先来看看气宗具体是怎么玩的:他们用气囊代替肺,接根管子代替气管,管子末端再装个气门代替声带,气门后面再装个橡胶做的碗状结构来模拟口腔。
这套系统的操作非常简单,一只手掐住脖子就是气门,控制基频高低;另一只手操作口腔就是那个橡胶碗,控制发什么音;剩下的那个用来模拟肺的气囊就只能用脚来踩了。
基频又是什么呢? 让我们举个简单的例子,汉语普通话除轻声以外有四种声调,2声的基频就是前低后高,4声的前高后低,3声是先高后低再高。掐气门的手捏得越紧,声道越窄,振动的基频就越高。不过这当个发明爱好还可以,实际用起来肯定不靠谱。但是随着科学的发展,计算机技术开始出现,逐渐普及,给很多领域都带来了全新的变化,语音合成当然也不例外。
技术门派之剑宗
剑宗表示,我们完全可以直接找人把语音里面所有的基础片段都录好,按照需要直接拼就行了。这个基础片段可长可短,可以是音素,可以是音节,甚至是声韵母的拼音。这种方法对人的要求就简单多了,基本上会拼图就能操作,所以也比较速成。
但是在没有计算机的时代,大量单元的管理和拼接是很麻烦的工作,所以每个基础单元一般只保存了较少的样例供选择。那么在合成千变万化的句子的时候,语音的起承转合难免就有些生硬和突兀,拼出来的语音虽然能让人听懂,但很难做到自然流畅。
计算机出现后这个问题得到有效的解决,有了计算和存储能力更大的计算机,他们就可以进行超大规模音库的制作,包括语料设计、音库录制、精细切分、韵律标注;同时进行规则统计,以此来针对不同发音人进行细致调整。这样合成出来的音频音质比较好,一般句子的自然度也不错。
所以在此后很长一段时间,剑宗对气宗在合成音的音质上占据了绝对优势,气宗只在嵌入式的小系统上保留着一小块领地。这种状况直到后来气宗成功引入了在语音识别领域大放异彩的HMM(隐马尔科夫模型)才得到根本改善。
语音合成技术痛点是什么
从合成的发展历史来看,表现力、音质、复杂度和自然度一直是合成技术所追求的四点。其中随着技术的演进,复杂度、自然度、音质三个方面都已经取得了非常不错的成绩。目前各大技术提供商更多的是在研究如何提高合成音的表现力,特别是语气和情感方面。
一条音频是如何合成出来的
这里其实包括了两个过程,一个是语音库的制作过程,一个是使用语音库将文本变成音频的过程。语音库的制作首先需要收集客户的需求,确定音色、风格、使用领域、产品特性、角色要求;然后找到配音员试音,根据需求设计试音文本,收集录音,通过实验分析确定发音人是否合适做音库;然后和客户确认实验效果是否能接受;最后投入音库生产线,录音脚本设计、录音资源训练、效果优化。
然后看一下真正的合成过程:输入文本后首先需要按照词典规则对文本进行语言处理,主要模拟人对自然语言的理解过程,包括文本规整、词的切分、语法语义分析,使计算机对输入的文本能完全理解,并给出后续步骤所需要的各种发音提示。然后是韵律处理,就是为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。最后根据前两部分处理结果的要求输出语音,即合成语音。
语音合成优秀案例解析
QQ阅读演示视频
小程序:AI随身听 演示视频
讯飞开放平台的语音合成技术
讯飞开放平台目前以SDK的形式提供语音合成能力
目前提供支持8个平台的合成SDK,免费开放36个在线发音人,还有15个离线发音人可供购买使用,其中发音人xiaoyuan更是支持中英文混合合成。支持各种语言方言13种。另外对于有特殊要求的产品,我们还提供特色发音人的定制服务,例如很多小伙伴比较熟悉的高德地图林志玲的声音,还有之前PPT出现龙泉寺贤二的发音人。
-
计算机
+关注
关注
19文章
7511浏览量
88105 -
语音合成
+关注
关注
2文章
90浏览量
16172 -
大数据
+关注
关注
64文章
8894浏览量
137496
发布评论请先 登录
相关推荐
评论