0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于语音合成的类别以及应用分析

讯飞开放平台 来源:djl 作者:汪舰 2019-10-08 08:41 次阅读

语音合成又叫文语转换,是将文本转换成语音的一种技术,是人机交互中必不可少的一个环节。随着技术的发展,现在合成语音的自然度和音质都得到了明显的改善。汽车导航内嵌的语音系统、智能手机语音助手、读书软件等等,这些应用的实现都离不开语音合成。时下热门的AR、机器人、可穿戴设备等也为语音合成技术落地提供了更广阔的市场。

不过,当前语音合成技术还有很多痛点急需要解决,让机器拥有自然、有情感的声音,依旧是语音合成技术最大的难点。语音合成的现状是怎样?一个优质合成音是怎样诞生的?AI浪潮下,你可以如何玩转语音合成?AI公开课第一期,我们为你请到科大讯飞云平台技术服务专家——汪舰为你解答这些问题。

什么是语音合成

语音合成也叫文语转换(Text-To-Speech),简称TTS,简单理解就是“让机器说人话”。

语音合成用在哪里

别看语音合成技术近年来才被广泛应用,实际它已经有两百多年的历史了。

那么语音合成都在我们生活中的哪些地方出现过呢?我总结了三个方面:

第一个是APP,比如QQ阅读这样的读书应用,滴滴出行高德导航这种导航播报类的app;还有以siri为代表的语音助手,都是语音合成功能的常见载体;

另外一类是智能硬件产品,比如非常火的机器人领域,我们都希望机器人可以像真人一样和我们进行交流,所以合成功能基本就是他们的必备能力。

还有一些特殊领域也非常需要语音合成,比如视障阅读,对于视障人士来说,听书比摸书要高效得多。

语音合成里的技术门派

将语音合成技术门派按武侠风格可以划分为:气宗和剑宗。想当年气宗草创之初,创始人的想法很简单,人怎么发声的我就让机器怎么发声,基本就是山寨人体的思路。

但是有拨人认为,气宗这么搞没有前途,而且成效太慢,可操作性太差了,这拨人就是剑宗。剑宗表示,我们完全可以直接找人把语音里面所有的基础片段都录好,然后按照需要直接拼就行了。

技术门派之气宗

先来看看气宗具体是怎么玩的:他们用气囊代替肺,接根管子代替气管,管子末端再装个气门代替声带,气门后面再装个橡胶做的碗状结构来模拟口腔。

这套系统的操作非常简单,一只手掐住脖子就是气门,控制基频高低;另一只手操作口腔就是那个橡胶碗,控制发什么音;剩下的那个用来模拟肺的气囊就只能用脚来踩了。

基频又是什么呢? 让我们举个简单的例子,汉语普通话除轻声以外有四种声调,2声的基频就是前低后高,4声的前高后低,3声是先高后低再高。掐气门的手捏得越紧,声道越窄,振动的基频就越高。不过这当个发明爱好还可以,实际用起来肯定不靠谱。但是随着科学的发展,计算机技术开始出现,逐渐普及,给很多领域都带来了全新的变化,语音合成当然也不例外。

技术门派之剑宗

剑宗表示,我们完全可以直接找人把语音里面所有的基础片段都录好,按照需要直接拼就行了。这个基础片段可长可短,可以是音素,可以是音节,甚至是声韵母的拼音。这种方法对人的要求就简单多了,基本上会拼图就能操作,所以也比较速成。

但是在没有计算机的时代,大量单元的管理和拼接是很麻烦的工作,所以每个基础单元一般只保存了较少的样例供选择。那么在合成千变万化的句子的时候,语音的起承转合难免就有些生硬和突兀,拼出来的语音虽然能让人听懂,但很难做到自然流畅。

计算机出现后这个问题得到有效的解决,有了计算和存储能力更大的计算机,他们就可以进行超大规模音库的制作,包括语料设计、音库录制、精细切分、韵律标注;同时进行规则统计,以此来针对不同发音人进行细致调整。这样合成出来的音频音质比较好,一般句子的自然度也不错。

所以在此后很长一段时间,剑宗对气宗在合成音的音质上占据了绝对优势,气宗只在嵌入式的小系统上保留着一小块领地。这种状况直到后来气宗成功引入了在语音识别领域大放异彩的HMM(隐马尔科夫模型)才得到根本改善。

语音合成技术痛点是什么

从合成的发展历史来看,表现力、音质、复杂度和自然度一直是合成技术所追求的四点。其中随着技术的演进,复杂度、自然度、音质三个方面都已经取得了非常不错的成绩。目前各大技术提供商更多的是在研究如何提高合成音的表现力,特别是语气和情感方面。

一条音频是如何合成出来的

这里其实包括了两个过程,一个是语音库的制作过程,一个是使用语音库将文本变成音频的过程。语音库的制作首先需要收集客户的需求,确定音色、风格、使用领域、产品特性、角色要求;然后找到配音员试音,根据需求设计试音文本,收集录音,通过实验分析确定发音人是否合适做音库;然后和客户确认实验效果是否能接受;最后投入音库生产线,录音脚本设计、录音资源训练、效果优化。

然后看一下真正的合成过程:输入文本后首先需要按照词典规则对文本进行语言处理,主要模拟人对自然语言的理解过程,包括文本规整、词的切分、语法语义分析,使计算机对输入的文本能完全理解,并给出后续步骤所需要的各种发音提示。然后是韵律处理,就是为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。最后根据前两部分处理结果的要求输出语音,即合成语音。

语音合成优秀案例解析

QQ阅读演示视频

小程序:AI随身听 演示视频

讯飞开放平台的语音合成技术

讯飞开放平台目前以SDK的形式提供语音合成能力

目前提供支持8个平台的合成SDK,免费开放36个在线发音人,还有15个离线发音人可供购买使用,其中发音人xiaoyuan更是支持中英文混合合成。支持各种语言方言13种。另外对于有特殊要求的产品,我们还提供特色发音人的定制服务,例如很多小伙伴比较熟悉的高德地图林志玲的声音,还有之前PPT出现龙泉寺贤二的发音人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7277

    浏览量

    87499
  • 语音合成
    +关注

    关注

    2

    文章

    87

    浏览量

    16123
  • 大数据
    +关注

    关注

    64

    文章

    8829

    浏览量

    137126
收藏 人收藏

    评论

    相关推荐

    语音集成电路是指什么意思

    系统、智能家居等领域。以下是关于语音集成电路的介绍: 1. 语音集成电路的基本概念 语音集成电路是一种集成了多种语音处理功能的电子芯片。它能
    的头像 发表于 09-30 15:44 132次阅读

    语音集成电路有哪些特点

    各种应用中都非常有用,包括智能手机、智能音箱、汽车导航系统、医疗设备和安全系统等。 以下是关于语音集成电路特点的分析: 集成度高 :语音集成电路将多个功能集成在一个芯片上,这样可以减少
    的头像 发表于 09-30 15:43 191次阅读

    【解读】VTX316 TTS语音合成芯片几个很实用的应用技巧

      前言 VTX316是北京宇音天下科技有限公司最新推出的一款更具性价比的中文TTS语音合成芯片,采用QFN32(4*4mm)封装,体积更加精巧,文本合成一次高达500字节数据(250个汉字),支持
    的头像 发表于 05-13 16:33 349次阅读

    20多年专注语音合成芯片公司分享:TTS芯片端是如何达到100%精准合成

    我国汉字文化博大精深,虽然现在语音合成技术发展较为成熟,但仍无法做到100%的智能分析和识别,来满足人们的需求习惯。 例如汉字“一”,在不同语境下有3种读法,“一五一十”“一路平安”“一言为定
    的头像 发表于 05-06 15:45 473次阅读

    WT3000T8-TTS语音合成芯片及应用场景介绍

    TTS语音合成芯片是一种能够将文本信息转化为自然语音的专用芯片。它通过内置的语音合成算法和音频处理单元,实现了文本到
    的头像 发表于 04-18 18:03 753次阅读

    玩转语音合成芯片(TTS芯片),看这一篇就够了

    什么是语音合成芯片:语音合成芯片也称为TTS芯片,即文字转语音芯片,是一种能够将输入的文字信息转换为语音
    的头像 发表于 03-19 18:13 1190次阅读
    玩转<b class='flag-5'>语音</b><b class='flag-5'>合成</b>芯片(TTS芯片),看这一篇就够了

    语音合成技术在智能驾驶中的应用与挑战

    一、引言 随着智能驾驶技术的不断发展,人机交互变得越来越重要。语音合成技术作为人机交互的重要手段,在智能驾驶中发挥着越来越重要的作用。本文将探讨语音合成技术在智能驾驶中的应用,并
    的头像 发表于 02-02 10:34 346次阅读

    语音合成技术在智能驾驶中的创新与应用

    一、引言 随着智能驾驶技术的不断发展,人机交互变得越来越重要。语音合成技术作为人机交互的重要手段,在智能驾驶中发挥着越来越重要的作用。本文将探讨语音合成技术在智能驾驶中的创新与应用,并
    的头像 发表于 02-01 18:09 557次阅读

    语音合成技术在智能驾驶中的应用与展望

    体验。本文将探讨语音合成技术在智能驾驶中的应用、优势以及未来发展趋势。 二、语音合成技术在智能驾驶中的应用 导航与路线指引:通过
    的头像 发表于 02-01 17:50 449次阅读

    科大讯飞语音控制模块怎么用

    科大讯飞语音控制模块是一种人机交互技术,它利用语音识别和语音合成技术,使用户可以通过语音指令来控制设备或应用程序。本文将详细介绍科大讯飞
    的头像 发表于 12-25 13:58 1498次阅读

    语音数据集在智能语音助手中的应用与挑战

    语音合成模型。本文将详细介绍语音数据集在智能语音助手中的应用、面临的挑战以及未来的发展趋势。 二、语音
    的头像 发表于 12-14 15:07 680次阅读

    语音数据集在人工智能中的应用与挑战

    一、引言 随着人工智能技术的快速发展,语音数据集在各种应用中发挥着越来越重要的作用。语音数据集是AI语音技术的基石,对于语音识别、语音
    的头像 发表于 12-14 15:00 581次阅读

    科普语音芯片和语音合成芯片的不同之处

     可发声芯片分为语音芯片和语音合成芯片,二者在技术和用途上不同。语音合成芯片能将任意文字实时转换并朗读出来,支持所有中文文本
    的头像 发表于 10-31 15:42 505次阅读

    云知声基于语音合成技术,上线方言合成功能

    方言,不仅是地域风物的承载,更是人与故土联结的情感纽带。随着人们对智能语音需求的越来越多元化,更具乡土气息、更具情感联结的方言语音正成为智能语音合成的热门方向。
    的头像 发表于 10-31 09:45 819次阅读

    关于相位锁定环(PLL)频率合成器的设计和分析

    本篇文章是关于相位锁定环(PLL)频率合成器的设计和分析,重点讨论了相位噪声和频率噪声的测量、建模和仿真方法。文章以设计一个假想的PLL频率合成器为例,详细介绍了设计过程和步骤。从规格
    的头像 发表于 10-26 15:30 1457次阅读
    <b class='flag-5'>关于</b>相位锁定环(PLL)频率<b class='flag-5'>合成</b>器的设计和<b class='flag-5'>分析</b>