0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

妥妥媲美真人!火山语音发布超自然对话语音合成技术

话说科技 来源:话说科技 作者:话说科技 2022-09-16 10:32 次阅读

近期,网上就出现了这样一段由两位女声组合而成的音频片段。在音频中,两位女生追忆了自己当年第一次听到周杰伦的心情,还对周董的音乐风格进行了解读,两人一问一答,时长长达近3分钟。

可是,当大家听着这段音频节目,也沉浸在对那时青葱岁月的美好追忆时,你可曾想到,这段对话,竟然是语音合成的!

提到“语音合成”,你脑海中可能会出现这样的种种:

·导航中种类丰富但语气机械的“前方路口左转”

·接电话时,对面笨拙无感情的“您好,这里是xx信用卡中心

·视频网站上,十个解说视频九个声音相同,看到就想赶快划走的“注意看,这个男人叫小帅”…...

而如今,语音合成技术竟然已经能达到“天衣无缝”的完美自然效果,就好像真人在对话一样,直接颠覆了许多人的刻板印象。而这段音频的发布者火山语音,字节跳动 AI Lab Speech & Audio 智能语音与音频团队,为了更好地向大众解密里面的技术亮点,又提供了两段音频——一段,是传统的语音合成技术效果,另一段,却来自火山语音的全新技术。两段音频输入的文本完全相同—— “南方菜系偏爱蘸料,例如我第一次去上海才知道烧烤里的蔬菜也需要配蘸料” ,但听上去,合成的音频效果却有明显差异,第二段来源于火山语音团队的音频,用上了本次上新的超自然对话语音合成技术,格外自然,几乎与真人无异。

回想一下人在日常表达时的状态,大脑处理信息是需要思考时间的。体现到语言上,人就会不由自主的出现一些犹豫、拖音、倒装,甚至是说了一半改口、结巴重复的情况,也会刻意加重读音强调想表达的重点信息。这就带来了大量难以观测的细微表达。这些现象在传统的TTS中难以被捕捉还原。而这些细微之处的完美复现正是让声音真假难辨的奥妙之源,也是上述音频的奥秘所在。

具体来说,火山语音团队最新发布的超自然对话语音合成技术相较传统TTS更加真实自然,即语气词、吸气声、犹豫时的停顿以及字音拖长等细节统统被完美复现,而且只需常规音库1/4数据,就可完美还原真人说话细微的韵律特点、发音口癖,让合成效果更加真实。有专业评测结果显示,火山语音的这项新技术与真人录音对比基本没有差距,难以被评测者分辨出来。此外这项技术目前已在视频配音、电话客服等多个场景投入应用,近日即将上线火山引擎语音技术官网对外露出。

这么厉害的技术,究竟是怎么办到的?

据介绍,上述这些在实际交流中经常出现的倒吸气、吞音、思考时不由自主的拖长字音、低笑等表现被称为副语言现象(paralanguage),尽管这是人脑思考、表达过程中最真实的表现,但由于传统的语音合成技术框架无法对分布稀疏的副语言现象进行有效建模,所以在说话时的韵律还原度表现有限、过于“正确”。

基于上述难点,火山语音超自然语音合成技术分别从文本和语音建模两个层面进行突破,具体来说:

·在文本层面,火山语音采用了生成式的风格迁移模型,模仿真人说话的方式对文本进行可控的口语化转写,让文本更好地拥抱口语化,避免最终效果太过书面。

·在语音层面,团队则是通过文本分析模型的突破,在TTS的输入侧额外增加了副语言预测,模仿真人的发音特点来实现自然自发的语音效果。

值得一提的是,团队通过使用无监督特征的TTS建模方案,有效提高了模型的稳定性与表现力,仅仅使用常规音库1/4的数据规模,就可以实现十分自然多变的韵律效果,很赞吧?

article-body

致力文本口语化 让“拟真人表达”跃然纸上

文本作为语音合成技术的输入,其风格是否贴近真人的表达方式,是合成效果提升的第一步;但受限于根深蒂固的书写用语习惯,大多数合成前的文本并不够自然,或者需要投入大量精力不断调整,费时费力。为了解决此类问题,火山语音团队采用了两阶段方案并取得了不错的效果:

·阶段一:采用自监督方法,使用伪数据对口语化模型进行预训练,降低了数据量的需求;同时在模型中引入了指针网络结构,增强了文本可控性。

·阶段二:利用少量优质的人工标注数据,对预训练好的口语化模型进行微调,最终实现可控的、自然的口语化文本效果。

article-body

为了更好地还原真人,区别于传统的语音合成技术,火山语音在副语言建模和韵律多样性上也分别进行了深入研究。在副语言建模方面,团队推出的合成技术实现了声学模型对自然表达中出现的吸气、笑声、犹豫、修正等多种副语言现象建模,并且结合文本的语义信息自动插入副语言现象。在插入过程中同时考虑合理性与随机性,表现更加自然真实。

副语言建模+韵律多样性可圈可点 语音真实感全面升级

“在韵律多样化的探究中,我们结合无监督表征学习技术,自主研发了高表现力的声学模型框架,通过发音、韵律、音色解耦等方式,不但降低了数据量的需求,实现对出现频率极低发音现象的高效建模;同时使用无监督表征特征并结合音素级别的基频、能量信息等,实现了韵律的自然多变,促成高质量对话语音生成。”火山语音团队总结道。

article-body

火山语音,字节跳动AI Lab Speech&Audio智能语音与音频团队,长期以来面向抖音、剪映、番茄小说、飞书等业务提供领先的AI语音技术能力及全栈语音产品解决方案,并通过火山引擎向外部企业开放技术服务。(作者:张扬)

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏

    评论

    相关推荐

    OpenAI发布ChatGPT高级语音版,付费订阅并设对话时长限制

    ChatGPT已迈入语音交互的新纪元,为付费用户解锁了高级语音功能,旨在让对话体验更加自然流畅。OpenAI在本周二宣布了这一消息,标志着其持续推动
    的头像 发表于 09-27 15:34 885次阅读

    字节跳动豆包大模型已支持实时语音通话

    字节跳动火山引擎今日隆重推出创新对话式AI实时交互解决方案,该方案以火山方舟大模型服务平台为核心,全面升级语音交互体验。该方案深度融合火山
    的头像 发表于 08-12 16:13 680次阅读

    智能语音交互技术如何助力设备实现人机自然对话

    随着现代人工智能在各行业的普及,智能语音交互技术也越来越多的在日常工作、生活中应用,智能语音交互的出现不仅仅大量节省了人工的工作时间提高了工作效率,为人们工作生活带来便利的同时,也改变着人类学习、生活、娱乐、工作和出行的方式。
    的头像 发表于 05-23 15:16 664次阅读
    智能<b class='flag-5'>语音</b>交互<b class='flag-5'>技术</b>如何助力设备实现人机<b class='flag-5'>自然</b><b class='flag-5'>对话</b>

    智能语音交互技术如何助力设备实现人机自然对话

    智能语音交互技术是指通过语音识别、语音合成自然语言理解等
    的头像 发表于 05-23 15:14 349次阅读

    WT3000T8-TTS语音合成芯片及应用场景介绍

    TTS语音合成芯片是一种能够将文本信息转化为自然语音的专用芯片。它通过内置的语音合成算法和音频处
    的头像 发表于 04-18 18:03 806次阅读

    玩转语音合成芯片(TTS芯片),看这一篇就够了

    什么是语音合成芯片:语音合成芯片也称为TTS芯片,即文字转语音芯片,是一种能够将输入的文字信息转换为语音
    的头像 发表于 03-19 18:13 1277次阅读
    玩转<b class='flag-5'>语音</b><b class='flag-5'>合成</b>芯片(TTS芯片),看这一篇就够了

    语音合成技术在智能驾驶中的应用与挑战

    。 二、语音合成技术在智能驾驶中的应用 导航与路线指引:语音合成技术为驾驶员提供了清晰、
    的头像 发表于 02-02 10:34 378次阅读

    语音合成技术在智能驾驶中的创新与应用

    的发展趋势。 二、语音合成技术的创新 语音质量的提升:随着深度学习等技术的不断发展,语音
    的头像 发表于 02-01 18:09 593次阅读

    语音合成技术在智能驾驶中的应用与展望

    一、引言 随着科技的飞速发展,语音合成技术逐渐成为人机交互领域的重要分支。在智能驾驶环境中,语音合成技术
    的头像 发表于 02-01 17:50 482次阅读

    语音数据集:智能语音技术的燃料与推动力

    语音数据集在智能语音技术的发展中扮演着至关重要的角色。它们是训练语音识别、语音合成等模型的基础
    的头像 发表于 12-29 11:11 370次阅读

    语音数据集:开启智能语音技术的新篇章

    随着人工智能技术的飞速发展,语音数据集在推动智能语音技术的进步中发挥着越来越重要的作用。语音数据集是训练和优化
    的头像 发表于 12-29 11:06 602次阅读

    语音数据集:智能语音技术的基石与挑战

    随着人工智能技术的飞速发展,语音技术已成为人机交互领域的重要突破口。语音数据集作为支撑语音技术
    的头像 发表于 12-28 11:28 676次阅读

    语音数据集:AI语音技术的灵魂

    一、引言 在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据集则是AI语音技术的灵魂。本文将深入探讨
    的头像 发表于 12-14 14:33 954次阅读

    离线语音自然说”让风扇更智能

    离线语音自然说”技术是一种先进的语音识别技术,它能够在没有网络连接的情况下识别用户的语音指令,
    的头像 发表于 11-27 10:48 658次阅读
    离线<b class='flag-5'>语音</b>“<b class='flag-5'>自然</b>说”让风扇更智能

    离线语音识别“自然说”——轻生活科技引领智能语音新时代

    离线语音识别“自然说”的最大特点在于其无需联网、无需APP即可实现语音控制。相较于传统的语音识别技术,这一创新真正做到了“离线”,让用户不再
    的头像 发表于 11-24 10:48 468次阅读
    离线<b class='flag-5'>语音</b>识别“<b class='flag-5'>自然</b>说”——轻生活科技引领智能<b class='flag-5'>语音</b>新时代