0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

那段记忆中的声音:单式评书再现江湖背后的AI技术

脑极体 来源:脑极体 作者:脑极体 2021-09-20 19:28 次阅读

“听众朋友们,你们好。从今儿个,由我为大家播讲悬疑小说,《江湖消亡史:北平暗夜》。这个故事发生在民国十几年的北京城里……”情感充沛的评书腔调,苍劲沙哑的嗓音,单田芳大师的“声音”再次响起,热爱评书的朋友一听恍若隔世,已故的单老评书怎么突然回来了?

三年前,无数人感慨世上再无“下回分解”,网友们的呼唤被听见了,为致敬单老,也为给遍布大江南北的书迷朋友们一个惊喜,喜马拉雅运用AI技术让“书接上回”重现江湖。

b2b7740adf3d4a78ba81bc2bec755073?from=pc

耳熟能详单老的“下回分解”故事重新回归,这段记忆中的声音背后,是来自于喜马拉雅的语音合成(TTS: Text-to-speech)技术,即将文字转化为声音,喜马拉雅的技术团队还将单田芳先生的AI合成音应用于六部风格各异的书籍,用单式评书腔调,全新演绎听众耳熟能详的经典之作。

语音AI让单老声音重焕新生

不熟悉评书的朋友们可能不知道单老的魅力。在北方的出租车上,遇到司机在播放单老的评书概率还是蛮高的,而在喜马拉雅的评书类目中,单老的专辑评书节目长期在热播榜前列。例如,《乱世枭雄》在喜马拉雅的播放量近24亿,《白眉大侠》播放量近20亿。在民间也有个说法:“凡有井水处,皆听单田芳。”喜爱他的书迷遍布大江南北,故事中的魅力经过单老情感充沛的演绎极富有味道。

6a0ab44219f24454bf240d023ade3ef1?from=pc

打开喜马拉雅,在《单田芳声音 AI 重现系列》专辑中,既有直击泪点、奇人异事道尽人生悲欢的武侠小说——赵晨光的《江湖消亡史:北平暗夜》,也有传达时代脉动的纪实文学——陈廷一的《毛氏三兄弟:三兄弟与共和国奠基》,还有时下流行、故事情节曲折奇特的推理小说——紫金陈的《无证之罪》,更有延续单老生前未完成的评书经典——宫白羽的《十二金钱镖》……

这些经典之作让评书爱好者像过年一般。大家想念单式评书中的故事与人生,人物的百转千回与侠义洒脱。单老的声音与跌宕起伏的故事加起来就等于完美,让人立马沉浸在故事的世界中。很多书评爱好者都留言表示:怎么没有早点用AI技术啊,让人痴痴等了好几年。幸运的是,有人在为传统艺术默默出力,完美复现单老声音的背后,是来自于喜马拉雅智能语音实验室团队的AI技术。

据喜马拉雅智能语音实验室卢恒博士的介绍,喜马拉雅智能语音实验室运用TTS 技术,融入团队自主设计的韵律提取模块以及专门的口音模块,才得以实现原汁原味的单老独特声线。

TTS技术早已在喜马拉雅电子书、新闻等领域实现了广泛的应用,能够高效地将新闻、书籍和文章中的大量文字信息转为音频,大幅提升了音频的生产效率。但是主流的TTS 框架模型是对音频内容直接进行提取和合成,最终成型的内容效果整体上来说人的那部分情感和情绪都显得很寡淡。而在评书这个场景中,韵律的起伏非常大,正是因为韵律的变化才使得评书引人入胜,平淡的情绪和腔调带来的后果就非常致命了,而这也是TTS技术中的难点。

喜马拉雅智能语音实验室自主设计的韵律提取模块,无论单田芳先生评书中的韵律多么丰富和多变,都能提取并完全复刻出来,这才让单老的AI合成音仿佛本尊再现。

另外,评书中有很多特殊口音,比如口语化的评书中,“这个”中的“这”字,普通话发音“zhè”,但在评书中通常读为“zhèi”,跟普通话的发音有很大的区别。为此,喜马拉雅团队专门做了特殊重音和停顿的标注,才使单老AI合成音能够还原出老味道。

除了高度还原单老的声音外,在新的专辑中,也加入了高级音效设计师的配乐与音效,让听众通过耳朵就能获得身临其境的沉浸式体验,评书中的世界立马变得立体和生动起来。

通过这些弯弯折折,单式评书才得以重见天日。

天生相互吸引:内容与AI语音技术的邂逅

我们听到的原汁原味的单老“声音”,其完美复现并非偶然,而这也只是喜马拉雅TTS技术的冰山一角。喜马拉雅已在智能语音技术上深耕多年,尤其是在TTS领域方面潜心钻研多年。

目前TTS在业界的发展十分迅速,国内布局TTS赛道的有一线大厂,比如阿里拥有的语音合成技术KAN-TTS,腾讯云在语音合成方面也有技术研发。国外像DeepMind创建的语音合成器WaveNet,让语音合成的音质有了大幅的提升。2016年,谷歌DeepMind推出了用于生成原始音频波形的深层神经网络模型—“WaveNet”,并在一年多的时间内将原始模型的效率提高了1000倍,而在一组美式英语的人类听众测试中,WaveNet的得分超过了真实人类语音。

喜马拉雅语音技术团队也已经研发出自己的声码器“PhaseGAN”,这种基于生成对抗网络的声码器甚至有着比WaveNet 更高的生产效率。

587bdc810f534773b0411cc83e6f293c?from=pc

喜马拉雅TTS技术的核心,就在于如何让机器的声音听上去韵律自然、情感充沛。说白了,就是如何在机器声音中注入人性。拿有声小说这个场景来说,用TTS音色演绎有声小说需要学习小说中的抑扬顿挫、情感表达、上下文关系,区分旁白和对白等,将作品像真人一般呈现出来很困难。

而喜马拉雅的TTS模型系统有着独特的基因优势:

1.内容数据丰富,区别于一线厂商的数据来源,喜马拉雅在音频赛道多年耕耘,已积累海量的内容,包含大量的有声书内容与众多的主播,基于这些庞大的语音素材库,喜马拉雅有强劲的模型迭代语料和更大的发挥空间。

2.数据是模型迭代的燃料基础,在此之上,喜马拉雅也有厚重的研发实力。在语音合成、语音识别、智能音效、语音编解码、语音信号处理和虚拟主播等技术上,喜马拉雅都进行了深度研发,自研的TTS前端文本处理分析模块,可高精度、全自动地对文本进行多音字识别、韵律预测和风格分类,可以演绎不同情绪文字,还能自动区分旁白、对白,并支持英文,丰富了TTS能表达的情感和韵律。

3.专利效能,现下喜马拉雅已申请了三项TTS语音合成相关专利,一是在没有任何英文原始数据的TTS声音就能够实现说英文的技术框架,让不会说英文的人也能流利地讲英文。另外,喜马拉雅还采用并行解码器,生成语音合成序列,改进了语音合成后端模型的结构和效率。

我们可以发现TTS技术的独特优势可以丰富内容的生产迭代,不仅将提高内容生产效率,也让更多不同内容的生产成为可能。在喜马拉雅当下主要的PGC、UGC、PUGC三大内容生产模式之外,AI语音技术的更新迭代让第四种新内容生产模式——AIGC成为可能,并展现出更大的想象空间。

喜马拉雅的内容生态经过多年的积累、更新,内容精良并且IP丰富。丰富的IP与技术的结合将可能碰撞出更加多元的火花,让听众听到以往所难以甚至不可能听到的内容。把脑洞开得大一些,在AI语音的赋能下,未来我们是否可能听到各种内容IP和不同声音IP的组合?比如,孙俪“声音”演播的《甄嬛传》,孙红雷“声音”演播的《扫黑风暴》,甚至,张艺兴版的评书,易烊千玺版的童话故事等内容。这些逼真自然的声音和不同内容相结合,在各类题材和频道中出现,将会给听众带来很多惊喜。只有你想不到,没有AI做不到。

技术与内容的双向赋能如同两个啮合完美的齿轮一般,驱动着喜马拉雅内容和产品的更新迭代。从数据上来看,用户用脚投票,喜马拉雅的月活跑在了行业前列。据喜马拉雅招股书内容显示,截至上半年,移动端总收听时长和在线音频总收入来看,喜马拉雅是中国最大在线音频平台,平均MAU达2.62亿,其中包括1.1亿移动端用户和1.51亿的物联网及其他开放平台的用户。移动端用户共花费8478亿分钟收听喜马拉雅音频内容,占中国在线音频总收听时长的70.9%。

在双飞轮驱动的模式下,喜马拉雅内容和技术都在向前向深飞驰,给我们用户带来了更加丰富的内容与体验。剖析音频行业这个并不为大众熟知的赛道,可以透视到是什么决定了机器如何说话,决定了用户耳朵的体验与舒适度,也可以看到头部的企业带来了哪些经验,如何撬开智能语音的富矿。

“声”写未来

给大家一个数据感受下音频市场的增长势态。据悉,2020年中国在线音频用户数量已经有6.4亿人,其中超六成用户表示曾经购买过在线音频服务,预计2022年将达到6.9亿人。没想到吧,大家的付费意愿竟然这么强势。平时勤俭节约的大家,在丰富精神世界方面,却舍得愿意为大脑和心灵投资。

在音频市场的快速增长下,围绕“耳朵经济”的竞争日趋激烈,除喜马拉雅、荔枝、蜻蜓FM等老牌平台之外,腾讯、字节跳动等互联网巨头以及中央广播电视总台这样的“国家队”也纷纷进入这一赛道。各大平台内容类型的丰裕程度与是否具有差异化的优质内容是吸引用户以及撬动用户付费的关键。

c7344389958c4ebeb0b2fc09d59d9ae2?from=pc

可以预见的是,在语音技术加成下,TTS技术制作的高效高质音频内容会进一步赋能优质内容的生产,喜马拉雅的内容生态“PGC、UGC、PUGC”也将因为新成员AIGC的加入,在内容创造方面,带给用户更多的听觉盛宴。

喜马拉雅的AI技术与内容互相磁吸,螺旋缠绕不断向前向深发展, AI技术为喜马拉雅的内容生态加码,而内容反哺技术不断精进。技术与内容的全面融合也撬开了未来的智能语音合成市场富矿:

1.对传统文化的传承,丰富和传承评书这类非物质文化遗产,影响越来越多的传统文化爱好者和青年演员去参与其中,创造更丰富的文化遗产。

2.对平台的创作者来说,提升效率和内容的质量,让创作者不再陷入音频制作的重复性工作中,在多种内容的制作方面TTS都可以赋能创作者的转型升级。

3.AI技术及大数据分析能力让内容创作、分发和运营更加精准化,随着音频内容逐渐规模化,以及技术的迭代更新,AI对于内容的全生命流程参与程度也越来越高,从而让音频内容呈现更丰富更智能化的趋势。

移动互联网的快速发展下,有声读物成为我们随身携带的“避难所”。在这些声音里面,我们疗愈自己,经历他人的跌宕生活,感受故事中的喜怒哀乐和人生百态。无论是内容的量与质,还是技术的深度研发,喜马拉雅牵引着行业不断进步,激发更多的厂商去深耕音频行业,迭代创新能力。而这也意味着,我们这些喜爱有声读物的用户会拥有更丰富的眼界与精神世界。

声音不仅仅只是一个简单的沟通工具,里面包含了丰富的知识智慧、故事情感,它让流淌的时间更有意义,让我们的精神生活更加丰盛。而技术正不断丰富着声音的世界,为我们的耳朵带给我们越来越多元、丰富的体验。

fqj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    29

    文章

    2880

    浏览量

    81587
  • ai技术
    +关注

    关注

    1

    文章

    1279

    浏览量

    24331
收藏 人收藏

    评论

    相关推荐

    NVIDIA推出全新生成AI模型Fugatto

    NVIDIA 开发了一个全新的生成 AI 模型。利用输入的文本和音频,该模型可以创作出包含任意的音乐、人声和声音组合的作品。
    的头像 发表于 11-27 11:29 361次阅读

    生成AI手机如何借力MediaTek天玑平台引领智能新纪元

    能力和智能的生成AI功能,为用户带来了更为个性化、高效的使用体验。那么,生产AI手机究竟是什么呢?它的背后又有哪些
    的头像 发表于 11-08 09:53 422次阅读

    生成AI工具作用

    生成AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此,petacloud.ai小编为您整理生成
    的头像 发表于 10-28 11:19 245次阅读

    ChatGPT背后AI背景、技术门道和商业应用

    作者:京东科技 李俊兵 各位看官好,我是球神(江湖代号)。 自去年11月30日ChatGPT问世以来,迅速爆火出圈。 起初我依然以为这是和当年Transformer, Bert一样的“热点”模型
    的头像 发表于 10-18 15:42 2033次阅读
    ChatGPT<b class='flag-5'>背后</b>的<b class='flag-5'>AI</b>背景、<b class='flag-5'>技术</b>门道和商业应用

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    for Science的技术支撑”的学习心得,可以从以下几个方面进行归纳和总结: 1. 技术基础的深入理解 在阅读第二章的过程,我对于AI for Science所需的
    发表于 10-14 09:16

    应力记忆技术介绍

    应力记忆技术(Stress Memorization Technique, SMT),是一种利用覆盖层Si3N4轴张应力提高90nm 及以下工艺制程 NMOS速度的应变硅
    的头像 发表于 07-29 10:44 1596次阅读
    应力<b class='flag-5'>记忆</b><b class='flag-5'>技术</b>介绍

    芯原AI技术研讨会:引领嵌入AI新潮流

    在2024年上海国际嵌入展的热烈氛围,芯原股份以其前瞻性的技术视角和丰富的产品线布局,吸引了众多业界目光。此次展会期间,芯原股份举办了一场以“从云到端,AI触手可及”为主题的
    的头像 发表于 06-15 14:53 762次阅读

    联想携手京东,紧扣大模型和生成AI技术

    联想与京东携手,紧扣大模型和生成AI技术带来的产业机遇,在多个领域展开深入合作。
    的头像 发表于 04-12 10:27 642次阅读

    AMD Versal SoC刷新边缘AI性能,芯片方案驱动嵌入系统

    与后处理集成于器件,能够为 AI 驱动型嵌入系统提供端到端加速。 AI驱动型嵌入系统的三
    的头像 发表于 04-11 09:06 3741次阅读
    AMD Versal SoC刷新边缘<b class='flag-5'>AI</b>性能,<b class='flag-5'>单</b>芯片方案驱动嵌入<b class='flag-5'>式</b>系统

    AMD Versal SoC全新升级边缘AI性能,芯片方案驱动嵌入系统

    与后处理集成于器件,能够为 AI 驱动型嵌入系统提供端到端加速。   AI驱动型嵌入系统
    的头像 发表于 04-09 21:32 1090次阅读
    AMD Versal SoC全新升级边缘<b class='flag-5'>AI</b>性能,<b class='flag-5'>单</b>芯片方案驱动嵌入<b class='flag-5'>式</b>系统

    微软与OpenAI联手打造声音识别AI技术专利

    这款创新的系统旨在通过辨别环境音响,为使用者提供潜在风险预警,对于公共安全及灾害预控领域具有不可估量的价值。它的关键技术在于对声音信号的深度分析与处理。
    的头像 发表于 04-09 15:55 332次阅读

    计算全息再现质量提升技术的研究

    在军事、医疗、商业以及其他领域有着广泛的应用。 计算全息显示技术发展至今仍存在着再现像质量差、计算速度慢与全息再现像的尺寸小和视区窄等关键性问题,其中,散斑噪声作为计算全息显示的固有问题而制约着其进一步发展
    的头像 发表于 03-28 10:58 598次阅读
    计算全息<b class='flag-5'>再现</b>质量提升<b class='flag-5'>技术</b>的研究

    什么电路具有记忆功能 时序电路是不含有记忆功能的器件对吗

    什么电路具有记忆功能 时序电路是不含有记忆功能的器件对吗 什么电路具有记忆功能? 电路的记忆功能是指其能够存储和保持之前输入的信息并在需要时进行检索和使用的能力。在现代电路设计
    的头像 发表于 03-26 16:12 2668次阅读

    NanoEdge AI技术原理、应用场景及优势

    NanoEdge AI 是一种基于边缘计算的人工智能技术,旨在将人工智能算法应用于物联网(IoT)设备和传感器。这种技术的核心思想是将数据处理和分析从云端转移到设备本身,从而减少数据传输延迟、降低
    发表于 03-12 08:09

    蓝牙定位技术AI的应用

    在当今的科技领域,人工智能(AI)已经成为了推动各个行业发展的关键因素。而蓝牙定位技术作为一种无线通信技术,也在AI领域中得到了广泛的应用。本文将探讨蓝牙定位
    的头像 发表于 03-02 14:51 824次阅读
    蓝牙定位<b class='flag-5'>技术</b>在<b class='flag-5'>AI</b><b class='flag-5'>中</b>的应用