RealTalk系统利用文本输入生成逼近真人声音社会影响巨大-电子发烧友网

加拿大创业公司 Dessa 开发出一个语音合成系统 RealTalk，与以往基于语音输入学习人声的系统不同，它可以仅基于文本输入生成完美逼近真人的声音。不过，出于伦理、社会影响等方面的考虑，Dessa 并未公布该项目的研究细节、模型和数据集。

加拿大创业公司 Dessa 近日发布了一项新研究：利用其最新开发的 RealTalk 系统，仅利用文本输入即可生成完美逼近真人的声音。其 demo 中展示了美国著名脱口秀喜剧演员、主持人 Joe Rogan 的声音（Joe Rogan 就是那个让马斯克在节目中嗨了的主持人）。

所有音频均为机器学习模型使用文本输入生成的。音频中包括换气声、「um」「ah」等词语和噪声。

视频中，「Joe Rogan」用他一贯的语调和风格，谈论黑猩猩曲棍球队、快速说绕口令，甚至模拟了一段「Joe Rogan 被人工智能研究者困在机器中」的情境……

Joe Rogan 本人在听了模拟音频后表示：「it's terrifyingly accurate」。有 twitter 网友评论道「你应该和 AI Joe Rogan 来一次访谈，lol」……

Joe Rogan 发 ins 表示：「我的立场就是惊讶地耸肩摇头，然后接受它。未来越来越奇怪了，朋友们。」

复制 Rogan 声音这一项目是由 Dessa 公司机器学习工程师 Hashiam Kadhim、Joe Palermo 和 Rayhane Mama 组成的团队创造的，他们使用了一个文本转语音的深度学习系统 RealTalk，可以仅基于文本输入生成逼真的语音。

是不是很疯狂？Dessa 首席机器学习架构师 Alex Krizhevsky （是的没错，他就是 AlexNet 的发明者）认为这是「我所看到的人工智能领域最酷也最恐怖的事件之一。与理论上 40100 年后才会出现的奇点不同，语音合成已经成为现实。」也许大家和他的想法是一样的。

这意味着什么？会产生什么社会影响？

想想看，Dessa 的工程师用 AI 合法地创建了 Joe Rogan 声音的逼真复制品，多么不可思议。而且，该模型能够复制任何人的声音，只要能够获得足够的训练数据。

而作为构建现实世界应用的 AI 从业者，Dessa 也考虑到了这一点：这项技术会带来什么影响？

很明显，语音合成等技术的社会影响是巨大的。它会影响到每一个人：不管有钱没钱，不管是企业还是政府。

目前，要创建像 RealTalk 这样性能良好的模型需要技术知识、独创性、计算能力和数据。所以，不是任何人都可以实现它。但是在接下来的几年里（甚至更短的时间内），技术可能会发展到只需要几秒钟的音频就能复制出世界上任何人的声音。

这样就很恐怖了。

如果这种技术落入坏人之手，可能会发生下面的情况：

垃圾邮件发送者假冒你母亲或者爱人来获取你的个人信息；

以霸凌或骚扰为目的冒充别人；

冒充政府官员进入绝密区域；

利用政客的「audio deepfake」来操纵选举或引发社会暴动；

……

除了消极影响之外，Dessa 也考虑了这项技术的积极一面。

如果这项技术被正确利用的话，则：

和语音助手说话的时候感觉很自然，就像与朋友聊天一样。

可以定制语音应用程序，比如，健身 app 里鼓励大家锻炼的个性化话语来自阿诺·施瓦辛格。

为只能通过文本-语音设备进行交流的人提供了一种交流选项，比如患有卢·格里克病（渐冻人症，ALS）的人。

用任何语言为任意媒体文件自动配音。

正如牛津大学人类未来研究所在最近发布的一份报告《The Malicious Use of Artificial Intelligence》中所提到的那样：人工智能领域的进步不仅扩大了现有威胁，还带来了新的威胁。

如何从伦理方面考虑来构建这个技术，Dessa 还没有完全得出答案。但未来几年里，这项技术将不可避免地建立起来并应用到现实世界中。因此，除了提高意识和承认问题以外，Dessa 表示希望这项研究能够开启关于语音合成技术的对话和讨论。

每个人都应该知道，随着语音合成技术的发展，可能会发生什么样的情况。正如 Deepfake 技术出现时我们看到的那样，公众意识和对话促使政府、政策制定者、立法者迅速采取行动并制定对策。

Dessa 在相关博客中表示：作为应用人工智能公司，Dessa 的一个重要责任是，了解在研究领域探索 AI 和在现实中应用 AI 有着巨大的差别。为了负责任地对待这种技术，他们认为在开源该项目之前，应该让公众首先意识到语音合成模型的影响。

也因此，Dessa 目前没有公开研究细节、模型或数据集。

Dessa 表示后续将发布博客，介绍 RealTalk 的工作原理和构建过程。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30887

浏览量
269065
机器学习

机器学习

+关注

关注
66

文章
8418

浏览量
132628
语音合成技术

语音合成技术

+关注

关注
0

文章
8

浏览量
2487

原文标题：语音版deepfake出现：从文本到逼真人声，被模仿者高呼真得可怕

文章出处：【微信号：smartman163，微信公众号：网易智能】欢迎添加关注！文章转载请注明出处。

检索增强型生成(RAG)系统详解

流畅且类似人类的文本方面表现出色，但它们有时在事实准确性上存在困难。当准确性非常重要时，这可能是一个巨大的问题。那么，这个问题的解决方案是什么呢？答案是检索增强型生成（RAG）系统。

发表于 12-24 10:44 •180次阅读

检索增强型<b class='flag-5'>生成</b>(RAG)<b class='flag-5'>系统</b>详解

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA 开发了一个全新的生成式 AI 模型。利用输入的文本和音频，该模型可以创作出包含任意的音乐、人声和

发表于 11-27 11:29 •353次阅读

如何使用 Llama 3 进行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）进行文本生成，可以通过以下几种方式实现，取决于你是否愿意在本地运行模型或者使用现成的API

发表于 10-27 14:21 •388次阅读

AIGC生成内容的优势与挑战

人工智能生成内容（AIGC，Artificial Intelligence Generated Content）是指利用人工智能技术自动生成文本、图像、音频和视频等内容的过程。随着深度学习、自然语言

发表于 10-25 15:36 •502次阅读

AIGC与传统内容生成的区别

AIGC ：主要面向非结构化数据的生成，如自然语言文本、图像、音频、视频等。这类数据规模更大，内在结构更复杂，对处理技术提出了更高要求。传统内容生成：主要处理结构化数据，如数据库中的

发表于 10-25 15:13 •407次阅读

AI大模型的伦理与社会影响

AI大模型的伦理与社会影响是一个复杂且多维度的话题，以下是对其伦理与社会影响的分析：一、伦理挑战数据隐私与安全性 AI大模型学习通常依赖于大量的个人数据。在收集、处理和使用这些数据时，必须确保

发表于 10-23 15:13 •478次阅读

逼近型模数转换器特点和应用

通过逐步逼近输入信号的数值来获得逼近的数字输出。这种转换器以其低功耗、高精度和准确度高等优点，在传感器测量、音频信号采样、通信系统等多种应用中得到了广泛应用。以下是对逐次

发表于 07-22 17:00 •639次阅读

如何学习智能家居？8：Text文本实体使用方法

内容到设备当中。可以理解成一个文本输入框，我们可以输入任意文字，然后发给设备。也可以利用自动化，更新文本，例如

发表于 07-15 14:06 •1583次阅读

如何学习智能家居？8：Text<b class='flag-5'>文本</b>实体使用方法

主动降噪与声音生成技术在当代电动汽车中的创新应用

MdynamiX与慕尼黑应用科技大学合作，开发了一项革命性的技术，通过利用现有的电动机实现主动降噪（ANC）和主动声音生成（ASG），从而为汽车制造商提供了一种高效且经济的解决方案。

发表于 07-05 14:46 •1802次阅读

主动降噪与<b class='flag-5'>声音</b><b class='flag-5'>生成</b>技术在当代电动汽车中的创新应用

生成式AI的基本原理和应用领域

生成式人工智能（Generative Artificial Intelligence，简称Generative AI）是一种利用机器学习算法和深度学习技术，通过模拟人类的创造性思维过程，生成具有高度

发表于 07-04 11:50 •1473次阅读

将为人们生活带来深刻影响的5大生成式AI用例

从ChatGPT推出以来，全世界都为AI的巨大潜力而着迷。ChatGPT开启了生成式AI时代，生成式AI利用基于大量数据训练的模型，可根据简单文本

发表于 03-07 11:38 •922次阅读

探索OpenAI Sora视频AI生成技术及其应用如何使用指南

的应用范围从娱乐和教育到营销和内容创作等各个领域都有巨大潜力。 Sora视频AI的介绍 Sora视频AI是一种先进的人工智能工具，它利用深度学习算法根据用户提供的文本描述生成视频。这意

发表于 02-20 12:01 •1440次阅读

谷歌发布Lumiere人工智能文本视频生成器

随着近年来AI应用的不断普及和改进，自动文本创作系统如ChatGPT已经被广泛接受，成为聊天窗口中的常客。类似地，文本到图画生成工具让人们得以绘制出超现实的视觉效果。然而，谷歌此次推出

发表于 01-31 16:45 •857次阅读

模数转换器：并行比较型和逐次逼近型

逐次逼近型模数转换器（Successive Approximation Converter）是一种常用的模数转换器转换方式。它通过逐步逼近输入信号的数值来获得逼近的数字输出。

发表于 01-23 15:58 •2668次阅读

labview声音采集与处理

，LabVIEW提供了丰富的声音采集工具。用户可以通过声卡或其他外部设备将声音信号输入电脑。LabVIEW支持多种声音输入接口，包括麦克风、

发表于 01-04 10:48 •2381次阅读

搜索历史

RealTalk系统利用文本输入生成逼近真人声音 社会影响巨大

评论

RealTalk系统利用文本输入生成逼近真人声音社会影响巨大