0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI算法5秒钟就能克隆你的声音

Linux爱好者 来源:Jack Cui 作者:Jack Cui 2021-11-17 10:05 次阅读

今天,给大家介绍一个算法

AI 算法 5 秒钟,就能克隆你的声音,你信吗?

听听这段音频,猜猜看是 AI 合成音,还是真人录音?

答案是:AI 合成。

这个人的原始声音在这里:

你给这个 AI 克隆声音的算法打几分?

录制一段音频,就可以根据输入的文字,5s 即可自动生成对应的合成音。

突然有个大胆的想法,你说女朋友要是哪天突然不承认自己说过了某句话,我就给她造一份!

兄弟们,我做的对吗?

MockingBird这个算法是基于比较著名的 Real Time Voice Cloning 实现的。

MockingBird 是最近开源的中文版。

论文的名字是:

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

简单介绍下:

算法分为三个模块:encoder模块、systhesis模块、vocoder模块。

encoder模块将说话人的声音转换成人声的数字编码(speaker embedding)

synthesis 模块将文本转换成梅尔频谱(mel-spectrogram

vocoder模块将梅尔频谱(mel-spectrogram)转换成(波形)waveform

具体的算法原理,大家可以先看论文:

https://arxiv.org/pdf/1806.04558.pdf

今天主要聊聊,这个算法怎么玩。

项目地址:https://github.com/babysor/MockingBird

深度学习基础的话,这个应该不难。

就是部署环境,分四步:

Anaconda 配置 Pytorch 开发环境

根据项目 requirements.txt 安装第三方库依赖

下载权重文件

下载训练集,这个几十G,有点大

具体的配置方法,直接看这里:

https://github.com/babysor/MockingBird/blob/main/README-CN.md

环境搭建搞定后,就可以运行代码了。

有两种模式可以启动,Web 模式和工具箱模式。

在项目根目录运行:

python web.py

即可开启 Web ,打开地址 http://localhost:8080 就能操作了。

这个界面比较简陋,建议使用工具箱模式。

python demo_toolbox.py -d 《datasets_root》

datasets_root就是下载好的数据集的地址。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    385

    浏览量

    38038
  • AI
    AI
    +关注

    关注

    87

    文章

    30887

    浏览量

    269066

原文标题:危险!我克隆了女朋友的声音

文章出处:【微信号:LinuxHub,微信公众号:Linux爱好者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Luma AI Ray 2视频模型即将发布

    能够在短短10内,根据用户提供的文本和图像提示,生成高质量的视频内容。 Luma AI Ray 2视频模型是Luma AI为视频创作者量身打造的“视觉思维合作伙伴”。与前代模型相比,Ray 2不仅具备更强大的视频生成能力,而且
    的头像 发表于 12-20 11:37 216次阅读

    TPA3110D2上电瞬间有输出,大概几s后没有声音输出,为什么?怎么解决?

    十几秒,如果直接就是15V或者5V升压,几秒钟输出就没了,喇叭是4欧姆5W的,输出采用磁珠时会有输出但是声音很小也很杂,采用电感时声音正常,
    发表于 10-31 07:23

    使用PPS打通AIC3254播放电脑音乐,有4左右延时才有声音,为什么?

    使用PPS打通AIC3254播放电脑音乐 为何会有4左右延时才有声音
    发表于 10-25 06:21

    TPA6112在静音时将6脚拉低,测量6脚电压已为0时,在关闭时间还有4秒钟的延时是什么原因?

    请问如图所示,在静音时将6脚拉低,测量6脚电压已为0时,但功放关闭时间还有4秒钟的延时是什么原因?直接将6脚接低功放也还有4秒钟声音才能关闭,此时声音会变小4
    发表于 10-24 06:33

    用TAS5630芯片做了一个2.1功放板,通电的音箱没声音,须要开机后再插音箱才会有声音,为什么?

    有一秒钟声音出现。 如果单独只接低音炮,低音炮有声音,如果接2.1,则全部没有声音,我们不知道是什么缘故,另外如何排除,请工程师指导一下。
    发表于 10-14 07:09

    用TPA3112设计的一个音频功放电路,上电1-3后就没有声音输出了,怎么解决?

    用TPA3112设计的一个音频功放电路 输入采用差分的,后来把1个输入接地,变成了单端的了 问题很奇怪 接信号发生器,上电后,1-3内有音频输出,能够听到声音 然后就没有声音了 FAULT输出低 折腾了很久,望高手指点一二
    发表于 10-12 07:17

    旗晟机器人智慧AI算法#人工智能

    AI算法
    jf_57022734
    发布于 :2024年07月18日 17:44:48

    平衡创新与伦理:AI时代的隐私保护和算法公平

    成了一把双刃剑,其锐利的一面正逐渐指向我们的核心价值。面对这些挑战,制定一套有效的AI治理框架和隐私保护机制变得迫在眉睫。 确保AI决策的透明度是解决这些问题的关键一步。透明度不仅要求公开算法的运作
    发表于 07-16 15:07

    ai大模型和算法有什么区别

    AI大模型和算法是人工智能领域的两个重要概念,它们在很多方面有着密切的联系,但同时也存在一些明显的区别。 定义和概念 AI大模型通常是指具有大量参数和复杂结构的人工智能模型,它们能够处理和解决各种
    的头像 发表于 07-16 10:09 1828次阅读

    基于深度学习的鸟类声音识别系统

    具体的软硬件实现点击http://mcu-ai.com/MCU-AI技术网页_MCU-AI 鸟叫声识别在鸟类保护中具有重要意义。通过适当的声音分类,研究可以自动预测该地区的生活质量。如
    发表于 05-30 20:30

    云知声AIGC内容创作平台蓝藻AI全新升级

    近日,云知声AIGC内容创作平台蓝藻AI宣布完成全新升级,并推出超值会员服务,旨在为广大创作者提供更丰富多元的声音选择,助力内容创作更高效、更精彩。此次升级聚焦于AI声音
    的头像 发表于 03-16 14:05 1255次阅读

    程序提取克隆芯片程序的优劣

    任何事情的在在都是具有两面性的,而 克隆芯片程序 这项工作也必然是存在着差异性的。深圳市清宝电子有限公司经常性会听到一些客户或者职场朋友的询问,下文则粗略概括说明一番:深圳清宝科技有限公司的工程师
    的头像 发表于 03-03 17:06 1140次阅读

    PCBA电路板克隆开发流程

    什么是克隆线路板?通常情况下有克隆线路板的需求时,往往都是针对多层板的。而多层板起始数据至少四层或四层以上才可以。 深圳市清宝科技有限公司的工程师介绍道:克隆线路板起步前大家需要合理有效地知晓一下
    的头像 发表于 03-02 11:15 1106次阅读

    云知声全新推出AIGC内容创作平台蓝藻AI

    近日,云知声基于智能语音技术和山海大模型技术,全新推出AIGC内容创作平台——蓝藻AI,为创作者提供AI声音克隆AI文字配音、
    的头像 发表于 01-10 13:38 838次阅读

    AI克隆技术可用于创建虚拟人物形象!它的技术原理和发展趋势

    电子发烧友网报道(文/李弯弯)AI克隆技术主要指的是人工智能技术用于复制或克隆人类的行为、声音、形象等方面的技术。这种技术可以用于生成虚拟人物、虚拟角色、虚拟明星等,以及为其创建独特的
    的头像 发表于 01-08 08:28 2766次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>克隆</b>技术可用于创建虚拟人物形象!它的技术原理和发展趋势