Stability AI推出Stable audio的文本到音频生成人工智能平台-电子发烧友网

Stability AI是一家主要以人工智能生成的视觉效果而闻名的公司，它推出了一个名为Stable audio的文本到音频生成人工智能平台。

Stable Audio使用扩散模型，与该公司更受欢迎的图像平台Stable diffusion的AI模型相同，但使用音频而非图像进行训练。用户可以使用它为任何项目生成歌曲或背景音频。

音频扩散模型倾向于生成固定长度的音频，这对音乐制作来说很糟糕，因为歌曲的长度可能不同。Stability AI的新平台允许用户发出不同长度的声音，要求公司对音乐进行训练，并在歌曲的开始和结束时间周围添加文本元数据。

同时，它可以实现实时的音频生成，无需等待长时间的渲染过程。Stability AI 宣称，Stable Audio 模型可以在一秒内渲染出 95 秒的立体声音频，并且只需要一个 NVIDIA A100 GPU。

并且，Stable Audio是一个开源的项目，任何人都可以免费使用和修改。Stability AI 希望通过开源的方式促进 AI 领域的创新和发展，并让更多人享受到 AI 技术带来的便利和乐趣。

该公司在一份声明中表示：“Stable Audio代表了Stability AI生成音频研究实验室Harmonai的尖端音频生成研究。我们会继续改进我们的模型架构、数据集和训练程序，以提高输出质量、可控性、推理速度和输出长度。”

文本到音频的生成并不是什么新鲜事，因为生成人工智能领域的其他大牌一直在玩弄这个概念。Meta于8月发布了AudioCraft，这是一套生成的人工智能模型，有助于根据提示创建听起来自然的ERM、声音和音乐。到目前为止，它只提供给研究人员和一些音频专业人士。谷歌的MusicLM也可以让人们产生声音，但只对研究人员开放。

审核编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

音频

音频

+关注

关注
31

文章
3245

浏览量
86509
AI

AI

+关注

关注
91

文章
41885

浏览量
302993
人工智能

人工智能

+关注

关注
1821

文章
50485

浏览量
267632
模型

模型

+关注

关注
1

文章
3865

浏览量
52325
数据集

数据集

+关注

关注
4

文章
1242

浏览量
26286

原文标题：Stability AI发布AI音频平台Stable Audio

文章出处：【微信号：IEEE_China，微信公众号：IEEE电气电子工程师】欢迎添加关注！文章转载请注明出处。

搜索历史

Stability AI推出Stable audio的文本到音频生成人工智能平台

评论