Stability AI开源图像生成模型Stable Diffusion-电子发烧友网

Stability AI 对外发布了 Stable Diffusion 的预训练模型权重，这是一个文本至图像的 AI 模型。根据文本提示，Stable Diffusion 能够生成逼真的 512x512 像素的图像以描述提示中的场景。

在模型权重公开发布之前，它的代码已经发布，模型权重也有限发布给了研究社区。在最新的版本中，任何用户都可以在消费者级别的硬件中下载并运行 Stable Diffusion。除了文本至图像的生成，该模型还支持图像至图像的风格转换以及图像质量提升。在发布该版本的同时，Stable AI 还发布了 beta 版本的 API 以及模型的 Web UI，名为 DreamStudio。Stable AI 这样说到：

Stable Diffusion 是一个文本至图像的模型，它能让数十亿人在几秒钟内创建出令人赞叹的艺术品。在速度和质量方面，它都有所突破，这意味着它能在消费者级别的 GPU 上运行……这能够让研究人员和……公众在各种条件下运行，使图像生成技术走向大众。我们期待围绕该模型和其他模型出现一个开放的生态系统，以探索潜在空间的边界。

Stable Diffusion 基于名为潜在扩散模型（latent diffusion models，LDMs）的图像生成技术。与其他的流行的图像合成方法不同，如生成对抗网络（generative adversarial networks，GANs）和 DALL-E 使用的自动回归技术，LDMs 通过在一个潜在表示空间中迭代“去噪”数据来生成图像，然后将表示结果解码为完整的图像。LDM 是由 Ludwig Maximilian University of Munich 的机器视觉与学习（Machine Vision and Learning）研究组开发的，并在最近的 IEEE / CVF 计算机视觉和模式识别会议（Computer Vision and Pattern Recognition Conference）上发表的一篇论文中进行了阐述。在今年早些时候，InfoQ 曾经报道过谷歌的 Imagen 模型，它是另一个基于扩散的图像生成 AI。

Stable Diffusion 模型支持多种操作。与 DALL-E 类似，它能够根据所需图像的文本描述，生成符合匹配该描述的高质量图像。它还可以根据一个简单的草图再加上所需图像的文本描述，生成一个看起来更逼真的图像。Meta AI 最近发布了名为 Make-A-Scene 的模型，具有类似的图像至图像的功能。

Stable Diffusion 的很多用户已经公开发布了生成图像的样例，Stability AI 的首席开发者 Katherine Crowson 在推特上分享了许多图像。基于 AI 的图像合成可能会对艺术家和艺术领域带来一定的影响，有些评论者对此感到不安。就在 Stable Diffusion 发布的同一周，一幅由 AI 生成的艺术品在科罗拉多州博览会的艺术比赛中获得了一等奖。Django 框架的共同创建者 Simon Williamson 认为：

我见过一种说法，认为 AI 艺术没有资格获得版权保护，因为“它必须归功于全人类”——如果基于文本生成的设计尚不足以说服公众的话，那 [图像至图像] 技术可能会打破这种平衡。

Stable AI 的创始人 Emad Mostaque 在推特上回答了一些关于该模型的问题。在回答一位试图估算训练模型所需的计算资源和成本的用户时，Mostaque 说到：

实际上，我们为这个模型使用了 256 个 A100 显卡，总共 15 万小时，所以按市场价格计算为 60 万美元。

Mostaque 给出了 Reddit 上一篇文章的链接，其中给出了如何最好地使用该模型来生成图像的技巧。

Stable Diffusion 的代码可以在 GitHub 上找到。模型的权重以及 Colab notebook 和示例 Web UI 都可以在 HuggingFace 上找到。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31845

浏览量
270671
模型

模型

+关注

关注
1

文章
3372

浏览量
49313
图像生成

图像生成

+关注

关注
0

文章
22

浏览量
6916

原文标题：Stability AI 开源图像生成模型 Stable Diffusion

文章出处：【微信号：AI前线，微信公众号：AI前线】欢迎添加关注！文章转载请注明出处。

借助谷歌Gemini和Imagen模型生成高质量图像

在快速发展的生成式 AI 领域，结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示，然后使用 Imagen 3

发表于 01-03 10:38 •438次阅读

借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高质量<b class='flag-5'>图像</b>

Google两款先进生成式AI模型登陆Vertex AI平台

新的 AI 模型，包括最先进的视频生成模型Veo以及最高品质的图像生成

发表于 12-30 09:56 •171次阅读

开源AI模型库是干嘛的

开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些

发表于 12-14 10:33 •357次阅读

如何开启Stable Diffusion WebUI模型推理部署

如何开启Stable Diffusion WebUI模型推理部署

发表于 12-11 20:13 •223次阅读

如何开启<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> WebUI<b class='flag-5'>模型</b>推理部署

Freepik携手Magnific AI推出AI图像生成器

近日，设计资源巨头Freepik携手Magnific AI，共同推出了革命性的AI图像生成器——Freepik Mystic，这一里程碑式的发布标志着

发表于 08-30 16:23 •1244次阅读

Meta发布Imagine Yourself AI模型，重塑个性化图像生成未来

Meta公司近日在人工智能领域迈出了重要一步，隆重推出了其创新之作——“Imagine Yourself”AI模型，这一突破性技术为个性化图像生成领域带来了前所未有的变革。在社交媒体与

发表于 08-26 10:59 •669次阅读

实操: 如何在AirBox上跑Stable Diffusion 3

使用StableDiffusion3Medium开源模型，通过SOPHONSDK移植到SG2300X处理器系列产品上进行本地TPU硬件加速推理，实现在radxaAirbox上离线快速生成特

发表于 07-23 08:34 •344次阅读

实操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 3

如何用C++创建简单的生成式AI模型

生成式AI（Generative AI）是一种人工智能技术，它通过机器学习模型和深度学习技术，从大量历史数据中学习对象的特征和规律，从而能够生成

发表于 07-05 17:53 •1117次阅读

[技术干货] AI 助手全套开源解决方案，自带运营管理后台，开箱即用

，自带运营管理后台，开箱即用。集成了 OpenAI, Azure, ChatGLM,讯飞星火，文心一言等多个平台的大语言模型。集成了 MidJourney 和 Stable Diffusion

发表于 04-05 23:23 •1384次阅读

Stability AI发布Stable Code Instruct 3B大语言模型，可编译多种编程语言

据报道，Stability AI公司近期推出了适配程序员使用的Stable Code Instruct 3B大语言模型，此款模型的显著特点是

发表于 03-27 10:04 •603次阅读

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

UL去年发布的首个Windows版Procyon AI推理基准测试，以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精确且易于理解的工作负载，用以保证各支持硬件间

发表于 03-25 16:16 •994次阅读

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，该模型以其独特的功能吸引了众多关注。此

发表于 03-22 10:30 •966次阅读

韩国科研团队发布新型AI图像生成模型KOALA，大幅优化硬件需求

由此模型的核心在于其运用了“知识蒸馏”（knowledge distillation）技术，这使得开源图像生成工具Stable

发表于 03-01 14:10 •723次阅读

OpenAI视频模型Sora的架构及应用场景

LDM 就是 Stable Diffusion 使用的模型架构。扩散模型的一大问题是计算需求大，难以拟合高分辨率图像。为了解决这一问题，实现

发表于 02-20 15:13 •712次阅读

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身

发表于 02-19 16:03 •1011次阅读

搜索历史

Stability AI开源图像生成模型Stable Diffusion

评论

借助谷歌Gemini和Imagen模型生成高质量图像

Google两款先进生成式AI模型登陆Vertex AI平台

开源AI模型库是干嘛的

如何开启Stable Diffusion WebUI模型推理部署

Freepik携手Magnific AI推出AI图像生成器

Meta发布Imagine Yourself AI模型，重塑个性化图像生成未来

实操: 如何在AirBox上跑Stable Diffusion 3

如何用C++创建简单的生成式AI模型

[技术干货] AI 助手全套开源解决方案，自带运营管理后台，开箱即用

Stability AI发布Stable Code Instruct 3B大语言模型，可编译多种编程语言

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

Stability AI推出全新Stable Video 3D模型

韩国科研团队发布新型AI图像生成模型KOALA，大幅优化硬件需求

OpenAI视频模型Sora的架构及应用场景

Stability AI试图通过新的图像生成人工智能模型保持领先地位