0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Stability AI开源图像生成模型Stable Diffusion

倩倩 来源:AI前线 作者:Anthony Alford 2022-09-21 15:37 次阅读

Stability AI 对外发布了 Stable Diffusion 的预训练模型权重,这是一个文本至图像的 AI 模型。根据文本提示,Stable Diffusion 能够生成逼真的 512x512 像素的图像以描述提示中的场景。

在模型权重公开发布之前,它的代码已经发布,模型权重也有限发布给了研究社区。在最新的版本中,任何用户都可以在消费者级别的硬件下载并运行 Stable Diffusion。除了文本至图像的生成,该模型还支持图像至图像的风格转换以及图像质量提升。在发布该版本的同时,Stable AI 还发布了 beta 版本的 API 以及模型的 Web UI,名为 DreamStudio。Stable AI 这样说到:

Stable Diffusion 是一个文本至图像的模型,它能让数十亿人在几秒钟内创建出令人赞叹的艺术品。在速度和质量方面,它都有所突破,这意味着它能在消费者级别的 GPU 上运行……这能够让研究人员和……公众在各种条件下运行,使图像生成技术走向大众。我们期待围绕该模型和其他模型出现一个开放的生态系统,以探索潜在空间的边界。

Stable Diffusion 基于名为潜在扩散模型(latent diffusion models,LDMs)的图像生成技术。与其他的流行的图像合成方法不同,如生成对抗网络(generative adversarial networks,GANs)和 DALL-E 使用的自动回归技术,LDMs 通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像。LDM 是由 Ludwig Maximilian University of Munich 的机器视觉与学习(Machine Vision and Learning)研究组开发的,并在最近的 IEEE / CVF 计算机视觉和模式识别会议(Computer Vision and Pattern Recognition Conference)上发表的一篇论文中进行了阐述。在今年早些时候,InfoQ 曾经报道过谷歌的 Imagen 模型,它是另一个基于扩散的图像生成 AI。

Stable Diffusion 模型支持多种操作。与 DALL-E 类似,它能够根据所需图像的文本描述,生成符合匹配该描述的高质量图像。它还可以根据一个简单的草图再加上所需图像的文本描述,生成一个看起来更逼真的图像。Meta AI 最近发布了名为 Make-A-Scene 的模型,具有类似的图像至图像的功能。

Stable Diffusion 的很多用户已经公开发布了生成图像的样例,Stability AI 的首席开发者 Katherine Crowson 在推特上分享了许多图像。基于 AI 的图像合成可能会对艺术家和艺术领域带来一定的影响,有些评论者对此感到不安。就在 Stable Diffusion 发布的同一周,一幅由 AI 生成的艺术品在科罗拉多州博览会的艺术比赛中获得了一等奖。Django 框架的共同创建者 Simon Williamson 认为:

我见过一种说法,认为 AI 艺术没有资格获得版权保护,因为“它必须归功于全人类”——如果基于文本生成的设计尚不足以说服公众的话,那 [图像至图像] 技术可能会打破这种平衡。

Stable AI 的创始人 Emad Mostaque 在推特上回答了一些关于该模型的问题。在回答一位试图估算训练模型所需的计算资源和成本的用户时,Mostaque 说到:

实际上,我们为这个模型使用了 256 个 A100 显卡,总共 15 万小时,所以按市场价格计算为 60 万美元。

Mostaque 给出了 Reddit 上一篇文章的链接,其中给出了如何最好地使用该模型来生成图像的技巧。

Stable Diffusion 的代码可以在 GitHub 上找到。模型的权重以及 Colab notebook 和示例 Web UI 都可以在 HuggingFace 上找到。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29611

    浏览量

    267908
  • 模型
    +关注

    关注

    1

    文章

    3097

    浏览量

    48626
  • 图像生成
    +关注

    关注

    0

    文章

    22

    浏览量

    6879

原文标题:Stability AI 开源图像生成模型 Stable Diffusion

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Freepik携手Magnific AI推出AI图像生成

    近日,设计资源巨头Freepik携手Magnific AI,共同推出了革命性的AI图像生成器——Freepik Mystic,这一里程碑式的发布标志着
    的头像 发表于 08-30 16:23 1037次阅读

    实操: 如何在AirBox上跑Stable Diffusion 3

    使用StableDiffusion3Medium开源模型,通过SOPHONSDK移植到SG2300X处理器系列产品上进行本地TPU硬件加速推理,实现在radxaAirbox上离线快速生成
    的头像 发表于 07-23 08:34 197次阅读
    实操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 3

    如何用C++创建简单的生成AI模型

    生成AI(Generative AI)是一种人工智能技术,它通过机器学习模型和深度学习技术,从大量历史数据中学习对象的特征和规律,从而能够生成
    的头像 发表于 07-05 17:53 674次阅读

    [技术干货] AI 助手全套开源解决方案,自带运营管理后台,开箱即用

    ,自带运营管理后台,开箱即用。集成了 OpenAI, Azure, ChatGLM,讯飞星火,文心一言等多个平台的大语言模型。集成了 MidJourney 和 Stable Diffusion
    的头像 发表于 04-05 23:23 1133次阅读
    [技术干货] <b class='flag-5'>AI</b> 助手全套<b class='flag-5'>开源</b>解决方案,自带运营管理后台,开箱即用

    Stability AI发布Stable Code Instruct 3B大语言模型,可编译多种编程语言

    据报道,Stability AI公司近期推出了适配程序员使用的Stable Code Instruct 3B大语言模型,此款模型的显著特点是
    的头像 发表于 03-27 10:04 409次阅读

    UL Procyon AI 发布图像生成基准测试,基于Stable Diffusion

    UL去年发布的首个Windows版Procyon AI推理基准测试,以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精确且易于理解的工作负载,用以保证各支持硬件间
    的头像 发表于 03-25 16:16 813次阅读

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,该模型以其独特的功能吸引了众多关注。此
    的头像 发表于 03-22 10:30 732次阅读

    韩国科研团队发布新型AI图像生成模型KOALA,大幅优化硬件需求

    由此模型的核心在于其运用了“知识蒸馏”(knowledge distillation)技术,这使得开源图像生成工具Stable
    的头像 发表于 03-01 14:10 552次阅读

    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身
    的头像 发表于 02-19 16:03 855次阅读
    <b class='flag-5'>Stability</b> <b class='flag-5'>AI</b>试图通过新的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>人工智能<b class='flag-5'>模型</b>保持领先地位

    Stability AI推出迄今为止更小、更高效的1.6B语言模型

    Stability AI 宣布推出迄今为止最强大的小语言模型之一 Stable LM 2 1.6B。
    的头像 发表于 01-23 10:11 713次阅读
    <b class='flag-5'>Stability</b> <b class='flag-5'>AI</b>推出迄今为止更小、更高效的1.6B语言<b class='flag-5'>模型</b>

    Stability AI推出商业版会员计划 对AI模型的商业使用收费

    该公司在一篇博客文章中表示:“随着我们公司的不断成熟和规模化,Stability AI会员将在助力我们未来的核心模型研发方面发挥关键作用。” The Verge联系了Stability
    的头像 发表于 12-26 16:48 801次阅读

    免费开源图像修复工具lama-cleaner介绍

    Lama Cleaner 是由 SOTA AI 模型提供支持的免费开源图像修复工具。可以从图片中移除任何不需要的物体、缺陷和人,或者擦除并替换(powered by
    的头像 发表于 12-04 10:23 2577次阅读
    免费<b class='flag-5'>开源</b><b class='flag-5'>图像</b>修复工具lama-cleaner介绍

    模型进手机,软件、硬件、生态全部不可或缺!

    芯片首发。 到底是怎么回事? 究其原因,还是智能终端已经成为了各类AIGC应用的落地“新滩头”。 先是图像生成模型接二连三地被塞进手机,从十亿参数的Stable
    的头像 发表于 11-17 10:56 592次阅读
    大<b class='flag-5'>模型</b>进手机,软件、硬件、生态全部不可或缺!

    利用 NVIDIA Jetson 实现生成AI

    的无限可能性。不同于其他嵌入式平台,Jetson 能够在本地运行大语言模型(LLM)、视觉 Transformer 和 stable diffusion,包括在 Jetson AGX Orin 上以
    的头像 发表于 11-07 21:25 880次阅读
    利用 NVIDIA Jetson 实现<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b>

    上线一周就2.1k star!单张图像直接转为3D模型

    最大的好处就是可以直接利用Stable Diffusion这种经过数十亿张图像训练过的2D扩散模型,实际上相当于引入了非常强的先验信息。而且法线图可以表征物体的起伏和表面几何信息,进而
    的头像 发表于 11-06 16:13 1034次阅读
    上线一周就2.1k star!单张<b class='flag-5'>图像</b>直接转为3D<b class='flag-5'>模型</b>!