OneFlow 将 Stable Diffusion的推理性能推向了一个全新的SOTA-电子发烧友网

OneFlow 将 Stable Diffusion 的推理性能推向了一个全新的 SOTA。

第一辆汽车诞生之初，时速只有 16 公里，甚至不如马车跑得快，很长一段时间，汽车尴尬地像一种“很酷的玩具”。人工智能作图的出现也是如此。

AI 作图一开始的 “风格化” 本身就为 “玩” 而生，大家普遍兴致勃勃地尝试头像生成、磨皮，但很快就失去兴趣。直到扩散模型的降临，才给 AI 作图带来质变，让人们看到了 “AI 转成生产力” 的曙光：画家、设计师不用绞尽脑汁思考色彩、构图，只要告诉 Diffusion 模型想要什么，就能言出法随般地生成高质量图片。

然而，与汽车一样，如果扩散模型生成图片时“马力不足”，那就没法摆脱玩具的标签，成为人类手中真正的生产工具。

起初，AI 作图需要几天，再缩减到几十分钟，再到几分钟，出图时间在不断加速，问题是，究竟快到什么程度，才会在专业的美术从业者甚至普通大众之间普及开来？

显然，现在还无法给出具体答案。即便如此，可以确定的是 AI 作图在技术和速度上的突破，很可能已经接近甚至超过阈值，因为这一次，OneFlow 带来了字面意义上 “一秒出图” 的 Stable Diffusion 模型。

OneFlow Stable Diffusion 使用地址：https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

OneFlow 地址：https://github.com/Oneflow-Inc/oneflow/

比快更快，OneFlow 一马当先

下面的图表分别展示了在 A100 (PCIe 40GB / SXM 80GB)、RTX 2080 和 T4 不同类型的 GPU 硬件上，分别使用 PyTorch, TensorRT, AITemplate 和 OneFlow 四种深度学习框架或者编译器，对 Stable Diffusion 进行推理时的性能表现。

对于 A100 显卡，无论是 PCIe 40GB 的配置还是 SXM 80GB 的配置，OneFlow 的性能可以在目前的最优性能之上继续提升 15% 以上。

特别是在 SXM 80GB A100 上，OneFlow 首次让 Stable Diffusion 的推理速度达到了 50it/s 以上，首次把生成一张图片需要采样 50 轮的时间降到 1 秒以内，是当之无愧的性能之王。

在 T4 推理卡上，由于 AITemplate 暂不支持 Stable Diffsuion，相比于目前 SOTA 性能的 TensorRT，OneFlow 的性能是它的 1.5 倍。

而在 RTX2080 上，TensorRT 在编译 Stable Diffsuion 时会 OOM ，相比于目前 SOTA 性能的 PyTorch，OneFlow 的性能是它的 2.25 倍。

综上，在各种硬件以及更多框架的对比中，OneFlow 都将 Stable Diffusion 的推理性能推向了一个全新的 SOTA。

生成图片展示

利用 OneFlow 版的 Stable Diffusion，你可以把天马行空的想法很快转化成艺术图片，譬如：

以假乱真的阳光、沙滩和椰树：

仓鼠救火员、长兔耳朵的狗子：

在火星上吃火锅：

未来异世界 AI：

集齐 OneFlow 七龙珠：

图片均基于 OneFlow 版 Stable Diffusion 生成。如果你一时没有好的 idea，可以在 lexica 上参考一下广大网友的创意，不仅有生成图片还提供了对应的描述文字。

无缝兼容 PyTorch 生态，实现一键模型迁移

想体验 OneFlow Stable Diffusion？只需要修改三行代码，你就可以将 HuggingFace 中的 PyTorch Stable Diffusion 模型改为 OneFlow 模型，分别是将 import torch 改为 import oneflow as torch 和将 StableDiffusionPipeline 改为 OneFlowStableDiffusionPipeline：

之所以能这么轻松迁移模型，是因为 OneFlow Stable Diffusion 有两个出色的特性：

OneFlowStableDiffusionPipeline.from_pretrained 能够直接使用 PyTorch 权重。

OneFlow 本身的 API 也是和 PyTorch 对齐的，因此 import oneflow as torch 之后，torch.autocast、torch.float16 等表达式完全不需要修改。

上述特性使得 OneFlow 兼容了 PyTorch 的生态，这不仅在 OneFlow 对 Stable Diffusion 的迁移中发挥了作用，也大大加速了 OneFlow 用户迁移其它许多模型，比如在和 torchvision 对标的 flowvision 中，许多模型只需通过在 torchvision 模型文件中加入 import oneflow as torch 即可得到。

此外，OneFlow 还提供全局 “mock torch” 功能，在命令行运行 eval $(oneflow-mock-torch) 就可以让接下来运行的所有 Python 脚本里的 import torch 都自动指向 oneflow。

使用 OneFlow 运行 Stable Diffusion

在 docker 中使用 OneFlow 运行 StableDiffusion 模型生成图片：

docker run --rm -it --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -v ${HF_HOME}:${HF_HOME} -v ${PWD}:${PWD} -w ${PWD} -e HF_HOME=${HF_HOME} -e HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN} oneflowinc/oneflow-sd:cu112 python3 /demos/oneflow-t2i.py # --prompt "a photo of an astronaut riding a horse on mars"

更详尽的使用方法请参考：https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

后续工作

后续 OneFlow 团队将积极推动 OneFlow 的 diffusers（https://github.com/Oneflow-Inc/diffusers.git）和 transformers（https://github.com/Oneflow-Inc/transformers.git）的 fork 仓库内容合并到 huggingface 上游的的对应仓库。这也是 OneFlow 首次以 transformers/diffusers 的后端的形式开发模型，欢迎各位开发者朋友在 GitHub 上反馈意见。

值得一提的是，在优化和加速 Stable Diffusion 模型的过程中使用了 OneFlow 自研编译器，不仅让 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快，而且也可以让这样的模型在国产 AI 芯片和 GPU 上跑得更快，这些将在之后的文章中揭秘技术细节。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
32408

浏览量
271571
人工智能

人工智能

+关注

关注
1800

文章
48076

浏览量
242127
开源

开源

+关注

关注
3

文章
3470

浏览量
42935

原文标题：1秒出图，这个开源项目太牛了！

文章出处：【微信号：TheBigData1024，微信公众号：人工智能与大数据技术】欢迎添加关注！文章转载请注明出处。

探讨DeepSeek-R1满血版的推理部署与优化策略

TL;DR 春节假期开始, 好像很多人都在开始卷DeepSeek-R1的推理了. 渣B也被兄弟团队带着一起卷了一阵, 其实推理中还有很多约束

发表于 02-14 10:19 •673次阅读

探讨DeepSeek-R1满血版的<b class='flag-5'>推理</b>部署与优化策略

使用NVIDIA推理平台提高AI推理性能

NVIDIA推理平台提高了 AI 推理性能，为零售、电信等行业节省了数百万美元。

发表于 02-08 09:59 •320次阅读

使用NVIDIA<b class='flag-5'>推理</b>平台提高AI<b class='flag-5'>推理性能</b>

NVIDIA Jetson Orin Nano开发者套件的新功能

生成式 AI 领域正在迅速发展，每天都有新的大语言模型（LLM）、视觉语言模型（VLM）和视觉语言动作模型（VLA）出现。为了在这一充满变革的时代保持领先，开发者需要一个足够强大的平台将

发表于 12-23 12:54 •452次阅读

利用Arm Kleidi技术实现PyTorch优化

PyTorch 是一个广泛应用的开源机器学习 (ML) 库。近年来，Arm 与合作伙伴通力协作，持续改进 PyTorch 的推理性能。本文将详细介绍如何利用 Arm Kleidi 技术

发表于 12-23 09:19 •529次阅读

解锁NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术，包括自定义 Attention Kernel、Inflight

发表于 12-17 17:47 •388次阅读

如何开启Stable Diffusion WebUI模型推理部署

如何开启Stable Diffusion WebUI模型推理部署

发表于 12-11 20:13 •289次阅读

Arm KleidiAI助力提升PyTorch上LLM推理性能

热门的深度学习框架尤为突出，许多企业均会选择其作为开发 AI 应用的库。通过部署 Arm Kleidi 技术，Arm 正在努力优化 PyTorch，以加速在基于 Arm 架构的处理器上运行 LLM 的性能。Arm 通过将 Kleidi 技术直接集成到 PyTorch 中，

发表于 12-03 17:05 •1059次阅读

澎峰科技高性能大模型推理引擎PerfXLM解析

自ChatGPT问世以来，大模型遍地开花，承载大模型应用的高性能推理框架也不断推出，大有百家争鸣之势。在这种情况下，澎峰科技作为全球领先的智能计算服务提供商，在2023年11月25日发布了针对大语言

发表于 09-29 10:14 •853次阅读

开箱即用，AISBench测试展示英特尔至强处理器的卓越推理性能

近期，第五代英特尔®至强®可扩展处理器通过了中国电子技术标准化研究院组织的人工智能服务器系统性能测试（AISBench）。英特尔成为首批通过AISBench大语言模型（LLM）推理性能测试的企业

发表于 09-06 15:33 •516次阅读

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社区是中国最具影响力的模型开源社区，致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM，大大提高了大语言模型的推理性能，方便了模型应用部署，提高了大模型产业应用效率，更大规模地释放大模型的应用价值。”

发表于 08-23 15:48 •604次阅读

NB81是否支持OneNet SOTA功能？应该如何激活SOTA？

NB81是否支持OneNet SOTA功能？可以支持，应该如何激活SOTA？

发表于 06-04 06:14

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，为什么？

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，用示波器采的输入到MCU端的差分电压是一样的，难道是

发表于 05-17 08:13

自然语言处理应用LLM推理优化综述

当前，业界在将传统优化技术引入 LLM 推理的同时，同时也在探索从大模型自回归解码特点出发，通过调整推理过程和引入新的模型结构来进一步提升推理性能

发表于 04-10 11:48 •752次阅读

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

UL去年发布的首个Windows版Procyon AI推理基准测试，以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精确且易于理解的工作负载，用以保证各支持硬件间

发表于 03-25 16:16 •1057次阅读

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，该模型以其独特的功能吸引了众多关注。此模型具备从单张图像中生成多视图3D视频的能力，为视频制作领域带来了革命性的突破。

发表于 03-22 10:30 •1018次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

OneFlow 将 Stable Diffusion的推理性能推向了一个全新的SOTA

评论

探讨DeepSeek-R1满血版的推理部署与优化策略

使用NVIDIA推理平台提高AI推理性能

NVIDIA Jetson Orin Nano开发者套件的新功能

利用Arm Kleidi技术实现PyTorch优化

解锁NVIDIA TensorRT-LLM的卓越性能

如何开启Stable Diffusion WebUI模型推理部署

Arm KleidiAI助力提升PyTorch上LLM推理性能

澎峰科技高性能大模型推理引擎PerfXLM解析

开箱即用，AISBench测试展示英特尔至强处理器的卓越推理性能

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

NB81是否支持OneNet SOTA功能？应该如何激活SOTA？

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，为什么？

自然语言处理应用LLM推理优化综述

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

Stability AI推出全新Stable Video 3D模型