AI算法画小姐姐，AMD显卡比顶级CPU快30倍！-电子发烧友网

从Stable Diffusion这一AI应用出现之后，在极短时间内就迅速走红，成为众多玩家口口相传的“最美小姐姐”生成工具。不过这一AI计算画图工具在Stable Diffusion官方推出之初，无论是WEB UI的部署还是模型的训练生成，都基本是基于NVIDIA CUDA加速的算法，因此A卡最初并不被Stable Diffusion官方支持。不过好在Stable Diffusion算是一个开源的产品，在众多社区聚集玩家的支持下，也出现了许多支持A卡GPU 加速计算的分支，比如我们今天要测试的基于DirectML的部署，就能实现AMD Radeon显卡的Stable Diffusion AI计算硬件加速。

如果要自己在本地部署基于DirectML的Stable Diffusion话，相比便捷的基于CUDA的WEB UI部署要相对复杂一些，不过现在网上已经有比较成熟的整合包供玩家适用，玩家们只需要下载相应的整合包，就能一键实现在本地的傻瓜式安装部署，可以为大家节省相当多的时间。

▲我们选择用于测试的这个整合包安装完毕之后，自动进入AMD GPU加速计算模式，在本地开启http://127.0.0.1:7860即可打开本地Stable Diffusion的AI画图界面。

▲在本地WEB UI界面上可以自由设置相关的AI艺术图生成参数，点击“生成”即可开始画图。具体请参考线上相关教程，在此我们不赘述。

那么，基于DirectML的Stable Diffusion部署分支能不能实现对AMD显卡的硬件计算加速支持呢？它的效率到底如何？在此前A卡玩家经常只能在Linux系统下运行Stable Diffusion，通过ROCM(Radeon Open Compute)模拟CUDA加速，如今在Windows系统下直接实现A卡的AI加速计算，能否达到我们的预期目标呢？为此，我们选择了AMD Radeon RX 5000系、RX 6000系以及RX 7000系的数款显卡，进行了一番详细的体验。

体验平台

显卡：AMD Radeon RX 5500XT(8GB)、RX 5700(8GB)、RX 6500XT 4GB、RX 6600(8GB)、RX 6700XT(12GB)、RX 6750XT(12GB)、RX 6800(16GB)、RX 6900XT(16GB)、RX 7900 XT(20GB)、RX 7900 XTX(24GB)

CPU：英特尔酷睿i9-13900K

主板：英特尔Z790

内存：DDR5 6000 16GB×2

SSD：AORUS NVMe PCIe SSD 2TB

操作系统：Windows 11 Pro 22H2

驱动程序：AMD Software Adrenalin Edition 23.4.3

通过测试，我们想知道：

AMD Radeon 5000系、6000系和7000系之间，在Stable Diffusion的AI画图算力上有多大差别？

相比传统的CPU AI计算加速，AMD GPU加速性能到底如何？

▲我们所采用的网络开源共享的部署方案可以正确实现AMD显卡的硬件加速计算，可以看到在图片生成的过程中GPU的占用率一直保持在100%。

模型为Novel AI Final-runed(CKPT)

测试一：AI生成时尚美女

在第一部分的测试中，我们通过关键词生成一个大眼的时尚美女小姐姐，还要有一定的照片感。关键词设置如下(部分引用自网络开源共享关键词)：

lora0.6> , best quality, ultra high res, (photorealistic:1.4), 1woman, sleeveless white button shirt, black skirt, black choker, cute, (Kpop idol), (aegyo sal:1), (platinum blonde hair:1), ((puffy eyes)), looking at viewer, full body, facing front,fashion,premium

分辨率设置：512×512

采样步进：20

提示词引导系数：7

生成批次-每批数量：1-1、4-1

在测试中由于绝大部分显卡都拥有8GB以上的显存，因此我们在运行参数上基本设置了正常的高显存默认模式，只有4GB显存版的RX 6500XT运行时采用了添加了--lowvram的低显存运行模式(否则就无法运行)。从整体测试结果来看，AMD从Radeon RX 5000系到RX 7000系的显卡几乎都很好地实现了Stable Diffusion应用的AI计算加速性能，尤其是Radeon RX 7000系显卡性能相比RX 6000系显卡有了巨大的提升。比如RX 6900XT在该设置与模型算法下的图片生成率约为8.87张/秒，而RX 7900 XT则可以达到15.76张/秒，性能提升接近100%。

而相比CPU来说，全系AMD显卡都占有非常明显的优势，RX 7900 XT的性能达到了酷睿i9-13900K的30倍左右，即使前两代的入门级显卡RX 5500XT，性能上也几乎接近酷睿i9-13900K的5倍。

唯一有点异常的是RX 6500XT，按照核心规格来看，它应该是要强于RX 5500XT的，不过由于显存配置仅为4GB，因此在测试中开启了低显存运行模式之后，其图片上生成速度受到了极大影响，远低于GPU加速的正常表现，仅能达到略高于CPU计算的水准。

测试二：AI生成较为复杂的水边别墅风景照

在接下来的测试中，我们用一系列相对复杂的关键词来生成一座位于水边的别墅，同时还伴有阳光、波纹、倒影等效果要求。关键词如下：

‘beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k,’

分辨率设置：512×512

采样步进：50

提示词引导系数：7.5

生成批次-每批数量：1-1、2-1、4-1

这部分的测试结果与前一测试基本保持了一致性。仍然是RX 7000系显卡在性能上独占鳌头，相对于RX 6000系显卡的对位提升在100%左右，与CPU的计算性能相比，GPU加速计算的性能提升仍然非常显著，RX 7900 XT的性能达到了酷睿i9-13900K的30倍左右，入门级显卡RX 5500XT，性能上也几乎接近酷睿i9-13900K的5倍。

4GB显存配置RX 6500XT由于仅能在低显存模式下运行，因此图片上生成速度还是受到了极大影响，远低于GPU加速的正常表现，大致与酷睿i9-13900K相当。

写在最后

这是一次简单但却比较有趣的测试，通过这次体验，我们认为有几点参考意见可以总结给玩家们参考：

1.当前AMD显卡已经可以通过开源的部署方案实现在Windows系统下的Stable Diffusion AI计算加速，而且网上也有许多的傻瓜式整合包，感兴趣的玩家完全可以一试；

2.从测试结果来看，AMD显卡在Stable Diffusion的AI图片生成计算中能够发挥出远胜于CPU计算的性能增幅，使用GPU加速计算能带来事倍功半的效果；

3.从测试情况来看，测试中当渲染分辨率设置超过512时(如768×768)，就会出现爆显存的情况，这与部署方案和模型有一定关系，但也反映了在正常模式下运行时，8GB显存几乎是Stable Diffusion的硬性入门要求。如果显存低于8GB，即使在512×512分辨率下渲染，也会出现显存不足的情况，此时就不得不采用--lowvram的低显存运行方案，但会极大地拖累计算速度，如测试中的RX 6500XT 4GB。所以要想畅玩Stable Diffusion，我们建议显卡的显存为8GB或更高为佳；

4.从整体结果来看，我们认为AMD GPU还有极大的算法优化空间，凭不可靠经验判断，从RX 7900 XTX到酷睿i9-13900K的性能差距还不足够大。这和我们部署的算法方案以及模型都有一定关系，也希望各社区的程序员们能开发出更多更优秀的针对AMD显卡的计算加速方案。

不管如何，AMD显卡对Stable Diffusion的硬件加速计算性能已经得到了展现，效果也比较明显，对AMD显卡用户来说毫无疑问是利好的福音消息，剩下的就是玩家与AMD需要坚持的继续优化之路了。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

amd

amd

+关注

关注
25

文章
5507

浏览量
134849
算法

算法

+关注

关注
23

文章
4637

浏览量
93556
AI算法

AI算法

+关注

关注
0

文章
253

浏览量
12369

原文标题：AI算法画小姐姐，AMD显卡比顶级CPU快30倍！AMD Radeon显卡Stable Diffusion AI画图体验测试

文章出处：【微信号：Microcomputer，微信公众号：Microcomputer】欢迎添加关注！文章转载请注明出处。

RDNA 4显卡定在3月发售 AMD解释原因

的使用体验。其次，AMD正在为更多游戏适配基于AI的FSR 4超分辨率技术。FSR 4通过智能算法提升图像分辨率，能

发表于 01-23 17:48 •525次阅读

AMD确认2025年推出RDNA 4显卡,光追与AI性能大幅提升

10月30日，AMD在2024年第三季度财报电话会议上宣布了一个关于GPU的重要信息：其下一代RDNA 4显卡计划于2025年初发布。AMD首席执行官苏姿丰明确表示：“我们计划在202

发表于 10-30 16:50 •1036次阅读

AMD全新处理器扩大数据中心CPU的领先地位

在Computex 2024 开幕主题演讲上，AMD 详细介绍了全新的 CPU、NPU 和 GPU 领先架构，为从数据中心到个人电脑的端到端 AI 基础架构带来强大算力。AMD预览了将

发表于 09-19 11:01 •633次阅读

简单认识AMD Radeon RX 6750 GRE系列显卡

今日推荐AMD Radeon RX 6750 GRE系列显卡，它拥有至高12GB GDDR6显存，多达40个计算单元，以及高达96MB的AMD Infinity Cache无限缓存技术，并且将光线

发表于 09-18 11:02 •1097次阅读

简单认识<b class='flag-5'>AMD</b> Radeon RX 6750 GRE系列<b class='flag-5'>显卡</b>

AMD Radeon RX 7700 XT显卡的主要特性

作为DIY玩家，如果你正在寻求一款性能上能够畅玩1440p游戏，功能上能够满足内容生产创作需求的显卡，那么AMD Radeon RX 7700 XT值得你入手。

发表于 09-18 10:57 •1518次阅读

<b class='flag-5'>AMD</b> Radeon RX 7700 XT<b class='flag-5'>显卡</b>的主要特性

如何维修一张电脑显卡型号是amd的rx580 烧坏的部位？

大家好！我在维修一张电脑显卡型号是amd的rx580 烧坏的部位是一个电感情况如下图我觉得应该用飞线方法补焊盘再接电感但是一直找不到1伏的两个相连的元器件

发表于 09-13 03:07

苹果 A18 芯片发布：CPU 提升 30%、GPU 提升 40%

核 CPU 包括 2 个性能核心和 4 个效率核心，比 iPhone 15 的 A16 Bionic 快 30%，能耗降低 30% 。 G

发表于 09-11 12:19 •868次阅读

苹果 A18 芯片发布：<b class='flag-5'>CPU</b> 提升 <b class='flag-5'>30</b>%、GPU 提升 40%

AMD将推出Zen5架构CPU，效能比Zen4快40%

AMD的Zen 5 CPU架构采用了台积电的3纳米制程。虽然目前关于Zen 5 CPU的细节尚不清楚，但预计将提高性能效率，内建人工智能和机器学习优化，并重新管道化前端。据报道，单核心效能将提升15%，多核心效能将提升

发表于 08-08 14:25 •672次阅读

技嘉推出全新AMD Radeon PRO W7000系列工作站显卡

随着技术的不断进步，工作站显卡在专业人士、创作者和AI开发人员中的需求日益增长。为了满足这一市场需求，技嘉于6月22日正式推出了全新的AMD Radeon PRO W7000系列工作站显卡

发表于 06-22 11:51 •1289次阅读

PROPHESEE 携手 AMD，推出业界首款兼容 Kria™ KV260 视觉 AI 入门套件的事件视觉解决方案

月 30 日，中国上海——领先的神经拟态视觉传感公司 Prophesee 宣布，其 Metavision® HD 事件视觉传感器和 AI 算法现已支持 AMD Kria™ KV260

发表于 05-30 10:41 •1018次阅读

AMD披露高效数据中心策略，预计至2027年能效提升超百倍

会议期间，苏姿丰谈论了AMD如何通过实施30x25战略推动2025年计算节点能效提升30倍的目标。她进一步透露，AMD已找到2026年至20

发表于 05-24 17:37 •1105次阅读

AMD CEO苏姿丰荣膺imec创新奖，30x25计划将计算节点能效提高30倍

近年来，随着ChatGPT等生成式AI LLM的飞速发展，人工智能功耗问题日益凸显。然而，早在2021年，AMD便已洞察到此问题，并为此设定了“30x25”目标，旨在提升数据中心计算节点能效，尤其针对

发表于 05-24 15:57 •560次阅读

AMD发布第二代Versal自适应SoC，AI嵌入式领域再提速

AMD表示，第二代Versal系列自适应SoC搭载全新的AI引擎，相较上一代Versal AI Edge系列，每瓦TOPS功率可实现最多3倍的性能提升，同时，新款集成Arm

发表于 04-11 16:07 •932次阅读

m3芯片显卡性能怎么样苹果m3芯片比m2强多少倍

足以应对大部分的日常使用和轻度游戏需求。它能够流畅地运行大多数应用程序，包括图形设计、视频编辑等需要一定图形处理能力的软件。苹果m3芯片比m2强多少倍从已知的信息来看，M3芯片在GPU速度上达到了M2芯片的1.8倍，M3芯片

发表于 03-12 17:00 •4370次阅读

AMD宣布AMD Radeon RX 7900 GRE显卡全球发售

今天，AMD宣布AMD Radeon RX 7900 GRE显卡在全球同步上市发售，该显卡致力于为玩家提供高刷新率的2K游戏及更佳的流媒体体验。

发表于 03-07 10:25 •1180次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

AI算法画小姐姐，AMD显卡比顶级CPU快30倍！

评论

RDNA 4显卡定在3月发售 AMD解释原因

AMD确认2025年推出RDNA 4显卡,光追与AI性能大幅提升

AMD全新处理器扩大数据中心CPU的领先地位

简单认识AMD Radeon RX 6750 GRE系列显卡

AMD Radeon RX 7700 XT显卡的主要特性

如何维修一张电脑显卡型号是amd的rx580 烧坏的部位？

苹果 A18 芯片发布：CPU 提升 30%、GPU 提升 40%

AMD将推出Zen5架构CPU，效能比Zen4快40%

技嘉推出全新AMD Radeon PRO W7000系列工作站显卡

PROPHESEE 携手 AMD，推出业界首款兼容 Kria™ KV260 视觉 AI 入门套件的事件视觉解决方案

AMD披露高效数据中心策略，预计至2027年能效提升超百倍

AMD CEO苏姿丰荣膺imec创新奖，30x25计划将计算节点能效提高30倍

AMD发布第二代Versal自适应SoC，AI嵌入式领域再提速

m3芯片显卡性能怎么样苹果m3芯片比m2强多少倍

AMD宣布AMD Radeon RX 7900 GRE显卡全球发售