0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI算法画小姐姐,AMD显卡比顶级CPU快30倍!

jf_MYvksKR0 来源:Microcomputer 2023-05-18 15:05 次阅读

从Stable Diffusion这一AI应用出现之后,在极短时间内就迅速走红,成为众多玩家口口相传的“最美小姐姐”生成工具。不过这一AI计算画图工具在Stable Diffusion官方推出之初,无论是WEB UI的部署还是模型的训练生成,都基本是基于NVIDIA CUDA加速的算法,因此A卡最初并不被Stable Diffusion官方支持。不过好在Stable Diffusion算是一个开源的产品,在众多社区聚集玩家的支持下,也出现了许多支持A卡GPU加速计算的分支,比如我们今天要测试的基于DirectML的部署,就能实现AMD Radeon显卡的Stable Diffusion AI计算硬件加速。

48019a9c-f4cd-11ed-90ce-dac502259ad0.jpg

如果要自己在本地部署基于DirectML的Stable Diffusion话,相比便捷的基于CUDA的WEB UI部署要相对复杂一些,不过现在网上已经有比较成熟的整合包供玩家适用,玩家们只需要下载相应的整合包,就能一键实现在本地的傻瓜式安装部署,可以为大家节省相当多的时间。

481e2950-f4cd-11ed-90ce-dac502259ad0.png

4876542c-f4cd-11ed-90ce-dac502259ad0.png

▲我们选择用于测试的这个整合包安装完毕之后,自动进入AMD GPU加速计算模式,在本地开启http://127.0.0.1:7860即可打开本地Stable Diffusion的AI画图界面。

48c176e6-f4cd-11ed-90ce-dac502259ad0.png

▲在本地WEB UI界面上可以自由设置相关的AI艺术图生成参数,点击“生成”即可开始画图。具体请参考线上相关教程,在此我们不赘述。

那么,基于DirectML的Stable Diffusion部署分支能不能实现对AMD显卡的硬件计算加速支持呢?它的效率到底如何?在此前A卡玩家经常只能在Linux系统下运行Stable Diffusion,通过ROCM(Radeon Open Compute)模拟CUDA加速,如今在Windows系统下直接实现A卡的AI加速计算,能否达到我们的预期目标呢?为此,我们选择了AMD Radeon RX 5000系、RX 6000系以及RX 7000系的数款显卡,进行了一番详细的体验。

体验平台

显卡:AMD Radeon RX 5500XT(8GB)、RX 5700(8GB)、RX 6500XT 4GB、RX 6600(8GB)、RX 6700XT(12GB)、RX 6750XT(12GB)、RX 6800(16GB)、RX 6900XT(16GB)、RX 7900 XT(20GB)、RX 7900 XTX(24GB)

CPU英特尔酷睿i9-13900K

主板:英特尔Z790

内存:DDR5 6000 16GB×2

SSD:AORUS NVMe PCIe SSD 2TB

操作系统:Windows 11 Pro 22H2

驱动程序:AMD Software Adrenalin Edition 23.4.3

通过测试,我们想知道:

AMD Radeon 5000系、6000系和7000系之间,在Stable Diffusion的AI画图算力上有多大差别?

相比传统的CPU AI计算加速,AMD GPU加速性能到底如何?

48e6380a-f4cd-11ed-90ce-dac502259ad0.png

▲我们所采用的网络开源共享的部署方案可以正确实现AMD显卡的硬件加速计算,可以看到在图片生成的过程中GPU的占用率一直保持在100%。

模型为Novel AI Final-runed(CKPT)

测试一:AI生成时尚美女

在第一部分的测试中,我们通过关键词生成一个大眼的时尚美女小姐姐,还要有一定的照片感。关键词设置如下(部分引用自网络开源共享关键词):

lora0.6> , best quality, ultra high res, (photorealistic:1.4), 1woman, sleeveless white button shirt, black skirt, black choker, cute, (Kpop idol), (aegyo sal:1), (platinum blonde hair:1), ((puffy eyes)), looking at viewer, full body, facing front,fashion,premium

分辨率设置:512×512

采样步进:20

提示词引导系数:7

生成批次-每批数量:1-1、4-1

48fc27a0-f4cd-11ed-90ce-dac502259ad0.png

49ba82cc-f4cd-11ed-90ce-dac502259ad0.png

49d8eeba-f4cd-11ed-90ce-dac502259ad0.png

在测试中由于绝大部分显卡都拥有8GB以上的显存,因此我们在运行参数上基本设置了正常的高显存默认模式,只有4GB显存版的RX 6500XT运行时采用了添加了--lowvram的低显存运行模式(否则就无法运行)。从整体测试结果来看,AMD从Radeon RX 5000系到RX 7000系的显卡几乎都很好地实现了Stable Diffusion应用的AI计算加速性能,尤其是Radeon RX 7000系显卡性能相比RX 6000系显卡有了巨大的提升。比如RX 6900XT在该设置与模型算法下的图片生成率约为8.87张/秒,而RX 7900 XT则可以达到15.76张/秒,性能提升接近100%。

而相比CPU来说,全系AMD显卡都占有非常明显的优势,RX 7900 XT的性能达到了酷睿i9-13900K的30倍左右,即使前两代的入门级显卡RX 5500XT,性能上也几乎接近酷睿i9-13900K的5倍。

唯一有点异常的是RX 6500XT,按照核心规格来看,它应该是要强于RX 5500XT的,不过由于显存配置仅为4GB,因此在测试中开启了低显存运行模式之后,其图片上生成速度受到了极大影响,远低于GPU加速的正常表现,仅能达到略高于CPU计算的水准。

测试二:AI生成较为复杂的水边别墅风景照

在接下来的测试中,我们用一系列相对复杂的关键词来生成一座位于水边的别墅,同时还伴有阳光、波纹、倒影等效果要求。关键词如下:

‘beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k,’

分辨率设置:512×512

采样步进:50

提示词引导系数:7.5

生成批次-每批数量:1-1、2-1、4-1

49f4b492-f4cd-11ed-90ce-dac502259ad0.png

4a7bb71c-f4cd-11ed-90ce-dac502259ad0.png

4a9a0ad2-f4cd-11ed-90ce-dac502259ad0.png

这部分的测试结果与前一测试基本保持了一致性。仍然是RX 7000系显卡在性能上独占鳌头,相对于RX 6000系显卡的对位提升在100%左右,与CPU的计算性能相比,GPU加速计算的性能提升仍然非常显著,RX 7900 XT的性能达到了酷睿i9-13900K的30倍左右,入门级显卡RX 5500XT,性能上也几乎接近酷睿i9-13900K的5倍。

4GB显存配置RX 6500XT由于仅能在低显存模式下运行,因此图片上生成速度还是受到了极大影响,远低于GPU加速的正常表现,大致与酷睿i9-13900K相当。

写在最后

这是一次简单但却比较有趣的测试,通过这次体验,我们认为有几点参考意见可以总结给玩家们参考:

1.当前AMD显卡已经可以通过开源的部署方案实现在Windows系统下的Stable Diffusion AI计算加速,而且网上也有许多的傻瓜式整合包,感兴趣的玩家完全可以一试;

2.从测试结果来看,AMD显卡在Stable Diffusion的AI图片生成计算中能够发挥出远胜于CPU计算的性能增幅,使用GPU加速计算能带来事倍功半的效果;

3.从测试情况来看,测试中当渲染分辨率设置超过512时(如768×768),就会出现爆显存的情况,这与部署方案和模型有一定关系,但也反映了在正常模式下运行时,8GB显存几乎是Stable Diffusion的硬性入门要求。如果显存低于8GB,即使在512×512分辨率下渲染,也会出现显存不足的情况,此时就不得不采用--lowvram的低显存运行方案,但会极大地拖累计算速度,如测试中的RX 6500XT 4GB。所以要想畅玩Stable Diffusion,我们建议显卡的显存为8GB或更高为佳;

4.从整体结果来看,我们认为AMD GPU还有极大的算法优化空间,凭不可靠经验判断,从RX 7900 XTX到酷睿i9-13900K的性能差距还不足够大。这和我们部署的算法方案以及模型都有一定关系,也希望各社区的程序员们能开发出更多更优秀的针对AMD显卡的计算加速方案。

不管如何,AMD显卡对Stable Diffusion的硬件加速计算性能已经得到了展现,效果也比较明显,对AMD显卡用户来说毫无疑问是利好的福音消息,剩下的就是玩家与AMD需要坚持的继续优化之路了。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5468

    浏览量

    134154
  • 算法
    +关注

    关注

    23

    文章

    4612

    浏览量

    92888
  • AI算法
    +关注

    关注

    0

    文章

    251

    浏览量

    12261

原文标题:AI算法画小姐姐,AMD显卡比顶级CPU快30倍!AMD Radeon显卡Stable Diffusion AI画图体验测试

文章出处:【微信号:Microcomputer,微信公众号:Microcomputer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AMD确认2025年推出RDNA 4显卡,光追与AI性能大幅提升

    10月30日,AMD在2024年第三季度财报电话会议上宣布了一个关于GPU的重要信息:其下一代RDNA 4显卡计划于2025年初发布。AMD首席执行官苏姿丰明确表示:“我们计划在202
    的头像 发表于 10-30 16:50 633次阅读

    AMD全新处理器扩大数据中心CPU的领先地位

    在Computex 2024 开幕主题演讲上,AMD 详细介绍了全新的 CPU、NPU 和 GPU 领先架构,为从数据中心到个人电脑的端到端 AI 基础架构带来强大算力。AMD预览了将
    的头像 发表于 09-19 11:01 530次阅读

    简单认识AMD Radeon RX 6750 GRE系列显卡

    今日推荐AMD Radeon RX 6750 GRE系列显卡,它拥有至高12GB GDDR6显存,多达40个计算单元,以及高达96MB的AMD Infinity Cache无限缓存技术,并且将光线
    的头像 发表于 09-18 11:02 691次阅读
    简单认识<b class='flag-5'>AMD</b> Radeon RX 6750 GRE系列<b class='flag-5'>显卡</b>

    AMD Radeon RX 7700 XT显卡的主要特性

    作为DIY玩家,如果你正在寻求一款性能上能够畅玩1440p游戏,功能上能够满足内容生产创作需求的显卡,那么AMD Radeon RX 7700 XT值得你入手。
    的头像 发表于 09-18 10:57 955次阅读
    <b class='flag-5'>AMD</b> Radeon RX 7700 XT<b class='flag-5'>显卡</b>的主要特性

    如何维修一张电脑显卡型号是amd的rx580 烧坏的部位?

    大家好!我在维修一张电脑显卡型号是amd的rx580 烧坏的部位是一个电感情况如下图 我觉得应该用飞线方法补焊盘再接电感 但是一直找不到1伏的两个相连的元器件
    发表于 09-13 03:07

    苹果 A18 芯片发布:CPU 提升 30%、GPU 提升 40%

    CPU 包括 2 个性能核心和 4 个效率核心, iPhone 15 的 A16 Bionic 30%,能耗降低 30% 。 G
    的头像 发表于 09-11 12:19 643次阅读
    苹果 A18 芯片发布:<b class='flag-5'>CPU</b> 提升 <b class='flag-5'>30</b>%、GPU 提升 40%

    AMD将推出Zen5架构CPU,效能Zen440%

    AMD的Zen 5 CPU架构采用了台积电的3纳米制程。虽然目前关于Zen 5 CPU的细节尚不清楚,但预计将提高性能效率,内建人工智能和机器学习优化,并重新管道化前端。据报道,单核心效能将提升15%,多核心效能将提升
    的头像 发表于 08-08 14:25 501次阅读

    技嘉推出全新AMD Radeon PRO W7000系列工作站显卡

    随着技术的不断进步,工作站显卡在专业人士、创作者和AI开发人员中的需求日益增长。为了满足这一市场需求,技嘉于6月22日正式推出了全新的AMD Radeon PRO W7000系列工作站显卡
    的头像 发表于 06-22 11:51 1180次阅读

    PROPHESEE 携手 AMD,推出业界首款兼容 Kria™ KV260 视觉 AI 入门套件的事件视觉解决方案

    30 日,中国上海——领先的神经拟态视觉传感公司 Prophesee 宣布,其 Metavision® HD 事件视觉传感器和 AI 算法现已支持 AMD Kria™ KV260
    发表于 05-30 10:41 967次阅读
    PROPHESEE 携手 <b class='flag-5'>AMD</b>,推出业界首款兼容 Kria™ KV260 视觉 <b class='flag-5'>AI</b> 入门套件的事件视觉解决方案

    AMD披露高效数据中心策略,预计至2027年能效提升超百

    会议期间,苏姿丰谈论了AMD如何通过实施30x25战略推动2025年计算节点能效提升30的目标。她进一步透露,AMD已找到2026年至20
    的头像 发表于 05-24 17:37 1024次阅读

    AMD CEO苏姿丰荣膺imec创新奖,30x25计划将计算节点能效提高30

    近年来,随着ChatGPT等生成式AI LLM的飞速发展,人工智能功耗问题日益凸显。然而,早在2021年,AMD便已洞察到此问题,并为此设定了“30x25”目标,旨在提升数据中心计算节点能效,尤其针对
    的头像 发表于 05-24 15:57 459次阅读

    AMD发布第二代Versal自适应SoC,AI嵌入式领域再提速

    AMD表示,第二代Versal系列自适应SoC搭载全新的AI引擎,相较上一代Versal AI Edge系列,每瓦TOPS功率可实现最多3的性能提升,同时,新款集成Arm
    的头像 发表于 04-11 16:07 795次阅读

    m3芯片显卡性能怎么样 苹果m3芯片m2强多少

    足以应对大部分的日常使用和轻度游戏需求。它能够流畅地运行大多数应用程序,包括图形设计、视频编辑等需要一定图形处理能力的软件。 苹果m3芯片m2强多少 从已知的信息来看,M3芯片在GPU速度上达到了M2芯片的1.8,M3芯片
    的头像 发表于 03-12 17:00 3973次阅读

    AMD宣布AMD Radeon RX 7900 GRE显卡全球发售

    今天,AMD宣布AMD Radeon RX 7900 GRE显卡在全球同步上市发售,该显卡致力于为玩家提供高刷新率的2K游戏及更佳的流媒体体验。
    的头像 发表于 03-07 10:25 1003次阅读

    为什么GPUCPU更快?

    GPUCPU更快的原因并行处理能力:GPU可以同时处理多个任务和数据,而CPU通常只能一次处理一项任务。这是因为GPU的架构使得它可以同时处理多个核心,从而实现高效的并行计算,这是GPU在处理
    的头像 发表于 01-26 08:30 2410次阅读
    为什么GPU<b class='flag-5'>比</b><b class='flag-5'>CPU</b>更快?