英特尔® AMX助金山云为用户提供更高效经济的AI服务，Stable-Diﬀusion模型推理性能提升近5倍-电子发烧友网

人工智能已经成为推动数字化创新的重要动力，伴随着 AIGC 等应用的快速落地，深度学习模型规模与复杂度不断提升，数据量也持续增长，人工智能算力供给与需求之间的矛盾正在日趋凸显。用户希望优化硬件、软件和算法，在保证模型精度和时延等指标的前提下，提升人工智能端到端流程的性能表现，从而充分释放硬件的潜能，并降低系统总体拥有成本 (TCO)，加速人工智能技术的创新。

生成式人工智能(AIGC) 等创新浪潮驱动了人工智能的新一轮增长，模型训练和模型推理成为云服务器的重要负载。要满足人工智能领域的市场需求，云服务提供商需要解决以下挑战：如何加速数据清理、模型推理等人工智能端到端工作流程中的多种工作负载，加快平台的一站式性能。如何高效使用CPU等现有的硬件资源，并且利用客户公有云、私有云和混合云中的服务器资源，以降低硬件成本。如何增强云服务器的灵活性，使其能够在复杂场景中敏捷扩展，支撑传统负载与人工智能等新型工作负载高效运行的需求。

为了帮助用户加速人工智能端到端流程，特别是提升人工智能推理性能，基于第四代英特尔至强可扩展处理器的金山云第七代性能保障型云服务器X7进行了针对性优化。服务器采用了处理器内置的英特尔高级矩阵扩展（英特尔 AMX）加速器，并融合了金山云自主创新的加速技术，能够有效提高人工智能模型的推理性能，同时发挥云服务器在敏捷性、扩展性等方面的优势，助力客户挖掘人工智能时代的价值。

第四代英特尔至强及英特尔 AMX使金山云服务器模型推理性能提升3.97倍 - 4.96倍

金山云第七代性能保障型云服务器 X7 搭载英特尔至强铂金 8458P 处理器，网络带宽升级至100G，同时支持挂载极速云盘 ESSD ，整体机型在计算、网络、存储多维度进行了深度优化，可为用户提供计算速度更快、网络吞吐更大以及存储更加高效的云服务。

第四代英特尔至强可扩展处理器通过创新架构增加了每个时钟周期的指令，每个插槽多达 60个核心，支持 8 通道DDR5内存，有效提升了内存带宽与速度，并通过PCIe 5.0 （80个通道）实现了更高的PCIe带宽提升。第四代英特尔至强可扩展处理器提供了出色性能和安全性，可根据用户的业务需求进行扩展。借助内置的加速器，用户可以在人工智能、分析、云和微服务、网络、数据库、存储等类型的工作负载中获得优化的性能。通过与强大的生态系统相结合，第四代英特尔至强可扩展处理器能够帮助用户构建更加高效、安全的基础设施。

图：第四代英特尔至强可扩展处理器

第四代英特尔至强可扩展处理器在人工智能性能上更进一步，内置了创新的英特尔 AMX 加速引擎。英特尔 AMX 针对广泛的硬件和软件优化，进一步增强了前代技术——矢量神经网络指令 (VNNI) 和 BF16，从一维向量发展为二维矩阵，能够有效利用计算资源，提高高速缓存利用率，以及避免潜在的带宽瓶颈，从而可显着增加人工智能应用程序的每时钟指令数 (IPC)，为人工智能工作负载中的训练和推理带来显著的性能提升。

在计算方面，通过采用最新的第四代英特尔至强可扩展处理器，金山云新一代云服务器X7计算性能较上一代最大提升60%⁵ ，同时借助内置的英特尔AMX 原生人工智能加速能力，大幅提高了云服务器的整体性能，更加适用于计算密集型、深度学习等业务场景。在内存方面，金山云新一代云服务器 X7 支持八通道 DDR5 内存，单条内存带宽高达 4800MT/s，对比上一代实例性能提升50%⁶ ，更加适用于内存计算等数据密集型业务场景，服务深度学习以及人工智能相关领域。在网络方面，金山云新一代云服务器 X7 的物理网络升级至 2x 100G，单虚机内网吞吐最高提升至 100G，PPS 提升至最高 2400 万，连接数最高支持 400 万，网络性能大幅提升⁷。在存储方面，金山云新一代云服务器 X7 支持挂载极速云盘 ESSD，单盘吞吐最高提升至 4GB/s，IOPS 提升至最高 100 万，访问延时降低至 0.2ms ，存储能力显著优化⁸。

得益于第四代英特尔至强可扩展处理器内置的英特尔AMX 技术，金山云新一代云服务器 X7 加速了人工智能推理性能，并在AIGC等负载中有着卓越的表现。

金山云测试了金山云新一代云服务器 X7在Stable-Diﬀusion模型推理中的性能表现。Stable- Diﬀusion是一种基于机器学习的生成式人工智能模型，能够根据文本生成高分辨率图像。Stable-Diﬀusion一般需要数秒完成图片生成，计算量极大，其主要性能瓶颈在多头注意力计算部分 (MHA)。

第四代英特尔至强可扩展处理器在Stable-Diﬀusion模型推理中有着卓越的性能表现，这源于其在算法上面的优化。针对该模型的 MHA 计算瓶颈，英特尔基于PyTorch 优化的 Intel-Extension-for-PyTorch (IPEX) 插件在2.0 版本发布了基于至强可扩展处理器平台的Flash Attention算法，主要内容包括以合适的尺寸拆分矩阵计算，实现更高效的缓存利用；使用张量 AMX- BF16 加速MHA矩阵计算，达到更快的速度；将计算缓存区与线程绑定，实现更少的内存开销。

在搭载英特尔至强铂金 8458P处理器的金山云新一代云服务器X7上，双方对 Stable-Diﬀusion模型推理性能进行了测试。测试数据如图所示，相较优化之前的模型，在使用 IPEX 2.0 BF16优化之后，Stable-Diﬀusion模型推理性能提升了3.97倍- 4.96倍⁹。

图：Stable-Diffusion 模型优化前后性能对比¹⁰

赋能云服务器AI性能提升，英特尔携手合作伙伴为云上AI用户提供既高效又经济的解决方案

云服务器已经成为用户扩展人工智能创新，承载模型训练、模型推理等应用需求的重要选择，通过采用内置英特尔AMX 加速器的四代英特尔至强可扩展处理器，金山云第七代性能保障型云服务器X7能够显著加速AIGC等模型的性能表现，在端到端人工智能流程中的优势突出。而且，该方案不需要部署独立的加速器，因此在经济性方面有着更佳的表现。具体来讲，它为用户的云上业务带来的收益包括：

更高的性能，能够满足广泛实际应用场景的对于性能的需求。特别是在人工智能性能方面，金山云新一代云服务器 X7 能够有效加速AIGC等应用的运行。通过英特尔 AMX 的应用以及算法优化，充分释放了硬件潜力，有效利用服务器资源，从而降低了端到端人工智能应用流程的TCO。不受限于特定应用类型，能够灵活应对深度学习、数据库、高网络收发包等负载的支撑需求，实现更高的敏捷性与扩展性。

在当前合作成果的基础上，英特尔与金山云还将对第七代性能保障型云服务器X7进行进一步合作优化，包括验证服务器在更多场景中的性能表现、通过软件与算法优化进一步释放硬件潜力等，进而为用户提供更加卓越的云服务。同时，英特尔也将通过更多云服务合作伙伴，为云上的AI用户提供更高效、经济的解决方案。

参考资料：

1 数据来源自第四代英特尔至强可扩展处理器的最大核数（60 核）与第三代英特尔至强可扩展处理器的最大核数（40 核）的比较。

2 详细配置信息请访问：intel.com/processorclaims，选择 “第四代英特尔至强可扩展处理器”，查看编号“G2”。实际性能受使用情况、配置和其他因素的差异影响。

3 数据来源自第四代英特尔至强可扩展处理器（80 条 PCIe 5.0 通道）与第三代英特尔至强可扩展处理器（64 条 PCIe 4.0 通道）的比较。

4详细配置信息请访问：intel.com/processorclaims，选择 “第四代英特尔至强可扩展处理器”，查看编号“G1”。实际性能受使用情况、配置和其他因素的差异影响。

5,6,7,8 https://www.ksyun.com/nv/activity/X7launch，截止 2023 年 6 月。

9,10 数据援引自截止 2023 年 6 月金山云内部测试结果。测试配置：英特尔至强铂金 8458P 处理器，48vcore，HuggingFace stabilityai/stable-diffusion-2-1。英特尔并不控制或审计第三方数据。请您审查该内容，咨询其他来源，并确认提及数据是否准确。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英特尔

英特尔

+关注

关注
61

文章
9978

浏览量
171882
cpu

cpu

+关注

关注
68

文章
10873

浏览量
212045

原文标题：英特尔® AMX助金山云为用户提供更高效经济的AI服务，Stable-Diﬀusion模型推理性能提升近5倍

文章出处：【微信号：英特尔中国，微信公众号：英特尔中国】欢迎添加关注！文章转载请注明出处。

英特尔与扣子云平台合作推出AI PC Bot专区和端侧插件商店

通过创新的端云协同技术，为开发者提供更为便捷、高效的智能应用开发环境。通过扣子的“端插件”机制，英特尔

发表于 12-31 10:24 •128次阅读

英特尔助力百度智能云千帆大模型平台加速LLM推理

“大模型在各行业的广泛应用驱动了新一轮产业革命，也凸显了在AI算力方面的瓶颈。通过携手英特尔释放英特尔 至强可扩展处理器的算力潜力，我们为

发表于 11-25 16:59 •431次阅读

英特尔AI PC无所不能的实力

百业的最后一公里问题。而客户端的AI能力也在不断提升，最终将解决个人AI的数据隐私和个性化问题。可见，AI非常适合云边端三级架构，按照

发表于 10-12 10:26 •410次阅读

英特尔®至强®可扩展处理器助力智慧医疗的数字化转型

在现代医疗行业，人工智能（AI）、物联网（IoT）和5G网络等前沿技术正在重新定义医疗服务的提供方式。英特尔®至强®可扩展处理器通过在医院从

发表于 09-29 11:13 •6094次阅读

英特尔与百度共同为AI时代打造高性能基础设施

可持续发展等领域的实践与探索，并围绕为AI时代的产业发展和升级提供“芯”动力等话题进行深入探讨。 英特尔市场营销集团副总裁、中国区云与行业解

发表于 09-27 09:48 •281次阅读

开箱即用，AISBench测试展示英特尔至强处理器的卓越推理性能

。中国电子技术标准化研究院赛西实验室依据国家标准《人工智能服务器系统性能测试规范》（征求意见稿）相关要求，使用AISBench 2.0测试工具，完成了第五代英特尔至强可扩展处理器的AI

发表于 09-06 15:33 •354次阅读

英特尔新一代AI PC酷睿Ultra处理器强势来袭

近日，在台北国际电脑展上，英特尔展示了大力加速AI生态的前沿技术和架构，遍及数据中心、云与网络边缘和PC。得益于更高计算处理性能、出色的能效

发表于 06-15 11:39 •873次阅读

金山云发布第九代高效型云服务器SE9

近日，金山云正式发布了基于英特尔®至强®6能效核处理器的第九代云服务器高效型SE9。这款新型

发表于 06-11 09:31 •697次阅读

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

发表于 05-27 11:50 •549次阅读

宁畅B5000 G5多节点服务器采用第五代英特尔至强可扩展处理器

“基于第五代英特尔 至强可扩展处理器的宁畅B5000 G5多节点服务器，可以在满足大量AI推理场景在吞吐量、时延、容量、并发能力等方面的需

发表于 05-27 11:46 •839次阅读

英特尔发布新一代神经拟态系统Hala Point，11.5亿神经元，12倍性能提升

作为英特尔首个神经元数量达到11.5亿的神经拟态系统，Hala Point为更高效、规模更大的AI开辟了道路。 英特尔发布了代号为Hal

发表于 04-19 09:43 •507次阅读

浪潮信息"源2.0"大模型YuanChat支持英特尔最新商用AI PC

% 。企业可以在全新的英特尔商用客户端AI PC上，使用AI PC大模型效率工具"YuanChat"快速本地化部署和运行"源2.0"大模型，

发表于 03-27 22:52 •519次阅读

浪潮信息与英特尔合作推出一种大模型效率工具“YuanChat”

3月26日，浪潮信息与英特尔正式宣布，浪潮信息“源2.0系列基础大模型”已和最新的英特尔® 酷睿™ Ultra处理器平台完成适配，本地推理速度提升

发表于 03-27 13:50 •643次阅读

阿里云第八代企业级实例g8i搭载第五代英特尔至强可扩展处理器

+CIPU」架构体系，ECS g8i 实例的整机性能最高提升 85%*，AI 推理性能最高提升 7 倍

发表于 01-15 11:28 •960次阅读

英特尔AMX助华栖云多场景AI推理性能大幅提升多达96倍

AI技术应用已经深入到各行各业，特别是云服务提供商将AI能力集成到云

发表于 01-13 10:46 •1023次阅读