0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔® AMX助金山云为用户提供更高效经济的AI服务,Stable-Diffusion模型推理性能提升近5倍

英特尔中国 来源:未知 2023-08-04 20:55 次阅读

人工智能已经成为推动数字化创新的重要动力,伴随着 AIGC 等应用的快速落地,深度学习模型规模与复杂度不断提升,数据量也持续增长,人工智能算力供给与需求之间的矛盾正在日趋凸显。用户希望优化硬件、软件和算法,在保证模型精度和时延等指标的前提下,提升人工智能端到端流程的性能表现,从而充分释放硬件的潜能,并降低系统总体拥有成本 (TCO),加速人工智能技术的创新。

生成式人工智能(AIGC) 等创新浪潮驱动了人工智能的新一轮增长,模型训练和模型推理成为云服务器的重要负载。要满足人工智能领域的市场需求,云服务提供商需要解决以下挑战:如何加速数据清理、模型推理等人工智能端到端工作流程中的多种工作负载,加快平台的一站式性能。如何高效使用CPU等现有的硬件资源,并且利用客户公有云、私有云和混合云中的服务器资源,以降低硬件成本。如何增强云服务器的灵活性,使其能够在复杂场景中敏捷扩展,支撑传统负载与人工智能等新型工作负载高效运行的需求。

为了帮助用户加速人工智能端到端流程,特别是提升人工智能推理性能,基于第四代英特尔 至强 可扩展处理器的金山云第七代性能保障型云服务器X7进行了针对性优化。服务器采用了处理器内置的英特尔 高级矩阵扩展(英特尔 AMX)加速器,并融合了金山云自主创新的加速技术,能够有效提高人工智能模型的推理性能,同时发挥云服务器在敏捷性、扩展性等方面的优势,助力客户挖掘人工智能时代的价值。

第四代英特尔 至强 及英特尔 AMX使金山云服务器模型推理性能提升3.97倍 - 4.96倍

金山云第七代性能保障型云服务器 X7 搭载英特尔 至强 铂金 8458P 处理器,网络带宽升级至100G,同时支持挂载极速云盘 ESSD ,整体机型在计算、网络、存储多维度进行了深度优化,可为用户提供计算速度更快、网络吞吐更大以及存储更加高效的云服务。

第四代英特尔 至强 可扩展处理器通过创新架构增加了每个时钟周期的指令,每个插槽多达 60个核心,支持 8 通道DDR5内存,有效提升了内存带宽与速度,并通过PCIe 5.0 (80个通道)实现了更高的PCIe带宽提升。第四代英特尔 至强 可扩展处理器提供了出色性能和安全性,可根据用户的业务需求进行扩展。借助内置的加速器,用户可以在人工智 能、分析、云和微服务、网络、数据库、存储等类型的工作负载中获得优化的性能。通过与强大的生态系统相结合,第四代英特尔 至强 可扩展处理器能够帮助用户构建更加高效、安全的基础设施。

wKgaomToPQOAVK3pAAKLtfLF2KM098.png

图:第四代英特尔 至强 可扩展处理器

第四代英特尔至强可扩展处理器在人工智能性能上更进一步,内置了创新的英特尔 AMX 加速引擎。英特尔 AMX 针对广泛的硬件和软件优化,进一步增强了前代技术——矢量神经网络指令 (VNNI) 和 BF16,从一维向量发展为二维矩阵,能够有效利用计算资源,提高高速缓存利用率,以及避免潜在的带宽瓶颈,从而可显着增加人工智能应用程序的每时钟指令数 (IPC),为人工智能工作负载 中的训练和推理带来显著的性能提升。

在计算方面,通过采用最新的第四代英特尔至强 可扩展处理器,金山云新一代云服务器X7计算性能较上一代最大提升60%5 ,同时借助内置的英特尔AMX 原生人工智能加速能力,大幅提高了云服务器的整体性能,更加适用于计算密集型、深度学习等业务场景。 在内存方面,金山云新一代云服务器 X7 支持八通道 DDR5 内存,单条内存带宽高达 4800MT/s,对比上一代实例性能提升50%6 ,更加适用于内存计算等数据密集型业务场景,服务深度学习以及人工智能相关领域。 在网络方面,金山云新一代云服务器 X7 的物理网络升级至 2x 100G,单虚机内网吞吐最高提升至 100G,PPS 提升至最高 2400 万,连接数最高支持 400 万,网络性能大幅提升7 在存储方面,金山云新一代云服务器 X7 支持挂载极速云盘 ESSD,单盘吞吐最高提升至 4GB/s,IOPS 提升至最高 100 万,访问延时降低至 0.2ms ,存储能力显著优化8

得益于第四代英特尔至强 可扩展处理器内置的英特尔AMX 技术,金山云新一代云服务器 X7 加速了人工智能推理性能,并在AIGC等负载中有着卓越的表现。

金山云测试了金山云新一代云服务器 X7在Stable-Diffusion模型推理中的性能表现。Stable- Diffusion是一种基于机器学习的生成 式人工智能模型,能够根据文本生成高分辨率图像。Stable-Diffusion一般需要数秒完成图片生成,计算量极大,其主要性能瓶颈在多头注意力计算部分 (MHA)。

第四代英特尔至强 可扩展处理器在Stable-Diffusion模型推理中有着卓越的性能表现,这源于其在算法上面的优化。针对该模型的 MHA 计算瓶颈,英特尔基于PyTorch 优化的 Intel-Extension-for-PyTorch (IPEX) 插件在2.0 版本发布了基于至强 可扩展处理器平台的Flash Attention算法,主要内容包括以合适的尺寸拆分矩阵计算,实现更高效的缓存利用;使用张量 AMX- BF16 加速MHA矩阵计算,达到更快的速度;将计算缓存区与线程绑定,实现更少的内存开销。

在搭载英特尔至强 铂金 8458P处理器的金山云新一代云服务器X7上,双方对 Stable-Diffusion模型推理性能进行了测试。测试数据如图所示,相较优化之前的模型,在使用 IPEX 2.0 BF16优化之后,Stable-Diffusion模型推理性能提升了3.97倍- 4.96倍9

wKgaomToPQOAKaQFAAFILaX_UTU759.png

图:Stable-Diffusion 模型优化前后性能对比10

赋能云服务器AI性能提升,英特尔携手合作伙伴为云上AI用户提供既高效又经济的解决方案

云服务器已经成为用户扩展人工智能创新,承载模型训练、模型推理等应用需求的重要选择,通过采用内置英特尔AMX 加速器的四代英特尔 至强 可扩展处理器,金山云第七代性能保障型云服务器X7能够显著加速AIGC等模型的性能表现,在端到端人工智能流程中的优势突出。而且,该方案不需要部署独立的加速器,因此在经济性方面有着更佳的表现。具体来讲,它为用户的云上业务带来的收益包括:

更高的性能,能够满足广泛实际应用场景的对于性能的需求。特别是在人工智能性能方面,金山云新一代云服务器 X7 能够有效加速AIGC等应用的运行。 通过英特尔 AMX 的应用以及算法优化,充分释放了硬件潜力,有效利用服务器资源,从而降低了端到端人工智能应用流程的TCO。 不受限于特定应用类型,能够灵活应对深度学习、数据库、高网络收发包等负载的支撑需求,实现更高的敏捷性与扩展性。

在当前合作成果的基础上,英特尔与金山云还将对第七代性能保障型云服务器X7进行进一步合作优化,包括验证服务器在更多场景中的性能表现、通过软件与算法优化进一步释放硬件潜力等,进而为用户提供更加卓越的云服务。同时,英特尔也将通过更多云服务合作伙伴,为云上的AI用户提供更高效、经济的解决方案。

参考资料

1 数据来源自第四代英特尔 至强 可扩展处理器的最大核数(60 核)与第三代英特尔 至强 可扩展处理器的最大核数(40 核)的比较。

2 详细配置信息请访问:intel.com/processorclaims,选择 “第四代英特尔 至强 可扩展处理器”,查看编号“G2”。实际性能受使用情况、配置和其他因素的差异影响。

3 数据来源自第四代英特尔 至强 可扩展处理器(80 条 PCIe 5.0 通道)与第三代英特尔 至强 可扩展处理器(64 条 PCIe 4.0 通道)的比较。

4详细配置信息请访问:intel.com/processorclaims,选择 “第四代英特尔 至强 可扩展处理器”,查看编号“G1”。实际性能受使用情况、配置和其他因素的差异影响。

5,6,7,8 https://www.ksyun.com/nv/activity/X7launch,截止 2023 年 6 月。

9,10 数据援引自截止 2023 年 6 月金山云内部测试结果。测试配置:英特尔 至强 铂金 8458P 处理器,48vcore,HuggingFace stabilityai/stable-diffusion-2-1。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    9978

    浏览量

    171882
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10873

    浏览量

    212045

原文标题:英特尔® AMX助金山云为用户提供更高效经济的AI服务,Stable-Diffusion模型推理性能提升近5倍

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英特尔与扣子平台合作推出AI PC Bot专区和端侧插件商店

    通过创新的端协同技术,开发者提供更为便捷、高效的智能应用开发环境。 通过扣子的“端插件”机制,英特尔
    的头像 发表于 12-31 10:24 128次阅读

    英特尔助力百度智能千帆大模型平台加速LLM推理

    “大模型在各行业的广泛应用驱动了新一轮产业革命,也凸显了在AI算力方面的瓶颈。通过携手英特尔释放英特尔 至强 可扩展处理器的算力潜力,我们
    的头像 发表于 11-25 16:59 431次阅读
    <b class='flag-5'>英特尔</b>助力百度智能<b class='flag-5'>云</b>千帆大<b class='flag-5'>模型</b>平台加速LLM<b class='flag-5'>推理</b>

    英特尔AI PC无所不能的实力

    百业的最后一公里问题。而客户端的AI能力也在不断提升,最终将解决个人AI的数据隐私和个性化问题。可见,AI非常适合边端三级架构,按照
    的头像 发表于 10-12 10:26 410次阅读

    英特尔®至强®可扩展处理器助力智慧医疗的数字化转型

    在现代医疗行业,人工智能(AI)、物联网(IoT)和5G网络等前沿技术正在重新定义医疗服务提供方式。英特尔®至强®可扩展处理器通过在医院从
    发表于 09-29 11:13 6094次阅读
    <b class='flag-5'>英特尔</b>®至强®可扩展处理器助力智慧医疗的数字化转型

    英特尔与百度共同为AI时代打造高性能基础设施

    可持续发展等领域的实践与探索,并围绕AI时代的产业发展和升级提供“芯”动力等话题进行深入探讨。 英特尔市场营销集团副总裁、中国区与行业解
    的头像 发表于 09-27 09:48 281次阅读
    <b class='flag-5'>英特尔</b>与百度共同为<b class='flag-5'>AI</b>时代打造高<b class='flag-5'>性能</b>基础设施

    开箱即用,AISBench测试展示英特尔至强处理器的卓越推理性能

    。 中国电子技术标准化研究院赛西实验室依据国家标准《人工智能服务器系统性能测试规范》(征求意见稿)相关要求,使用AISBench 2.0测试工具,完成了第五代英特尔至强可扩展处理器的AI
    的头像 发表于 09-06 15:33 354次阅读
    开箱即用,AISBench测试展示<b class='flag-5'>英特尔</b>至强处理器的卓越<b class='flag-5'>推理性能</b>

    英特尔新一代AI PC酷睿Ultra处理器强势来袭

    近日,在台北国际电脑展上,英特尔展示了大力加速AI生态的前沿技术和架构,遍及数据中心、与网络边缘和PC。得益于更高计算处理性能、出色的能效
    的头像 发表于 06-15 11:39 873次阅读

    金山发布第九代高效服务器SE9

    近日,金山正式发布了基于英特尔®至强®6能效核处理器的第九代服务高效型SE9。这款新型
    的头像 发表于 06-11 09:31 697次阅读

    英特尔助力京东用CPU加速AI推理,以大模型构建数智化供应链

    英特尔助力京东用CPU加速AI推理,以大模型构建数智化供应链
    的头像 发表于 05-27 11:50 549次阅读
    <b class='flag-5'>英特尔</b>助力京东<b class='flag-5'>云</b>用CPU加速<b class='flag-5'>AI</b><b class='flag-5'>推理</b>,以大<b class='flag-5'>模型</b>构建数智化供应链

    宁畅B5000 G5多节点服务器采用第五代英特尔至强可扩展处理器

    “基于第五代英特尔 至强 可扩展处理器的宁畅B5000 G5多节点服务器,可以在满足大量AI推理场景在吞吐量、时延、容量、并发能力等方面的需
    的头像 发表于 05-27 11:46 839次阅读
    宁畅B5000 G<b class='flag-5'>5</b>多节点<b class='flag-5'>服务</b>器采用第五代<b class='flag-5'>英特尔</b>至强可扩展处理器

    英特尔发布新一代神经拟态系统Hala Point,11.5亿神经元,12性能提升

    作为英特尔首个神经元数量达到11.5亿的神经拟态系统,Hala Point更高效、规模更大的AI开辟了道路。   英特尔发布了代号为Hal
    的头像 发表于 04-19 09:43 507次阅读
    <b class='flag-5'>英特尔</b>发布新一代神经拟态系统Hala Point,11.5亿神经元,12<b class='flag-5'>倍</b><b class='flag-5'>性能</b><b class='flag-5'>提升</b>

    浪潮信息&quot;源2.0&quot;大模型YuanChat支持英特尔最新商用AI PC

    % 。企业可以在全新的英特尔商用客户端AI PC上,使用AI PC大模型效率工具"YuanChat"快速本地化部署和运行"源2.0"大模型
    的头像 发表于 03-27 22:52 519次阅读
    浪潮信息&quot;源2.0&quot;大<b class='flag-5'>模型</b>YuanChat支持<b class='flag-5'>英特尔</b>最新商用<b class='flag-5'>AI</b> PC

    浪潮信息与英特尔合作推出一种大模型效率工具“YuanChat”

    3月26日,浪潮信息与英特尔正式宣布,浪潮信息“源2.0系列基础大模型”已和最新的英特尔® 酷睿™ Ultra处理器平台完成适配,本地推理速度提升
    的头像 发表于 03-27 13:50 643次阅读
    浪潮信息与<b class='flag-5'>英特尔</b>合作推出一种大<b class='flag-5'>模型</b>效率工具“YuanChat”

    阿里第八代企业级实例g8i搭载第五代英特尔至强可扩展处理器

    +CIPU」架构体系,ECS g8i 实例的整机性能最高提升 85%*,AI 推理性能最高提升 7
    的头像 发表于 01-15 11:28 960次阅读
    阿里<b class='flag-5'>云</b>第八代企业级实例g8i搭载第五代<b class='flag-5'>英特尔</b>至强可扩展处理器

    英特尔AMX华栖多场景AI推理性能大幅提升多达96

    AI技术应用已经深入到各行各业,特别是服务提供商将AI能力集成到
    的头像 发表于 01-13 10:46 1023次阅读
    <b class='flag-5'>英特尔</b><b class='flag-5'>AMX</b><b class='flag-5'>助</b>华栖<b class='flag-5'>云</b>多场景<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>大幅<b class='flag-5'>提升</b>多达96<b class='flag-5'>倍</b>