在Arm虎视眈眈,RISC-V新秀崛起的处境下,x86处理器内部的竞争也进入了白热化阶段。AMD继推出Zen CPU架构以来,总市场份额上正在一步步迎头赶上,虽说桌面和移动CPU上英特尔与AMD打得有来有回,但服务器处理器市场份额上,AMD保持着稳步增长的态势,越来越多的云服务商和数据中心转投了“AMD Yes”的阵营,更是在今年第三季度打破了市占率记录,达到了16%。尽管英特尔依然占据着70%以上的市场,面临多方压力下,这种优势似乎难以继续维持了。
在今年上半年推出了第三代至强可扩展处理器之后,英特尔于近期透露了下一代服务器处理器“Sapphire Rapids”的更多情报。鉴于我们已经在消费级桌面处理器12代酷睿上看到了Intel 7制程带来的惊艳改进,那么同用这一制程的下一代Xeon处理器,是否也能在明年发布之际一鸣惊人呢?
新的I/O与内存
考虑到Sapphire Rapids定于明年发售,AMD的新一代EPYC处理器又发售在即,英特尔并没有公布太多通用计算性能上的情报。但从英特尔在Innovation 2021和Linley Fall Processor两场大会上公布的模组化芯片设计,也能看出Sapphire Rapids并非什么泛泛之辈。
与刚发布的12代酷睿一样,Sapphire Rapids 同样引入了对PCIe 5.0的支持,也在此之上进一步提升了处理器的DDIO和QoS能力。除此之外,CXL 1.1和全新的UPI 2.0也在支持之列。在UPI 2.0的互联技术支持下,
Sapphire Rapids IP布局 / Intel
在服务器和数据中心应用上,内存也是最容易出现瓶颈的一大组成要素。我们可以从芯片原理图中可以看出Sapphire Rapids集成了4个内存控制器,以此最高支持8通道DDR5内存。针对计算或额外开销特别大的场景,英特尔也提供了旗下傲腾持久内存Optane 300系列的支持,作为内存支持的同时也可以作为存储使用。英特尔还将推出支持HBM的版本,提供远高于8通道DDR5的内存带宽。该版本将提供两种HBM模式,一种是HBM Flat模式,支持HBM+DDR5混用或是仅用HBM的模式。另一种是HBM缓存模式,将HBM作为DRAM的备用缓存,类似于一个L4缓存。
通用计算中的AI加速
随着AI逐渐在服务器工作流中提高占比,AI计算能力成了每个服务器处理器都躲不开的参数,这也成了英特尔在宣传Sapphire Rapids时不离口的话题。第三代至强可扩展处理器中,英特尔在其中内置了深度学习加速器和AVX-512向量扩展,为int8和bfloat16数据的推理和训练提供了支持。而在Sapphire Rapids中,英特尔又加入了两大全新加速引擎AMX(先进矩阵扩展)和DSA(数据流加速器)。
AMX架构 / Intel
AMX乃是一种全新的切片式指令集扩展,支持以切片运作的加速器,也是英特尔专为张量运算准备的指令集扩展。该扩展由两部分组成,切片和加速器。切片由8个2D寄存器堆组成,支持加载、清除和设为常量等基础数据运算符。每个寄存器堆大小可达1KB,但设计者也可以根据自己的算法来减小其规模。除此之外,英特尔也已经确认Linux 5.16版本将正式加入对于AMX的支持。
英特尔目前仅发布了TMUL加速器(切片矩阵乘法单元),但AMX是一个可以继续扩展下去的架构,未来还可以加入新的加速器,也可以改进现有的TMUL加速器实现更高的性能,从而在单个指令和单个微操作下表达更多的工作,节省fetch、decode以及OOO的功耗。在测试中,同一个Sapphire Rapids处理器分别使用AMX指令和AVX-512 VNNI,AMX的运算速度是后者的7.8倍。
过去AVX-512的使用中,经常会出现功率上去后频率也随之降低的情况,不少人也担心全新的AMX是否会有类似的情况。英特尔确认在快速自动的得当电源控制下,AMX不会出现AVX的频率抖动现象。
有无DSA的CPU占用对比 / Intel
在高性能存储、连接和密集处理的应用中,人们总是想找到解放处理器核心来提升整体性能的方式。英特尔在这个需求上推出了DSA数据流加速器,DSA可以转移CPU缓存、DDR内存以及其他I/O附加设备的数据,它的目标是为数据转移和转换运算提供更高的总体系统性能,让CPU周期解放出来完成其他更高级的功能。根据英特尔给出的数据,在OpenvSwitch的虚拟交换机应用中,加入DSA分担工作流后,CPU占用率降低了39%,数据转移性能提高了2.5倍。
至强可以替代GPU吗?
我们都知道如今的服务器市场已经不是CPU一家独大的天下了,无论是语音识别还是图像处理,GPU带来的AI计算能力渗透进了每一个场景,任意深度学习“炼丹师”最先考虑的硬件设备也是GPU。在英特尔对Sapphire Rapids的描述中,称其AI性能相较于上一代Ice Lake芯片有了30倍的提升,如此大幅度的提升能够替代GPU吗?
英特尔为Sapphire Rapids给出的对比对象为英伟达的A30 GPU,在ResNet-50 v1.5的图像分类推理中,单个A30的输出速度为15411张每秒,而两个Sapphire Rapids的成绩达到了24000张每秒以上。这一数字对比看起来似乎优势巨大,甚至接近于29855张每秒的A100 GPU,但测试中用到的乃是高端Sapphire Rapids型号(40核以上),无论是功耗和价格都要远超A30。
因而现阶段下,仍在使用大量AI负载的服务器并不会从现有的GPU或ASIC架构迁移。不过Sapphire Rapids本身也并非仅针对AI的特化产品,之所以x86 CPU要费心费力地去提高AI性能,也是面向通用计算与AI结合这样越来越普遍的轻度AI场景。
小结
要想把AMD夺去的市场份额夺回来并不容易,英特尔面临的已经不是本世纪初的双雄争霸局面了。Sapphire Rapids可以说是换帅、换制程和换架构后的首个服务器产品,如果不能一鸣惊人的话,不少客户可能都会被AMD未来更注重成本效能的Zen 4D与Zen 5夺走。而面对Arm、RISC-V、GPU、ASIC等多方入局AI的挑战,如果英特尔仍想保持x86的霸主地位,也必须加速开发自身的Xe服务器GPU,同时继续扩展x86下的AI加速器生态。
在今年上半年推出了第三代至强可扩展处理器之后,英特尔于近期透露了下一代服务器处理器“Sapphire Rapids”的更多情报。鉴于我们已经在消费级桌面处理器12代酷睿上看到了Intel 7制程带来的惊艳改进,那么同用这一制程的下一代Xeon处理器,是否也能在明年发布之际一鸣惊人呢?
新的I/O与内存
考虑到Sapphire Rapids定于明年发售,AMD的新一代EPYC处理器又发售在即,英特尔并没有公布太多通用计算性能上的情报。但从英特尔在Innovation 2021和Linley Fall Processor两场大会上公布的模组化芯片设计,也能看出Sapphire Rapids并非什么泛泛之辈。
与刚发布的12代酷睿一样,Sapphire Rapids 同样引入了对PCIe 5.0的支持,也在此之上进一步提升了处理器的DDIO和QoS能力。除此之外,CXL 1.1和全新的UPI 2.0也在支持之列。在UPI 2.0的互联技术支持下,
Sapphire Rapids IP布局 / Intel
在服务器和数据中心应用上,内存也是最容易出现瓶颈的一大组成要素。我们可以从芯片原理图中可以看出Sapphire Rapids集成了4个内存控制器,以此最高支持8通道DDR5内存。针对计算或额外开销特别大的场景,英特尔也提供了旗下傲腾持久内存Optane 300系列的支持,作为内存支持的同时也可以作为存储使用。英特尔还将推出支持HBM的版本,提供远高于8通道DDR5的内存带宽。该版本将提供两种HBM模式,一种是HBM Flat模式,支持HBM+DDR5混用或是仅用HBM的模式。另一种是HBM缓存模式,将HBM作为DRAM的备用缓存,类似于一个L4缓存。
通用计算中的AI加速
随着AI逐渐在服务器工作流中提高占比,AI计算能力成了每个服务器处理器都躲不开的参数,这也成了英特尔在宣传Sapphire Rapids时不离口的话题。第三代至强可扩展处理器中,英特尔在其中内置了深度学习加速器和AVX-512向量扩展,为int8和bfloat16数据的推理和训练提供了支持。而在Sapphire Rapids中,英特尔又加入了两大全新加速引擎AMX(先进矩阵扩展)和DSA(数据流加速器)。
AMX架构 / Intel
AMX乃是一种全新的切片式指令集扩展,支持以切片运作的加速器,也是英特尔专为张量运算准备的指令集扩展。该扩展由两部分组成,切片和加速器。切片由8个2D寄存器堆组成,支持加载、清除和设为常量等基础数据运算符。每个寄存器堆大小可达1KB,但设计者也可以根据自己的算法来减小其规模。除此之外,英特尔也已经确认Linux 5.16版本将正式加入对于AMX的支持。
英特尔目前仅发布了TMUL加速器(切片矩阵乘法单元),但AMX是一个可以继续扩展下去的架构,未来还可以加入新的加速器,也可以改进现有的TMUL加速器实现更高的性能,从而在单个指令和单个微操作下表达更多的工作,节省fetch、decode以及OOO的功耗。在测试中,同一个Sapphire Rapids处理器分别使用AMX指令和AVX-512 VNNI,AMX的运算速度是后者的7.8倍。
过去AVX-512的使用中,经常会出现功率上去后频率也随之降低的情况,不少人也担心全新的AMX是否会有类似的情况。英特尔确认在快速自动的得当电源控制下,AMX不会出现AVX的频率抖动现象。
有无DSA的CPU占用对比 / Intel
在高性能存储、连接和密集处理的应用中,人们总是想找到解放处理器核心来提升整体性能的方式。英特尔在这个需求上推出了DSA数据流加速器,DSA可以转移CPU缓存、DDR内存以及其他I/O附加设备的数据,它的目标是为数据转移和转换运算提供更高的总体系统性能,让CPU周期解放出来完成其他更高级的功能。根据英特尔给出的数据,在OpenvSwitch的虚拟交换机应用中,加入DSA分担工作流后,CPU占用率降低了39%,数据转移性能提高了2.5倍。
至强可以替代GPU吗?
我们都知道如今的服务器市场已经不是CPU一家独大的天下了,无论是语音识别还是图像处理,GPU带来的AI计算能力渗透进了每一个场景,任意深度学习“炼丹师”最先考虑的硬件设备也是GPU。在英特尔对Sapphire Rapids的描述中,称其AI性能相较于上一代Ice Lake芯片有了30倍的提升,如此大幅度的提升能够替代GPU吗?
英特尔为Sapphire Rapids给出的对比对象为英伟达的A30 GPU,在ResNet-50 v1.5的图像分类推理中,单个A30的输出速度为15411张每秒,而两个Sapphire Rapids的成绩达到了24000张每秒以上。这一数字对比看起来似乎优势巨大,甚至接近于29855张每秒的A100 GPU,但测试中用到的乃是高端Sapphire Rapids型号(40核以上),无论是功耗和价格都要远超A30。
因而现阶段下,仍在使用大量AI负载的服务器并不会从现有的GPU或ASIC架构迁移。不过Sapphire Rapids本身也并非仅针对AI的特化产品,之所以x86 CPU要费心费力地去提高AI性能,也是面向通用计算与AI结合这样越来越普遍的轻度AI场景。
小结
要想把AMD夺去的市场份额夺回来并不容易,英特尔面临的已经不是本世纪初的双雄争霸局面了。Sapphire Rapids可以说是换帅、换制程和换架构后的首个服务器产品,如果不能一鸣惊人的话,不少客户可能都会被AMD未来更注重成本效能的Zen 4D与Zen 5夺走。而面对Arm、RISC-V、GPU、ASIC等多方入局AI的挑战,如果英特尔仍想保持x86的霸主地位,也必须加速开发自身的Xe服务器GPU,同时继续扩展x86下的AI加速器生态。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
处理器
+关注
关注
68文章
19135浏览量
228931 -
amd
+关注
关注
25文章
5429浏览量
133867 -
英特尔
+关注
关注
60文章
9874浏览量
171365 -
cpu
+关注
关注
68文章
10816浏览量
210954 -
服务器
+关注
关注
12文章
8986浏览量
85122
发布评论请先 登录
相关推荐
Intel预告下一代至强处理器:Diamond Rapids携LGA9324接口震撼登场
据8月23日最新消息,Intel 已在紧锣密鼓地准备其下一代至强处理器的安装测试工具,这款代号“Diamond Rapids”的处理器预示着又一
IaaS+on+DPU(IoD)+下一代高性能算力底座技术白皮书
大规模生产环境落地应用的条件。某种程度上,IoD 技术已成为下一代高性能算力底座的核心技术与最佳实践。
白皮书下载:*附件:IaaS+on+DPU(IoD)+下一代高性能算力底座+技术白皮书(1).pdf
发表于 07-24 15:32
金山云发布第九代高效型云服务器SE9
近日,金山云正式发布了基于英特尔®至强®6能效核处理器的第九代云服务器高效型SE9。这款新型云服务器在计算性能和性价比上均实现了显著提升,为
AMD计划采用三星3nm GAA制程量产下一代芯片
在近日于比利时微电子研究中心(imec)举办的2024年全球技术论坛(ITF World 2024)上,AMD首席执行官苏姿丰透露了公司的最新技术动向。她表示,AMD将采用先进的3nm GAA(Gate-All-Around)制程技术来量产其
超微发布新款AMD H13代CPU服务器产品
超微(Supermicro)近日宣布推出全新AMD H13代CPU服务器产品系列,再度巩固其在人工智能、云技术、存储和5G/边缘计算领域的领先地位。此次新品在性能和效率上均实现了卓越平衡,搭载
华硕微星发布AGESA固件更新,确认兼容AMD新一代Ryzen处理器
近日,华硕与微星先后对 AMD 600 系列主板推出AGESA固件更新,确认了其兼容“下一代AMD Ryzen CPU”的能力;技嘉亦证实,下一代Ryzen桌面处理
台达推出提高人工智能服务器和数据中心能效的下一代电源解决方案
台达电子(Delta)是电源与散热管理解决方案的领导厂商,在IEEE应用电力电子会议暨博览会(APEC)2024上,推出了提高人工智能(AI)服务器和数据中心能效的下一代电源解决方案。
BlackBerry宣布与AMD合作革新下一代机器人系统
德国,纽伦堡 – 2024年4月9日 – 在今日举行的国际嵌入式展会(Embedded World)上,BlackBerry(纽约证券交易所代码:BB;多伦多证券交易所代码:BB)宣布与AMD合作,旨在通过实现新水平的低延迟、低抖动和可重复确定性,革新下一代机器人系统。
第五代英特尔至强处理器,AI特化的通用服务器CPU
电子发烧友网报道(文/周凯扬)随着AI已经成了数据中心与服务器市场的主流应用,就连通用服务器CPU,也开始着重加强AI计算能力。为此,英特尔于去年年底发布了第五代
英特尔展示下一代至强处理器,助力vRAN性能显著提升
里程碑事件不仅凸显了移动行业推动vRAN和Open RAN发展的长期投入,也表明了英特尔正在持续践行其以领先的产品路线图助力行业发展的坚定承诺。代号为Granite Rapids–D的下一代至强处理器将于2025年发布,这款处理
AMD选择三星代工厂制造下一代的4nm Zen 5c架构产品
AMD一向倾向于使用台积电打造其最先进的硅设计,当然,并不包括他们目前正在研发中的下一代Zen 5c架构产品。根据一份来自台湾的新报告,AMD
评论