电子发烧友网报道(文/黄晶晶)生成式人工智能(GenAI)经历2023年的兴起,在2024年迎来新的高度,近期文生视频又火爆全网。GenAI将渗透到教育、就业、制造、医疗和交通等各个领域,创新应用不断涌现。这其中除了GPU对AI至关重要之外,不断优化的CPU性能同样必不可少。在AI时代,以Arm为代表的半导体设计及软件平台公司为这些创新奠定基石。
Arm高级副总裁兼基础设施事业部总经理Mohamed Awad分析,计算正越来越专用化,通用CPU不再能满足需求。以基础设施领域来看,计算转型持续朝向更复杂的仓库级计算。与此同时,许多头部企业正在打造定制芯片,并希望对支持云计算关键工作负载的计算进行优化。
近日,Arm 宣布推出两款全新 Arm Neoverse 计算子系统 (CSS) —— Neoverse CSS N3 和 Neoverse CSS V3,专注于释放芯粒等新技术的潜力,并更大限度地优化实际工作负载的 TCO,这对于包括AI、数据库、网络等在内的整个生态系统至关重要。
CSS N3 和 CSS V3均基于全新的第三代 Neoverse IP 构建,N 系列聚焦能效,而V系列平台针对性能优先,这也是V系列首次引入CSS。
Neoverse CSS N3和CSS V3性能显著提升
据Arm 基础设施事业部产品解决方案副总裁 Dermot O’Driscoll介绍,CSS N3在进行了调优后,提供满足基础设施性能要求的高效计算。CSS N3与CSS N2 相比,其每核心的每瓦性能提升20%。CSS N3 的首个实例可提供 32 核,热设计功耗 (TDP) 低至 40W。其可扩展性非常强,可覆盖电信、网络和 DPU 等一系列应用。同时还考虑到横向扩展云配置。CSS N3 基于新的 Neoverse N3 IP 平台打造,为 N 系列产品引入了 Armv9.2 功能,能为每个核心提供 2MB 的专用 L2 缓存,并支持最新的 PCIe 和 CXL I/O 标准以及 UCIe 芯粒标准。
CSS V3 基于新的Neoverse V3 核心打造,是 Arm 目前单线程性能最高的 Neoverse 核心。与CSS N2 产品相比,CSS V3的单芯片性能提高了50%。CSS V3 在单芯片上最多可扩展至 128 核,并支持最新的高速内存和 I/O 标准。V3 为 Arm 机密计算架构 (CCA) 提供硬件支持。V3也可提供业界领先的专用 L2 缓存大小,显著改善性能表现。
以下(见下图)是基于 Neoverse N 系列和 V 系列打造的芯片在一些关键工作负载下的性能数据。Dermot O’Driscoll表示,这种代际产品之间的性能提升只有通过 Arm 才能实现,因为 Arm 能让客户掌握创新的步伐,而不受制于技术供应商。
与AI的耦合,面向AI基础设施
新的CPU核心带来全方位的良好提升,包括从视频处理到 SQL 数据库的性能均有所跃进。N 系列在压缩方面取得性能优势,可降低云服务运营商的成本,并最终降低云服务客户的成本。V 系列显著提高了协议缓冲区的性能,这是在数据中心内传输数据的一项关键功能。在这里,Dermot O’Driscoll重点解析了通过分析关键工作负载核心的任务算法,对微架构进行调整从而获得的性能效果。
AI数据分析工作负载就是最好的例证。XGBoost 是一种强大且广泛使用的机器学习 (ML) 算法,可以帮助人们理解数据并做出更明智的决策。例如为人们推荐下一个媒体内容,预测高峰时段的打车费用,以及等提供相关的机票优惠等等。
在这个用例中(见下图),通过改进分支预测,更好地管理最后一级缓存和相关内存带宽,以及大幅增加 L2 缓存。其结果令人惊叹,N3 的性能提升高达 196%。
目前行业重点放在训练大语言模型(LLM)上,但更多业务落地在AI推理。分析师认为,已部署的 AI 服务器中有高达 80% 专用于推理。也就是说找到合适的模型和模型配置,并加以训练,然后将其部署到更具成本效益的计算基础设施上。
Dermot O’Driscoll表示,这一转变意味着吞吐量是考量因素之一,而在基于 Arm 架构的芯片上,Token 生成吞吐量表现相当优异。其他考量因素还包括灵活性、易于部署,可支持各种软件框架,具备低成本和高能效等优势。CPU 推理将是生成式AI计算应用的关键组成。下图为Arm在CPU推理的 LLM 优化方面的初步数据。可以看到,这些工作负载已从 ML 专用的 Neoverse 功能(如 Bfloat16、MatMul、SVE 和 SVE2),以及微架构优化中受益。
当然,除了CPU的AI推理,AI加速器也备受关注。据最新统计,打造 AI 加速器的公司已接近 80 家。以NVIDIA来看,NVIDIA不仅利用其领先的 Hopper GPU,同时也使用了基于 Neoverse V2 平台的紧耦合计算芯粒Grace。Dermot O’Driscoll谈到,NVIDIA Grace Hopper 的一大关键创新在于内存容量和共享内存模式。这种紧耦合的 CPU 加上加速器配置,对大参数 LLM 非常有益,对检索-增强-生成 (RAG) 等新兴方法也很有帮助。Neoverse CSS 是专为帮助客户在基于Arm领先的 CPU 平台上,快速打造通用计算芯粒而推出的产品。它能提供客户所需的所有接口,以便选择耦合自身的加速器。
通用芯粒互连技术 (UCIe) 是一项行业标准,旨在解决芯粒物理层兼容性的问题。Arm和生态系统合作伙伴正积极参与这个项目。协议层存在多种标准,包括 PCIe、CXL 和 AMBA。Arm 深入参与到 AMBA CHI,引入芯片到芯片 (C2C) 的扩展功能,但系统架构层面仍面临难题。例如,怎样在设计时对芯粒进行逻辑分区,如何设置直接内存访问 (DMA) 和中断、电源和安全等管理功能,要建立可互操作的生态系统,就需要在生态系统层面一致地解决这些问题。
Arm近期发布了芯粒系统架构 (Chiplet System Architecture, CSA) ,正与 20 多家合作伙伴一同对此进行审核,齐心协力推动整个 Arm 生态系统释放芯粒技术的潜力。
Arm全面设计生态项目不断壮大
去年十月,Arm将广泛的半导体产业汇聚一起,借由 Arm 全面设计,围绕 Arm 计算子系统开展创新设计。仅仅推出短短四个月内,Arm 全面设计已经有 20 多家成员加入。其中包括新的 EDA 和配套 IP 提供商,以及来自包括韩国、中国台湾、中国大陆和印度等战略市场的芯片设计合作伙伴。Arm基础设施事业部营销副总裁 Eddie Ramirez表示,Arm正在与三家主要代工厂合作,以确保 CSS 产品能在其先进工艺节点上进行优化。定制芯片离不开可靠供应链的支持,唯有 Arm 可提供多样的技术和选择。
去年,Socionext 成为首家宣布计划在台积公司领先的2纳米工艺上开发基于CSS芯粒的合作伙伴。这款配置 32 核的芯粒可与其他芯粒结合使用,提供可扩展且经济高效的计算解决方案。该设计将基于新推出的Neoverse CSS V3 来打造。
智原科技也在构建基于芯粒的服务器芯片,该芯片将搭载 64 颗 N 系列核心,并基于英特尔代工服务的 18A 工艺节点进行生产制造。
此外,ADTechnology 将提供高性价比的16 核 CSS N 系列边缘服务器平台,他们将与三星代工厂合作,为边缘计算释放更强大的算力。
Arm 全面设计合作伙伴正在打造多款基于 CSS 的 SoC,以赋能新一代 AI 服务器,并借助各大代工厂的前沿工艺完成这项任务。
Arm软件生态系统优势凸显
Arm软件生态系统也在迅速扩展,帮助开发者简化部署流程,提高采用 Arm技术的硬件的生产效率。Eddie Ramirez介绍说,去年,80%的云原生计算基金会 (CNCF) 毕业项目原生支持 Arm 架构。CNCF是开源云原生软件领域的中坚力量,也是当今许多现代软件和云服务的基础。Arm 与云服务提供商一同提供可免费访问的基于 Neoverse 平台的云实例,以简化软件开发者的资源访问路径。例如,OCI 最近宣布计划向 CNFC 捐赠 300 万美元的计算积分,旨在助力实现所有项目支持 Arm 架构。
再来看Arm Neoverse 软件生态系统,它正在不断扩展以满足基础设施软件应用领域的所有开发者的需求。从主流编程语言、软件工具、所有主要 Linux 发行版,到支持网络、存储和大数据以及 AI 应用的项目,这包括软件栈各个级别的知名开源企业。此外还包括大量独立软件供应商 (ISV),他们可提供各类应用和 SaaS 产品。这一生态系统正成为云服务提供商部署其云服务的上佳之选,以便能够充分利用 Arm 提供的 TCO 优势。
此外,主要的企业软件 ISV 承诺将 Arm 平台用于其核心产品组合。Oracle 发布的 Oracle Database 19c 支持基于 Arm 架构的服务器,可用于云端和本地部署。这种向传统企业软件的转变,以及部分大型 ISV 的投资,是 Arm 生态系统不断扩展的又一例证。
Eddie Ramirez表示,超过 15 年在 Neoverse 软件生态系统的投资,让Arm实现了强大的软件支持水平,助力超过五万家公司在支持 Arm 的基础设施上部署关键工作负载。这也是 Arm 及其合作伙伴生态系统降低部署成本,并提高正在部署的各类定制芯片可用性的另一种方式。
小结:
过去几年,Arm 能够在基础设施领域取得不小的进展,Mohamed Awad认为主要是卓越性能、灵活性以及生态系统三方面助力。
如今,AI 正成为包括网络、安全和存储等诸多领域不可或缺的一部分,它可应用到包括小型终端到交换机、路由器和基站等各种设备在内的整个基础设施中。Arm 在软件、 IP 和芯片生态系统中提供出色性能和灵活性,从而降低配置的总成本并加速产品上市。Arm 将持续发挥关键作用,协助科技先行者解决由AI转型带来的不断增长的数据和计算需求。
-
AI
+关注
关注
87文章
30763浏览量
268914
发布评论请先 登录
相关推荐
评论