英伟达Grace Hopper CPU架构-电子发烧友网

英伟达的 Grace CPU 和 Grace Hopper Superchip 有望在 2023 年初发布。

英伟达在下周的 Hot Chips 34 发布会之前宣布了有关Grace CPU Superchip的新细节，并透露该芯片采用4N工艺制造。英伟达还分享了有关架构、数据结构、性能和效率基准的更多信息。Grace芯片和服务器将在2023年上半年投入市场。

英伟达的Grace CPU是该公司第一款专为数据中心设计的CPU专用Arm芯片，在一块主板上有两个芯片，共144个核心，而Grace Hopper超级芯片则将Hopper GPU和Grace CPU结合在同一块板上。在披露中，英伟达最终正式确认 Grace CPU 使用 TSMC 4N 工艺。台积电在其5nm节点系列中列出了“N4”4nm工艺，将其描述为5nm节点的增强版。英伟达使用该节点的专用变体，称为“4N”，专门针对其GPU和CPU进行了优化。

随着摩尔定律的减弱，这些类型的专用节点变得越来越普遍，随着每个新节点的出现，晶体管的缩小变得越来越困难，成本也越来越高。为了实现英伟达4N等定制工艺节点，芯片设计公司和代工厂携手合作，使用设计技术协同优化（DTCO）为其特定产品输入定制功率、性能和面积（PPA）特性。

英伟达此前曾透露，其 Grace CPU 使用现成的Arm Neoverse内核作为其Grace CPU，但该公司尚未指定使用哪种特定版本。然而，英伟达披露，Grace使用Arm v9内核并支持SVE2，Neoverse N2平台是Arm第一个支持Arm V7和SVE2等扩展的IP。N2 Perseus 平台采用 5nm 设计（N4 属于 TSMC 的 5nm 系列）并支持 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。Perseus 设计针对每功率性能（瓦特）和每面积性能进行了优化。Arm 表示，其下一代核心 Poseidon 要到 2024 年才会上市，考虑到 Grace 2023 年初的发布日期，这些核心不太可能成为候选者。

英伟达Grace Hopper CPU 架构

英伟达的新NVDIA calable Coherency Fabric (SCF) 是一种网状互连，与Arm Neoverse核心使用的标准CMN-700相干网状网络非常相似。

英伟达SCF 在各种 Grace 芯片单元（如 CPU 内核、内存和 I/O）之间提供 3.2 TB/s 的双向带宽，更不用说将芯片连接到主板上其他单元（无论是另一个Grace CPU还是Hopper GPU）的NVLink-C2C接口。

该网格支持 72+ 个内核，每个 CPU 有 117MB 的总 L3 缓存。英伟达表示，上面图片中的第一个方框图是“出于说明目的的可能拓扑结构”，其对齐方式与第二个方框图不完全一致。

此图显示了具有8个SCF缓存分区（SCC）的芯片，这些分区看起来是L3缓存片以及8个CPU单元。SCC 和内核以两个一组连接到缓存交换节点 (CSN)，然后 CSN 驻留在 SCF 网状结构上，以提供CPU核心和芯片其余部分的存储器之间的接口。SCF 还通过 Coherent NVLink 支持多达四个插槽的一致性。

英伟达还分享了上图，显示每个Grace CPU支持多达68个PCIe通道和多达4个PCIe 5.0 x16连接。每个x16连接支持高达128 GB/s的双向吞吐量（x16链路可以分成两个x8链路），还有16个双通道LPDDR5X内存控制器（MC）。然而，这张图与第一张图不同——它将 L3 缓存显示为连接到四核 CPU 集群的两个连续块，这比之前的图更有意义，芯片中总共有 72 个内核。但是，我我们在第一张图中没有看到单独的SCF分区或CSN节点。

英伟达官方表示，Scalable Coherency Fabric (SCF) 是其专有设计，但 Arm 允许其合作伙伴通过调整核心数量、缓存大小和使用不同类型的内存（如 DDR5 和 HBM）来定制 CMN-700 网格，以及选择各种接口，如 PCIe 5.0、CXL 和 CCIX。这意味着英伟达有可能为片上结构使用高度定制的 CMN-700 实现。

英伟达Grace Hopper 扩展 GPU 内存

GPU 需要高的内存吞吐量，因此，英伟达将目光转向提高内存吞吐量，不仅是芯片内部，还包括CPU和GPU之间。Grace CPU 有 16 个双通道 LPDDR5X 内存控制器，最多可支持 32 个通道，支持高达 512 GB 的内存和高达 546 GB/s 的吞吐量。英伟达表示，由于容量和成本等多种因素，它选择了 LPDDR5X 而不是 HBM2e。同时，与标准 DDR5 内存相比，LPDDR5X 提供了 53% 的带宽和 1/8 的每 GB 功耗，使其成为更好的选择。

英伟达还推出了扩展 GPU 内存 (EGM)，它允许 NVLink 网络上的任何 Hopper GPU 访问网络上任何 Grace CPU 的 LPDDR5X 内存。

英伟达的目标是提供一个统一的内存池，可以在 CPU 和 GPU 之间共享，从而在简化编程模型的同时提供更高的性能。Grace Hopper CPU+GPU 芯片支持具有共享页表的统一内存，这意味着芯片可以与 CUDA 应用程序共享地址空间和页表，并允许使用系统分配器来分配 GPU 内存。

英伟达NVLink-C2C

CPU 内核是计算引擎，但互连是决定计算未来的战场。移动数据比实际计算数据消耗更多的能量，因此更快、更有效地移动数据，甚至避免数据传输，是一个关键目标。

英伟达的Grace CPU由一块板上的两个 CPU 组成，而 Grace Hopper Superchip 则由同一块板上的一个 Grace CPU 和一个 Hopper GPU 组成，旨在通过专有的NVLink芯片到芯片（C2C）互连最大化单元之间的数据传输，并提供一致性内存，以减少或消除数据传输。

英伟达分享了有关其 NVLink-C2C 互连的新细节，这是一种支持内存一致性的芯片到芯片和芯片到芯片互连，可提供高达 900 GB/s 的吞吐量（是 PCIe 5.0 x16 链路带宽的 7 倍）。该接口使用 NVLink 协议，英伟达使用其 SERDES 和 LINK 设计技术精心设计了该接口，重点关注能源和面积效率。NVLink-C2C 也支持行业标准协议，如 CXL 和 Arm 的 AMBA 相干集线器接口（CHI — Neoverse CMN-700 网格的CHI-key）。它还支持多种类型的连接，从基于PCB的互连到硅中介层和晶圆级实现。

功率效率是所有数据结构的一个关键指标，如今，英伟达共享链路传输的数据每比特消耗1.3微微焦耳（pJ/b）。这是 PCIe 5.0 接口效率的 5 倍，但它是未来将上市的 UCIe 互连（0.5 到 0.25 pJ/b）功率的两倍多。封装类型各不相同，C2C link为英伟达提供了性能和效率的完美结合，以满足其特定的使用情况。

英伟达Grace CPU 基准测试

英伟达的新基准是SpecIntRate 2017基准中单台Grace CPU的370分。这英伟达已经共享了一个多CPU基准，在SPECTINTRATE2017基准中，两个Grace CPU的得分为740。显然，这表明两个芯片的线性缩放改进。

AMD目前的第二代EPYC Milan芯片是数据中心目前的性能领导者，发布的规格结果从382到424片不等，这意味着高端x86芯片仍将保持领先地位。然而，英伟达的解决方案将具有许多其他优势，如功率效率和更GPU友好的设计。

英伟达分享了其内存吞吐量基准，表明Grace CPU在CPU内存吞吐量测试中可以提供约500 GB/s的吞吐量。英伟达还声称，该芯片还可以将高达506Gb/s的组合读/写吞吐量推送到连接的Hopper GPU，并在读吞吐量测试期间将CPU到GPU的带宽计时为429Gb/s，在写入时为407Gb/秒。

Grace Hopper ARM系统准备好了吗？

英伟达还宣布 Grace CPU Superchip 将遵守获得 System Ready 认证的必要要求。以获得系统就绪认证。该认证意味着Arm芯片将与操作系统和软件一起“正常工作”，从而简化部署。Grace 还将支持虚拟化扩展，包括嵌套虚拟化和 S-EL2 支持。英伟达还列出了对以下内容的支持：

nRAS v1.1 通用中断控制器 (GIC) v4.1

n内存分区和监控 (MPAM)

n系统内存管理单元 (SMMU) v3.1

nArm 服务器基础系统架构 (SBSA) 可实现符合标准的硬件和软件接口

此外，为了在基于 Grace CPU 的系统上启用标准引导流程，Grace CPU被设计为支持Arm服务器基本引导要求（SBBR）。

对于缓存和带宽分区以及带宽监控，Grace CPU还支持Arm内存分区和监控（MPAM）。Grace CPU 还包括 Arm 性能监控单元，允许对 CPU 内核以及片上系统 (SoC) 架构中的其他子系统进行性能监控。这使得标准工具（例如 Linux perf）能够用于性能调查。英伟达的 Grace CPU 和 Grace Hopper Superchip 有望在 2023 年初发布，其中 Hopper 变体适用于 AI 训练、推理和 HPC，而双 CPU Grace 系统则专为 HPC 和云计算工作负载而设计。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
10918

浏览量
213193
架构

架构

+关注

关注
1

文章
520

浏览量
25568
英伟达

英伟达

+关注

关注
22

文章
3855

浏览量
92101

原文标题：详解英伟达Grace Hopper CPU 超级芯片设计

文章出处：【微信号：ICViews，微信公众号：半导体产业纵横】欢迎添加关注！文章转载请注明出处。

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

英伟达Grace Hopper CPU架构

评论

英伟达CEO确认：液冷Grace Blackwell服务器无过热问题

英伟达进军ARM架构CPU市场，预计2025年推出新产品线

今日看点丨苹果与富士康接洽，商讨在中国台湾生产AI服务器；英伟达正在开发一款基于ARM架构的新型CPU

英伟达计划2025年推出基于Arm架构的消费级CPU,挑战英特尔和AMD

软银升级人工智能计算平台,安装4000颗英伟达Hopper GPU

英伟达:Hopper芯片需求强劲英伟达发言人谈生产增长

亚马逊AWS暂缓采购英伟达GH200芯片，期待Blackwell更强

亚马逊AWS暂缓订购英伟达Grace Hopper，等待新品Grace Blackwel

亚马逊未中断英伟达订单，等待Grace Blackwell更强性能

英伟达静候新品来临，亚马逊暂缓购买Grace Hopper

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

美国首个Grace Hopper架构超算Venado落地：达10 exaFLOPS

新思科技携手英伟达：基于加速计算、生成式AI和Omniverse释放下一代EDA潜能

全球最小英伟达GH200服务器发布：永擎制造

Arm架构与Neoverse技术在基础设施领域的应用与发展