0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达Grace Hopper CPU架构

半导体产业纵横 来源:半导体产业纵横 作者:半导体产业纵横 2022-08-23 16:02 次阅读

英伟达的 Grace CPU 和 Grace Hopper Superchip 有望在 2023 年初发布。

英伟达在下周的 Hot Chips 34 发布会之前宣布了有关Grace CPU Superchip的新细节,并透露该芯片采用4N工艺制造。英伟达还分享了有关架构、数据结构、性能和效率基准的更多信息。Grace芯片和服务器将在2023年上半年投入市场。

英伟达的Grace CPU是该公司第一款专为数据中心设计的CPU专用Arm芯片,在一块主板上有两个芯片,共144个核心,而Grace Hopper超级芯片则将Hopper GPU和Grace CPU结合在同一块板上。在披露中,英伟达最终正式确认 Grace CPU 使用 TSMC 4N 工艺。台积电在其5nm节点系列中列出了“N4”4nm工艺,将其描述为5nm节点的增强版。英伟达使用该节点的专用变体,称为“4N”,专门针对其GPU和CPU进行了优化。

随着摩尔定律的减弱,这些类型的专用节点变得越来越普遍,随着每个新节点的出现,晶体管的缩小变得越来越困难,成本也越来越高。为了实现英伟达4N等定制工艺节点,芯片设计公司和代工厂携手合作,使用设计技术协同优化(DTCO)为其特定产品输入定制功率、性能和面积(PPA)特性。

英伟达此前曾透露,其 Grace CPU 使用现成的Arm Neoverse内核作为其Grace CPU,但该公司尚未指定使用哪种特定版本。然而,英伟达披露,Grace使用Arm v9内核并支持SVE2,Neoverse N2平台是Arm第一个支持Arm V7和SVE2等扩展的IP。N2 Perseus 平台采用 5nm 设计(N4 属于 TSMC 的 5nm 系列)并支持 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。Perseus 设计针对每功率性能(瓦特)和每面积性能进行了优化。Arm 表示,其下一代核心 Poseidon 要到 2024 年才会上市,考虑到 Grace 2023 年初的发布日期,这些核心不太可能成为候选者。

英伟达Grace Hopper CPU 架构

英伟达的新NVDIA calable Coherency Fabric (SCF) 是一种网状互连,与Arm Neoverse核心使用的标准CMN-700相干网状网络非常相似。

英伟达SCF 在各种 Grace 芯片单元(如 CPU 内核、内存和 I/O)之间提供 3.2 TB/s 的双向带宽,更不用说将芯片连接到主板上其他单元(无论是另一个Grace CPU还是Hopper GPU)的NVLink-C2C接口

1010cdb0-2070-11ed-ba43-dac502259ad0.png

该网格支持 72+ 个内核,每个 CPU 有 117MB 的总 L3 缓存。英伟达表示,上面图片中的第一个方框图是“出于说明目的的可能拓扑结构”,其对齐方式与第二个方框图不完全一致。

此图显示了具有8个SCF缓存分区(SCC)的芯片,这些分区看起来是L3缓存片以及8个CPU单元。SCC 和内核以两个一组连接到缓存交换节点 (CSN),然后 CSN 驻留在 SCF 网状结构上,以提供CPU核心和芯片其余部分的存储器之间的接口。SCF 还通过 Coherent NVLink 支持多达四个插槽的一致性。

103d07a4-2070-11ed-ba43-dac502259ad0.png

英伟达还分享了上图,显示每个Grace CPU支持多达68个PCIe通道和多达4个PCIe 5.0 x16连接。每个x16连接支持高达128 GB/s的双向吞吐量(x16链路可以分成两个x8链路),还有16个双通道LPDDR5X内存控制器(MC)。然而,这张图与第一张图不同——它将 L3 缓存显示为连接到四核 CPU 集群的两个连续块,这比之前的图更有意义,芯片中总共有 72 个内核。但是,我我们在第一张图中没有看到单独的SCF分区或CSN节点。

英伟达官方表示,Scalable Coherency Fabric (SCF) 是其专有设计,但 Arm 允许其合作伙伴通过调整核心数量、缓存大小和使用不同类型的内存(如 DDR5 和 HBM)来定制 CMN-700 网格,以及选择各种接口,如 PCIe 5.0、CXL 和 CCIX。这意味着 英伟达有可能为片上结构使用高度定制的 CMN-700 实现。

英伟达Grace Hopper 扩展 GPU 内存

GPU 需要高的内存吞吐量,因此,英伟达将目光转向提高内存吞吐量,不仅是芯片内部,还包括CPU和GPU之间。Grace CPU 有 16 个双通道 LPDDR5X 内存控制器,最多可支持 32 个通道,支持高达 512 GB 的内存和高达 546 GB/s 的吞吐量。英伟达表示,由于容量和成本等多种因素,它选择了 LPDDR5X 而不是 HBM2e。同时,与标准 DDR5 内存相比,LPDDR5X 提供了 53% 的带宽和 1/8 的每 GB 功耗,使其成为更好的选择。

英伟达还推出了扩展 GPU 内存 (EGM),它允许 NVLink 网络上的任何 Hopper GPU 访问网络上任何 Grace CPU 的 LPDDR5X 内存。

英伟达的目标是提供一个统一的内存池,可以在 CPU 和 GPU 之间共享,从而在简化编程模型的同时提供更高的性能。Grace Hopper CPU+GPU 芯片支持具有共享页表的统一内存,这意味着芯片可以与 CUDA 应用程序共享地址空间和页表,并允许使用系统分配器来分配 GPU 内存。

英伟达NVLink-C2C

CPU 内核是计算引擎,但互连是决定计算未来的战场。移动数据比实际计算数据消耗更多的能量,因此更快、更有效地移动数据,甚至避免数据传输,是一个关键目标。

英伟达的Grace CPU由一块板上的两个 CPU 组成,而 Grace Hopper Superchip 则由同一块板上的一个 Grace CPU 和一个 Hopper GPU 组成,旨在通过专有的NVLink芯片到芯片(C2C)互连最大化单元之间的数据传输,并提供一致性内存,以减少或消除数据传输。

106865fc-2070-11ed-ba43-dac502259ad0.png

英伟达分享了有关其 NVLink-C2C 互连的新细节,这是一种支持内存一致性的芯片到芯片和芯片到芯片互连,可提供高达 900 GB/s 的吞吐量(是 PCIe 5.0 x16 链路带宽的 7 倍)。该接口使用 NVLink 协议,英伟达使用其 SERDES 和 LINK 设计技术精心设计了该接口,重点关注能源和面积效率。NVLink-C2C 也支持行业标准协议,如 CXL 和 Arm 的 AMBA 相干集线器接口(CHI — Neoverse CMN-700 网格的CHI-key)。它还支持多种类型的连接,从基于PCB的互连到硅中介层和晶圆级实现。

功率效率是所有数据结构的一个关键指标,如今,英伟达共享链路传输的数据每比特消耗1.3微微焦耳(pJ/b)。这是 PCIe 5.0 接口效率的 5 倍,但它是未来将上市的 UCIe 互连(0.5 到 0.25 pJ/b)功率的两倍多。封装类型各不相同,C2C link为 英伟达提供了性能和效率的完美结合,以满足其特定的使用情况。

英伟达Grace CPU 基准测试

1093537a-2070-11ed-ba43-dac502259ad0.png

10bad5f8-2070-11ed-ba43-dac502259ad0.png

10caddcc-2070-11ed-ba43-dac502259ad0.png

英伟达的新基准是SpecIntRate 2017基准中单台Grace CPU的370分。这英伟达已经共享了一个多CPU基准,在SPECTINTRATE2017基准中,两个Grace CPU的得分为740。显然,这表明两个芯片的线性缩放改进。

AMD目前的第二代EPYC Milan芯片是数据中心目前的性能领导者,发布的规格结果从382到424片不等,这意味着高端x86芯片仍将保持领先地位。然而,英伟达的解决方案将具有许多其他优势,如功率效率和更GPU友好的设计。

英伟达分享了其内存吞吐量基准,表明Grace CPU在CPU内存吞吐量测试中可以提供约500 GB/s的吞吐量。英伟达还声称,该芯片还可以将高达506Gb/s的组合读/写吞吐量推送到连接的Hopper GPU,并在读吞吐量测试期间将CPU到GPU的带宽计时为429Gb/s,在写入时为407Gb/秒。

Grace Hopper ARM系统准备好了吗?

英伟达还宣布 Grace CPU Superchip 将遵守获得 System Ready 认证的必要要求。以获得系统就绪认证。该认证意味着Arm芯片将与操作系统和软件一起“正常工作”,从而简化部署。Grace 还将支持虚拟化扩展,包括嵌套虚拟化和 S-EL2 支持。英伟达还列出了对以下内容的支持:

nRAS v1.1 通用中断控制器 (GIC) v4.1

n内存分区和监控 (MPAM)

n系统内存管理单元 (SMMU) v3.1

nArm 服务器基础系统架构 (SBSA) 可实现符合标准的硬件和软件接口

此外,为了在基于 Grace CPU 的系统上启用标准引导流程,Grace CPU被设计为支持Arm服务器基本引导要求(SBBR)。

对于缓存和带宽分区以及带宽监控,Grace CPU还支持Arm内存分区和监控(MPAM)。Grace CPU 还包括 Arm 性能监控单元,允许对 CPU 内核以及片上系统 (SoC) 架构中的其他子系统进行性能监控。这使得标准工具(例如 Linux perf)能够用于性能调查。英伟达的 Grace CPU 和 Grace Hopper Superchip 有望在 2023 年初发布,其中 Hopper 变体适用于 AI 训练、推理和 HPC,而双 CPU Grace 系统则专为 HPC 和云计算工作负载而设计。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10918

    浏览量

    213193
  • 架构
    +关注

    关注

    1

    文章

    520

    浏览量

    25568
  • 英伟达
    +关注

    关注

    22

    文章

    3855

    浏览量

    92101

原文标题:详解英伟达Grace Hopper CPU 超级芯片设计

文章出处:【微信号:ICViews,微信公众号:半导体产业纵横】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    英伟CEO确认:液冷Grace Blackwell服务器无过热问题

    近日,英伟公司的首席执行官(CEO)针对外界关注的液冷Grace Blackwell服务器过热问题,发表了明确的看法。他强调,采用液冷技术的Grace Blackwell服务器并不存
    的头像 发表于 11-21 11:45 332次阅读

    英伟进军ARM架构CPU市场,预计2025年推出新产品线

    近日,英伟公司传出了一则令人瞩目的消息:该公司正在积极开发一款基于ARM架构的新型CPU。这一消息不仅证实了之前业界关于英伟
    的头像 发表于 11-11 15:33 444次阅读

    今日看点丨苹果与富士康接洽,商讨在中国台湾生产AI服务器;英伟正在开发一款基于ARM架构的新型CPU

    1. 英伟正在开发一款基于ARM 架构的新型CPU   据报道,英伟正在开发一款基于ARM
    发表于 11-08 10:47 752次阅读

    英伟计划2025年推出基于Arm架构的消费级CPU,挑战英特尔和AMD

    11月5日,据科技媒体DigiTimes于10月31日报道,供应链消息透露,英伟(Nvidia)正计划在2025年9月推出其首款基于Arm架构的消费级CPU,目标直指高端PC市场。
    的头像 发表于 11-05 15:29 873次阅读

    软银升级人工智能计算平台,安装4000颗英伟Hopper GPU

    软银公司宣布,其正在扩展的日本顶级人工智能计算平台已安装了约4000颗英伟Hopper GPU。这一举措显著提升了平台的计算能力。据悉,该平台自2023年9月开始运行,最初配备了大约2000颗
    的头像 发表于 11-04 16:18 499次阅读

    英伟:Hopper芯片需求强劲 英伟发言人谈生产增长

    据外媒报道,英伟发言人透露Hopper芯片需求强劲,而且Blackwell 芯片的广泛采样也已经开启。而对于产量问题;则表示有望在下半年实现增长。
    的头像 发表于 08-03 17:25 2746次阅读

    亚马逊AWS暂缓采购英伟GH200芯片,期待Blackwell更强

    然而,AWS对此予以澄清,称实际上并未取消任何对英伟的订单。据其代表解释,此次从Grace Hopper芯片转向Blackwell芯片的调整仅限于AWS与
    的头像 发表于 05-22 15:05 749次阅读

    亚马逊AWS暂缓订购英伟Grace Hopper,等待新品Grace Blackwel

    今年 3 月,英伟宣布了新款人工智能处理器Blackwell,比上一代Hopper提前不到一年面世。CEO黄仁勋表示,新产品在训练大规模语言模型方面的性能将提升一倍。
    的头像 发表于 05-22 12:03 706次阅读

    亚马逊未中断英伟订单,等待Grace Blackwell更强性能

    英国《金融时报》昨日报道称,亚马逊AWS已暂停订购英伟最新款“超级芯片”Grace Hopper,等待性能更强的新品Grace Black
    的头像 发表于 05-22 11:00 541次阅读

    英伟静候新品来临,亚马逊暂缓购买Grace Hopper

    今年3月,英伟发布了全新的Blackwell处理器,距离前任产品Hopper的发布不过短短一年。英伟首席执行官黄仁勋表示,新款产品在训练
    的头像 发表于 05-22 09:07 358次阅读

    进一步解读英伟 Blackwell 架构、NVlink及GB200 超级芯片

    能,加速模型的训练和推理过程。 2. 生成式 AI 解决方案 与英伟 Grace CPU、新一代网络芯片等产品一起,面向生成式 AI 共同组成完整解决方案,为数据中心提供强大的计算能
    发表于 05-13 17:16

    美国首个Grace Hopper架构超算Venado落地:10 exaFLOPS

    该超级计算机是由惠普企业集团(Hewlett Packard Enterprise)打造,其运算能力高达 10 exaFLOPS,它是美国第一款采用英伟Grace Hopper芯片
    的头像 发表于 04-18 14:37 484次阅读

    新思科技携手英伟:基于加速计算、生成式AI和Omniverse释放下一代EDA潜能

    将双方数十年的合作深入扩展到新思科技EDA全套技术栈 摘要: 新思科技携手英伟,将其领先的AI驱动型电子设计自动化(EDA)全套技术栈部署于英伟GH200
    发表于 03-20 13:43 337次阅读
    新思科技携手<b class='flag-5'>英伟</b><b class='flag-5'>达</b>:基于加速计算、生成式AI和Omniverse释放下一代EDA潜能

    全球最小英伟GH200服务器发布:永擎制造

    该服务器搭载英伟GraceHopper人工智能GPU,并通过NVLink实现互联功能以提升整体效能。其中,CPU部分采用72个Arm N
    的头像 发表于 02-27 15:29 807次阅读

    Arm架构与Neoverse技术在基础设施领域的应用与发展

    Arm的Neoverse系列已有稳定的立足点。例如,英伟的超级芯片Grace-Hopper就是由两片独立的芯片组成,其中 Hopper负责处理所有AI任务,如张量运算,
    的头像 发表于 02-22 15:36 669次阅读