0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

光进铜退,已成定局?

半导体芯科技SiSC 来源:半导体行业观察 作者:半导体行业观察 2024-09-21 11:06 次阅读

来源:半导体行业观察 翻译自Timothy Prickett Morgan

如今,众所周知的是,用于连接分布式系统的交换机并不是网络中最昂贵的部分,而光收发器和光纤电缆才是成本的主要部分。由于这一点,以及光学元件运行时温度高且经常发生故障,人们除非必要,否则不会使用光学元件。

因此,我们有了铜缆,越来越多地直接从交换机 ASIC 及其连接的设备驱动,用于短距离传输,以及光缆用于长距离传输,这些设备是为 AI 和 HPC 系统提供 1000、10000 或 100000 台设备所必需的。早在 5 月份,当Broadcom 推出其“Thor 2”网络接口卡芯片时,以及在 Nvidia 于 3 月份推出GB200 NVL72 机架式系统之后,我们就曾打趣过这个问题,在可以的时候使用铜缆,在必须的时候使用光缆。Broadcom 和 Nvidia 都会告诉你,机器的经济性和可靠性取决于这种方法。

GB200 NVL72 系统将这一原则发挥到了极致。该系统使用 5184 条大铜缆将 72 个“Blackwell”GPU 捆绑在一起,形成一个全对全共享内存配置,NVL72 系统核心的九台 NVLink Switch 4 交换机中的 200 Gb/秒 SerDes 可以通过铜线直接驱动每个 Blackwell GPU 上的 1.8 TB/秒 NVLink 5 端口,无需重定时器,当然也不需要长途数据中心网络中使用的光收发器。

据 Nvidia 联合创始人兼首席执行官黄仁勋介绍,与使用光收发器和重定时器相比,这种方法非常有效,可节省约 20 千瓦的电力,将机架功耗从原来的 120 千瓦降至 100 千瓦。(黄仁勋最初给出的规格说明称,NVL72 的功率为 120 千瓦,但现在的规格表显示,如果使用全铜互连,机架级节点的功率为 100 千瓦。我们认为,他在讲话时未使用光学器件,因此节省了 20 千瓦的功率。)

无论如何,这张 NVL72 节点的图片足以让您想在商品市场上购买铜:

wKgaombr-9yAXIMrAAHlThy3NTc868.jpg

Ayar Labs 的联合创始人兼首席执行官马克·韦德 (Mark Wade) 却不相信这些,该公司发明了名为 TeraPHY 的光学 I/O 芯片以及用于驱动该芯片的名为 SuperNova 的外部激光光源。

“我认为铜缆已经不起作用了,”韦德在本周的人工智能硬件峰会上发表主题演讲之前向The Next Platform解释道。“目前没有一家公司在应用层面真正实现了显著的经济产出。问题不在于铜缆何时失效,光学器件何时成本持平并变得可靠。铜缆已经无法以经济的方式支持人工智能工作负载。是的,投资者资助的淘金热已经持续了两年,这确实推动了玩家硬件的所有利润。但铜缆已经无法支持高效、经济、高性能的人工智能工作负载系统。该行业实际上正在努力摆脱技术已经失败的困境,硬件制造商需要大幅提高这些系统的成本效益吞吐量。否则,我们都将走向互联网式的危机。”

显然,这些话非常有说服力,尤其是考虑到 Nvidia、AMD、台湾半导体制造公司、SK 海力士、三星、美光科技等 GPU 加速器供应链各部分的订单量和实力。但请听听韦德的说法,因为他将提出一个有趣的案例。

Ayar Labs 显然有既得利益,可以迫使公司转向封装在 GPU 上的光学 I/O 以及将它们互连的交换机,为了证明这一点,该公司构建了一个系统架构模拟器,该模拟器不仅关注各种技术的进给和速度,还关注它们在 chewing on和 generating tokens方面的盈利能力。

wKgaombr--GAGaLrAACbDj19GOk790.jpg

现在,Wade 承认,这个用 Python 编写且尚未命名的模拟器并不是“周期精确的 RTL 模拟器”(cycle accurate RTL simulator),但表示它的设计旨在整合一大堆关键组件的规格——GPU 速度和馈送、HBM 内存和容量、封装外 I/O、网络、CPU 主机、GPU 的 DRAM 扩展内存等等——并预测各种 AI 基础模型的性能以及处理每个token的相对成本。

AI 系统架构模拟器关注三个性能指标,而不仅仅是大多数人谈论的两个。它们是吞吐量和交互性,每个人都对此着迷,但也将处理的盈利能力纳入考量。提醒一下:

wKgaombr--KAO9MxAADZYdsitSg816.jpg

显然,Ayar Labs 认为 AI 集群节点的所有关键元素——CPU、GPU、扩展 DRAM 内存以及用于连接 GPU 的节点内扩展交换——都应该使用光学而不是电互连,具体来说,AI 服务器应该使用由其 SuperNova 激光器泵浦(pumped )的 TeraPHY 设备。

但在我们开始进行系统架构比较之前,Wade 为他的论点添加了另一个层次,区分了三种不同类型的 AI 应用领域:

第一种是批处理( batch processing),其中查询组被捆绑在一起并一起处理,就像五十年前的大型机事务更新一样。(好吧,就像大型机在今天的夜班期间所做的大量工作一样。)批处理级别需要每秒 25 个tokens或更少的交互级别。人机交互(我们习惯于以生成文本或图像的 API 形式公开的应用程序)需要以每秒 25 到 50 个tokens的速度运行。而机器对机器代理应用程序的圣杯,其中各种 AI 以高速相互通信以解决特定问题 - 需要每秒 50 个tokens以上的交互率(interactivity rates)。

后一种应用在使用电气互连的经济实惠的系统上很难实现,正如 Ayar Labs 模拟器所示。公平地说,像 Nvidia 这样的公司之所以如此粗暴地使用电气互连和铜线,是因为个别光学元件的可靠性和成本问题仍需要解决。

但 Wade 表示,这些问题正在得到解决,而且其 TeraPHY 和 SuperNova 组合可以与 2026 年及以后推出的 GPU 一代相交叉。

话虽如此,让我们来看看 Blackwell GPU 的馈送和速度,以及Nvidia 2026 年路线图上的未来“Rubin”GPU 以及 2027 年内存升级,可能会采用当前的电气/铜线方式和假设的光纤/光纤方式进行架构。看一下这个:

wKgZombr--KAay69AAEUCUbiaAs003.jpg

Nvidia GB200 节点有一个“Grace”CG100 Arm CPU 和一对 Blackwell GB100 GPU 加速器,因此显示的计算容量是规格表上的一半。看起来 GB200 将获得 192 GB 的 HBM 容量和 8 TB/秒的完整带宽,而 HGX B100 和 HGX B200 卡将获得容量仅为 180 GB 的 Blackwell。至少目前如此。扩展电气 I/O 来自每个 Blackwell 芯片上的 NVLink 5 控制器,该控制器有 18 个端口,运行速度为 224 Gb/秒,为 Blackwell GPU 提供 900 GB/秒的总传输和接收带宽(总计 1.8 TB/秒)。

Wade 对 Rubin GPU 的外观做了一些假设,我们认为它很有可能由四个通过 NVLink 6-C2C SerDes 互连的受限光罩(reticle-limited) GPU 芯片组成,就像 Blackwell 是两个通过 NVLink 5-C2C SerDes 互连的受限光罩 GPU 一样。我们知道 Rubin HBM 内存将提升至 288 GB,我们和 Wade 都预计 Rubin 设备中的带宽将提升至每台设备约 10 TB/秒。(2027 年,Rubin Ultra kicker 中的带宽可能会进一步提升至 12 TB/秒。)可以合理地假设 NVLink 6 端口将再次将电气互连的性能提高一倍,达到单向 1.8 TB/秒,这可能是通过将每个端口的信号量增加一倍来实现的。

Ayar Labs 模拟器用 TeraPHY 光纤链路替换 NVLink 6-C2C,这样,每个方向的带宽将增加 5.7 倍,达到 5 TB/秒。模拟器还假设,与机架式 Blackwell 系统中使用的 NVSwitch 4 ASIC 相比,NVSwitch 5 芯片在 Rubin 一代中的性能将翻倍,而 Nvidia 将再次直接从 NVSwitch 5 芯片中驱动电信号。如果您通过 Ayar Labs AI 系统架构模拟器运行这两个假设的 Nvidia 场景,并测量吞吐量和盈利能力(在互联网时代我们称之为每 SWaP 的美元,SWaP 是空间、瓦特和功率的缩写),在一系列交互中,您会得到这张漂亮的图表:

wKgaombr--OAOEA5AACVwWfxVDc605.jpg

正如您所看到的,在具有电信号的 64 GPU 系统中,从 Blackwell 转移到 Rubin 并没有真正在一定交互水平的吞吐量方面产生太大的变化,并且每瓦特每单位工作成本也不会有太大变化。看起来,对于给定的工作单位,Rubin 的成本将与 Blackwell 相同,至少对于 Wade 所做的假设而言是如此。(考虑到现在在 AI 领域的高层,时间就是金钱,这对我们来说是合理的。)

现在事情会变得有趣起来。让我们看看 OpenAI 的 GPT-4 大型语言模型如何在 Ayar Labs 模拟器中针对不同规模的不同 Nvidia GPU 在盈利能力与交互性方面对运行推理进行对比:

wKgZombr--SAeWWJAAETwcDY-5U958.jpg

这张图表非常有趣。

首先,它表明八路 Hopper H100 节点对于批量 GenAI 来说是可以接受的,并且几乎无法进行人机对话。有了 32 个 GH200 超级芯片集群(配备 141 GB HBM3E 内存),批量 GenAI 的成本大大降低,性能相对于较小的 H100 节点也有了很大的提高。配备 64 个 GPU 的 GB200 节点开始真正弯曲曲线,但在 64 个 GPU 的情况下,GB200 和未来的 GR200 之间的差异并不明显。

但是,看看当 Rubin 推出光学 I/O 而不是电气 NVLink 端口和电气 NVSwitch 端口时会发生什么,并且机器扩展到 256 个连贯的 GPU,这在铜缆中是不可能的,因为您无法将那么多 GPU 彼此靠近以进行互连。机器对机器的多模型处理不仅成为可能。(再次,我们将指出:不要将机器联网…… TeraPHY 确实如此。)假设的 Rubin GPU 的盈利能力和吞吐量相互作用的曲线在使用光学 I/O 时要好得多。

这张图表表明了一些事情:Ayar Labs 正在试图让 Nvidia 收购它,或者试图让 Nvidia 使用其 OIO 芯片,或者尝试过但失败了,并利用这个故事试图让 AMD 收购它。英特尔现在连一杯咖啡都买不起。

现在,让我们来看看 OpenAI 在 2026 年左右推出的最先进的 GPT 模型,我们假设它将被称为 GPT-6,但为了安全起见,Wade 将其称为 GPT-X。

随着 2026 年 GPT-X 的推出,该模型的复杂度将翻倍,达到 32 个不同的模型(称为专家模型),而 Wade 预计模型的层数将从 GPT-4 的 120 层增加到 128 层。(我们认为层数可能会更高,可能高达 192 层;我们拭目以待)。标记序列长度将保持稳定,输入为 32k,输出为 8K,文本嵌入的模型维数将翻倍,达到 20,480。

如下所示,现有的 Hopper 和 Blackwell 配置从 8 个 GPU 扩展到 64 个 GPU,所有机器都被推入批量性能领域,只有采用铜 NVLink 互连的 Rubin 机架式机器才能进入人机领域。但是,借助节点内和节点间的光学 I/O 以及扩展到 256 个 Rubin GPU,Nvidia 可以构建一台可以扩展到人机和机器对机器领域的推理机,同时在交互性和成本方面提供可接受的改进。

wKgaombr--SAW09bAAETURMVgvY857.jpg

该图表是 Ayar Labs、Eliyan、Avicena、Lightmatter 和 Celestial AI 等公司的广告。我们强烈怀疑 Rubin 会将 NVLink 转移到光学互连,坦率地说,考虑到Nvidia 多年前所做的原型设计以及 Nvidia 已经与 Ayar Labs 以及很可能与上面提到的其他一些公司合作的工作,我们已经预料到这样的机器了。

NVLink 只是一种协议,现在或许是时候将其转移到光学传输中了。我们迫不及待地想看看 Nvidia 会在这里做些什么。在机架中塞入更多 GPU 并将功率密度提高到 200 千瓦或人们谈论的疯狂的 500 千瓦可能不是答案。光学互连会将这个铁芯稍微隔开一点,也许足以防止光学器件出现不良行为。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 半导体
    +关注

    关注

    334

    文章

    26621

    浏览量

    212525
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4627

    浏览量

    128436
  • 交换机
    +关注

    关注

    20

    文章

    2597

    浏览量

    98858
收藏 人收藏

    评论

    相关推荐

    包银和无氧网线哪个好

    在比较包银和无氧网线哪个更好时,需要从多个维度进行考量,包括导电性能、传输速度、抗氧化性、使用寿命以及价格等。 导电性能 包银网线:包银网线在纯
    的头像 发表于 10-12 09:45 634次阅读

    猫产品需不需要做CTA网许可认证?

    虽然当下是个主流无线通信的时代,但依旧存在许多在为有线产品服务的厂家,也就存在许多有线通信产品,而光猫产品就是这类型产品中最具代表性的。那么也就涉及到一个问题,猫产品是否需要做CTA网许可认证呢
    的头像 发表于 10-08 17:14 146次阅读
    <b class='flag-5'>光</b>猫产品需不需要做CTA<b class='flag-5'>进</b>网许可认证?

    华为F5G全园区2.0全新升级并发布场景化新品,加速园区网络迈向Wi-Fi 7时代

    华为全联接大会2024期间,在以"全面光退,共赢园区智能化"为主题的全园区论坛上,超过300名来自全球教育、医疗、制造、酒店等行业的客户及伙伴出席,嘉宾们围绕园区网络话题
    的头像 发表于 09-27 15:48 194次阅读

    退耦电容大小与音质有关吗

    退耦电容的大小与音质之间确实存在一定的关系,但这种关系相对复杂,并非简单的线性关系。 一、退耦电容的基本作用 退耦电容在音响系统中主要用于稳定电源电压,减少噪声和干扰。在音响设备的电源电路中,由于
    的头像 发表于 09-26 11:31 250次阅读

    退耦电容一般用多大

    退耦电容的容量选择并不是一成不变的,而是需要根据具体的电路设计需求和工作条件来确定。以下是对退耦电容容量选择的一些一般原则和考虑因素: 一、一般原则 频率范围 :退耦电容的容量选择首先要考虑电路
    的头像 发表于 09-26 11:28 200次阅读

    退耦电容和滤波电容的区别是什么

    退耦电容和滤波电容在电子电路中扮演着不同的角色,它们各自具有独特的作用和特点。以下是对两者区别的介绍: 一、定义与作用 退耦电容 : 退耦电容,也被称为绕组间隔直流电容,主要用于隔离输入输出之间
    的头像 发表于 09-26 11:16 352次阅读

    硅光电池的狭缝宽度对实验结果的影响

    硅光电池的狭缝宽度对实验结果的影响主要体现在以下几个方面: 1. 衍射效应与干涉条纹 衍射效应 :在光学实验中,硅光电池前的狭缝光阑宽度决定了的衍射效应。当狭缝宽度越窄时,衍射现象会越显
    的头像 发表于 09-21 11:33 283次阅读

    驱动芯片退饱和保护(DESAT)应用指导

    电子发烧友网站提供《驱动芯片退饱和保护(DESAT)应用指导.pdf》资料免费下载
    发表于 08-29 11:23 1次下载
    驱动芯片<b class='flag-5'>退</b>饱和保护(DESAT)应用指导

    无氧包铝的网线哪个好用

    无氧包铝的网线各有其特点,选择哪个更好用主要取决于具体的使用场景和需求。以下是对两者的详细比较: 一、无氧网线 优点: 高纯度:无氧网线通常具有99.99%以上的
    的头像 发表于 07-17 10:15 1705次阅读

    园区:Wi-Fi 7时代下的数智化新篇章

    在智慧城市构建的宏伟蓝图中,CWW(智慧园区)作为其核心单元,正经历着一场前所未有的技术革新。随着Wi-Fi 7技术的迅猛普及,一场“退”的园区网络变革正悄然兴起,标志着全
    的头像 发表于 07-05 17:02 869次阅读

    什么是IGBT的退饱和?为什么IGBT会发生退饱和现象?

    什么是IGBT的退饱和?为什么IGBT会发生退饱和现象? IGBT是一种高性能功率半导体器件,结合了MOSFET和BJT的优点。它在高电压和高电流应用中具有低开启电阻、低导通压降和高开关速度等优点
    的头像 发表于 02-19 14:33 3695次阅读

    缆会被光纤完全取代吗?为什么光纤目前取代不了缆?

    的引入,人们开始思考光纤是否有可能完全取代缆。在回答这个问题之前,我们需要了解光纤和缆各自的特点,以及它们在不同场景下的优势和劣势。 首先,让我们来看一下光纤的特点。光纤是一种将信号传输的媒介,由玻璃或塑
    的头像 发表于 02-04 10:25 967次阅读

    各种线束端子退针方法

    各种线束端子退针方法  线束端子退针是指将线束的引线从端子上拆下的过程。在某些情况下,我们可能需要退针处理线束,例如更换损坏的线束或进行维护等。下面我将详细介绍一些常见的线束端子退针方
    的头像 发表于 12-09 14:07 7180次阅读

    包铝电线的优缺点 包铝电线和纯电线的区别

    包铝电线的优缺点 包铝电线和纯电线的区别  包铝电线的优缺点和电线的区别 引言:
    的头像 发表于 11-22 17:45 3.3w次阅读

    什么是退耦元件?退耦器件的选择要求

    为实现多级之间浪涌保护的能量配合,我们一般都会在线路上串联适当的器件,这些器件就被我们称为退耦器件,退耦器件一般有电阻和电感,在信息系统一般选用阻性元件,因为这一类传输信号频率相对比较高,在不影响
    的头像 发表于 10-31 11:37 1074次阅读