0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

反思 GTC 和 OFC 2024:没有一刀切的方法,但上市时间是关键!

易天小讲堂 来源:易天小讲堂 作者:易天小讲堂 2024-05-31 16:29 次阅读

在GTC 2024期间,英伟达宣布了最新的Blackwell B200张量核心GPU,旨在为万亿参数AI大型语言模型提供支持。Blackwell B200需要先进的800Gbps网络,完全符合在AI工作负载的AI网络报告中概述的预测。随着人工智能工作负载的流量预计每两年增长10倍,这些人工智能工作负载预计将超过传统前端网络至少两个速度升级周期。

wKgZomZZimOALHo-AADf9Rimt1w102.png

虽然在OFC上讨论了许多关于跨数据中心应用的主题和创新解决方案,以及在同一领域内扩展加速器数量的计算互连,但本篇文章将主要关注数据中心内的应用。具体来说,它将专注于扩展连接大型人工智能集群中各种加速节点所需的网络,并使用1000个加速器。这个网络在业界通常被称为“人工智能后端网络”(还提到;由一些供应商提供;作为东西向流量的网络)。以下是展会上探讨的一些主题和解决方案:

1)线性驱动可插拔光学vs线性接收光学vs共封装光学

可插拔光学器件预计将在系统级的功耗中占越来越大的比例。随着云服务提供商构建以高速光学扩散为特征的下一代人工智能网络,这个问题将进一步放大。

在OFC 2023上,线性驱动可插拔光学(LPOs)的引入通过去除DSP来实现显著的成本和功耗节约,引发了一系列的测试活动。快进到OFC 2024,我们见证了近20场演示。活动期间的对话显示了全行业对集成到最新51.2Tbps网络交换芯片中的高质量100G SerDes的热情,许多人渴望利用这一进步,能够从光可插拔模块中去除DSP。

然而,尽管令人兴奋,但超大规模企业的犹豫表明,LPOs可能还没有做好大规模采用的准备。采访强调,超大规模企业不愿承担LPOs的资格认证和潜在失败的责任。相反,他们更倾向于让转换供应商来承担这些责任。

在此期间,预计51.2Tbps网络芯片的早期部署将继续利用可插拔光学,至少到明年年中。然而,如果LPOs 能够展示大规模的安全部署,同时为超大规模企业提供显著的功耗节省——使他们能够在每个机架上部署更多的加速器——那么采用LPOs 的诱惑可能是不可抗拒的。最终,决定取决于LPOs 能否兑现这些承诺。

此外,半定时线性光学(HALO),也被称为线性接收光学(LROs)在展会上进行了讨论。LRO仅在发送端集成DSP芯片(而不是在LPOs的情况下完全移除它)。虽然LPOs在100G-PAM4 SerDes下可能是可行的,但在200G-PAM4 SerDes下可能变得具有挑战性,这时可能需要LROs。

与此同时,协同封装光学(CPOs)仍处于开发阶段,Broadcom等大型行业参与者正在展示该技术的持续发展和进步。虽然我们相信目前的LPO和LRO解决方案肯定会像CPOs一样有更快的上市时间,但后者最终可能在未来的某个时候成为能够实现更高速度的唯一解决方案。

在结束本节之前,请不要忘记,在可能的情况下,铜将是比上面讨论的所有光连接选项更好的选择。简而言之,尽可能使用铜,必要时使用光学。有趣的是,液体冷却可以促进机架内加速器的致密化,从而增加铜的使用,以连接同一机架内的各种加速器节点。最近在GTC上发布的NVIDIA GB200 NVL72完美地说明了这一趋势。

2)光电路开关

OFC 2024带来了一些有趣的光学电路开关(OCS)相关公告。OCS可以带来许多好处,包括高带宽和低网络延迟,以及显著的资本支出节省。这是因为OCS开关可以显著减少网络中所需的电气开关数量,从而消除了与电气开关相关的昂贵的光-电-光转换。此外,与电气开关不同,OCS开关与速度无关,当服务器采用下一代光收发器时,不需要升级。

然而,OCS是一项新技术,到目前为止,只有经过多年开发的谷歌能够在其数据中心网络中大规模部署OCS。此外,OCS交换机可能需要改变光纤的安装底座。因此,我们仍在观察,除了谷歌之外,是否有其他云服务提供商计划效仿,在网络中采用OCS交换机。

3) 3.2 Tbps的路径

在OFC 2023上,推出了许多基于200G / lambda的1.6Tbps光学元件和收发器。在OFC 2024上,我们见证了这种1.6 Tbps光学器件的进一步技术演示。虽然我们预计到2025/2026年才能实现1.6Tbps的批量出货量,但业界已经开始努力探索实现3.2 Tbps的各种途径和选择。

考虑到从100G-PAM4电子通道速度过渡到200G-PAM4所遇到的复杂性,最初的3.2 Tbps解决方案可能在OSFP-XD外形因素中使用16条200G-PAM4通道,而不是8条400G-PAMx通道。值得注意的是,OSFP-XD最初是在两年前的OFC 2022上进行探索和演示的,由于人工智能集群部署的紧迫性,它可能会重新投入使用。与1.6Tbps相比,OSFP-XD外形尺寸的3.2Tbps解决方案提供了更高的面板密度和成本节约。最终,业界有望找到一种基于8通道400G-PAMx SerDes实现3.2 Tbps的方法,尽管可能需要一些时间才能实现这一目标。

总之,OFC 2024展示了许多潜在的解决方案,旨在解决共同的挑战:成本、功率和速度。我们预计不同的超大规模厂商将做出不同的选择,从而导致市场多样化。然而,关键的考虑因素之一是上市时间。值得注意的是,AI后端网络的更新周期通常在18到24个月左右,与用于连接通用服务器的传统前端网络的5到6年相比,这要短得多。

原文转自:Reflecting on GTC and OFC 2024: No One-Size-Fits-All but Time to Market is Key! - Dell'Oro Group

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    4668

    浏览量

    71939
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268345
  • OF
    OF
    +关注

    关注

    0

    文章

    8

    浏览量

    10707
  • 光纤模块
    +关注

    关注

    0

    文章

    20

    浏览量

    3769
  • gtc
    gtc
    +关注

    关注

    0

    文章

    73

    浏览量

    4416
收藏 人收藏

    评论

    相关推荐

    ESP8266如何保护时间关键部分免受RTOS中断的影响?

    /taskENABLE_INTERRUPTS 对来保护关键部分,问题仍然存在。在这种情况下,调度程序仍然可以中断关键部分。尝试禁用中断和使用taskENTER_CRITICAL根本不起作用。 ESP8266_RTOS_SDK
    发表于 07-09 06:16

    数控车床t指令对步骤

    数控车床T指令对步骤是数控车床操作中非常重要的环,它关系到加工精度和生产效率。本文将详细介绍数控车床T指令对步骤。 、数控车床T指令对
    的头像 发表于 06-07 09:50 1671次阅读

    深圳恒兴隆|自动换电主轴:实现加工自动化与高效化的关键.

    深圳恒兴隆|自动换电主轴:实现加工自动化与高效化的关键随着工业制造技术的不断进步,机床作为制造业的核心设备,其性能与效率的提升直是行业关注的焦点。其中,电主轴作为数控机床的重要组成部分,其技术
    发表于 05-08 10:24

    MACOM在OFC 2024上展示其线性驱动每通道100G的组件

    领先的半导体解决方案供应商MACOM公司,于近日在OFC 2024上展示其线性驱动每通道100G的组件,并进行了从交换机到服务器的互操作演示。
    的头像 发表于 04-19 17:05 476次阅读

    MACOM于近日举行的OFC 2024上现场演示其每通道200G的产品

    领先的半导体解决方案供应商MACOM公司,于近日举行的OFC 2024上现场演示了其每通道200G的产品。
    的头像 发表于 04-18 11:40 2401次阅读

    度亘核芯精彩亮相2024美国光纤通讯展览会及研讨会(OFC

    2024年3月28日,第49届美国光纤通讯展览会及研讨会(OFC2024)于美国加州圣地亚哥会展中心圆满落幕。作为全球光通信领域的顶级盛会,此次展会吸引了世界各地的光通讯企业与业界精英齐聚
    的头像 发表于 04-01 08:27 495次阅读
    度亘核芯精彩亮相<b class='flag-5'>2024</b>美国光纤通讯展览会及研讨会(<b class='flag-5'>OFC</b>)

    2024年小米汽车产业链分析及新品上市全景洞察报告

    2024年小米汽车产业链分析及新品上市全景洞察报告 *附件:小米汽车全面洞察报告.pdf 本文主要介绍了小米汽车在市场中的布局和优势,以及其面临的劣势与挑战。小米汽车凭借品牌、技术和成本三大核心优势
    发表于 03-29 13:46

    宁畅服务器亮相GTC 2024,开启AI新纪元

    在举世瞩目的NVIDIA GTC 2024盛会上,宁畅以赞助商身份再度登上舞台,为全球AI生态带来场视觉与技术的盛宴。大会线上线下同步进行,汇聚了众多AI领域的创新力量,共同展望AI和加速计算的未来。
    的头像 发表于 03-27 11:16 625次阅读

    中航光电即将参加2024美国光通讯展(OFC

    2024年3月26日至28日第49届美国光通讯展(OFC)将于美国加州圣地亚哥会展中心举行。
    的头像 发表于 03-25 09:39 835次阅读

    赛勒科技新型高性能800G硅光引擎即将亮相OFC 2024

    南通赛勒光电科技有限公司(简称“赛勒科技”)在近日重磅推出了专为AI集群和数据中心设计的新代产品——新型高性能800G硅光引擎。这款备受瞩目的创新产品即将在盛大的2024年度光纤通信大会(OFC)上亮相,展出
    的头像 发表于 03-22 10:07 820次阅读

    英伟达2024GTC人工智能大会看点,黄仁勋发布最炸裂的B200 GPU,讲述人工智能奇迹

    ABSTRACT摘要2024GTC人工智能大会,和过去样,黄仁勋,这位穿黑色皮夹克的男人用两个小时讲述了人工智能的奇迹,发布最炸裂的B200GPU,以及让人工智能唱歌跳舞的下代硬
    的头像 发表于 03-20 08:24 960次阅读
    英伟达<b class='flag-5'>2024</b>年<b class='flag-5'>GTC</b>人工智能大会看点,黄仁勋发布最炸裂的B200 GPU,讲述人工智能奇迹

    英伟达GTC大会将开幕 黄仁勋将带你《见证AI的变革时刻》

    将在美国举办,黄仁勋将在北京时间3月19日4:00—6:00发表主题演讲《见证AI的变革时刻》;将分享英伟达的加速计算平台如何推动AI、数字孪生、云技术和可持续计算的下波浪潮。 不想熬夜的朋友可以在北京时间3 月 21 日 星
    的头像 发表于 03-18 18:25 1311次阅读

    英伟达H200上市时间

    英伟达H200于2023年11月13日正式发布。然而,由于HBM3e芯片供应问题,其实际开售时间有所延迟。英伟达表示,H200产品预计将在2024年第二季度正式开售。因此,虽然H200在2023年已经发布,真正的
    的头像 发表于 03-07 16:46 2160次阅读

    英伟达GTC 2024 3月18日举行,发布生成式AI及机器人领域最新成果

    英伟达宣布,将于 3 月 18 日至 21 日在圣何塞会议中心举办 GTC 2024 大会。届
    的头像 发表于 02-22 09:51 1539次阅读

    图点亮 GTC 2024 线上大会之旅!

    GTC 2024 将于 3 月 18 至 21 日 举行 您可选择亲临现场参会或线上参加 从备受期待的 NVIDIA CEO 黄仁勋的主题演讲到 600 多场鼓舞人心的会议、超过 200 家的展商
    的头像 发表于 12-08 11:25 504次阅读
    <b class='flag-5'>一</b>图点亮 <b class='flag-5'>GTC</b> <b class='flag-5'>2024</b> 线上大会之旅!