0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么说MEMS-OXC在智算场景没有未来?

脑极体 来源:脑极体 作者:脑极体 2024-11-16 15:21 次阅读

wKgaomc4SAOAVDaWAAjpiSghgek785.jpg

智算中心是这一轮科技革命的算力“心脏”,更是国际科技博弈的长期焦点。智算中心建设方案,一直牵动着国人的神经。

近期,OXC光交换技术在智算场景的应用,走进了大众视野,这个技术及其解决方案,撑得起智算中心网络吗?

深入技术本质、落地实践、产业进程来看,恐怕都要说一句,“OXC技术在智算场景其实没有未来”。

技术上看,OXC光交换技术在智算场景中会面临光电协同、不支持AI任务多对多传输等技术挑战,很难有效解决。

实践上看,当前业界仅谷歌一家商用MEMS-OXC设备,而谷歌TPU集群用OXC的核心目的是解决Torus拓扑的可用度问题,但网络可用度的短板其实是在接入端口,OXC不解决网络可用度问题,所以实际上跟自动配线架没有本质区别。

产业上看,谷歌商用OXC全球仅此一家,根据LightCounting预测,到2029年OXC的全球市场空间约为5亿美元,其中大部分是谷歌,产业规模仅为电交换的二十分之一。

综合上述维度,不难得出结论,OXC技术在智算场景中只是配线架,无法真的规模化落地,也支撑不了超万卡集群智算中心网络。

接下来咱们就从技术的起点到产业的终点,全面掀开智算场景MEMS-OXC的面纱。

wKgaomc4SAeART1xAAJKKFYm7RA130.jpg

简单来说,OXC光交换技术就是在不同的光路径之间进行光信号交换。技术路径包括MEMS、DLC、和DLBS。其中,MEMS技术是目前最主流的方案,MEMS-OXC设备也是目前唯一被谷歌这一家所商用的。

但在超万卡集群的智算中心网络中,MEMS-OXC发挥的作用其实就是配线架。

wKgZomc4SAeAf0g5AAHjE-kxA64434.jpg

我们先来看看,智算中心组网是怎么实现的。ODCC(开放数据中心委员会)发布的《AI数据中心网络建网》报告提到,AI参数面网络有两层Spine—Leaf,以及三层CLOS架构组网,而在AI集群组网实践中,通过三层组网达到十万卡以上的组网规模。

目前,Meta、OpenAI、微软等AI巨头,都是通过从两层向三层扩展的组网模式,去构建超大规模集群的,也就是在Leaf层、Spine层之外增加Core层。其中,两层组网使用的是电交换机。比如目前业界唯一的OXC商用实践——谷歌也采用的是光电混合架构。

可以看到,智算中心网络如果采用两层组网,不需要OXC;如果是三层组网,MEMS -OXC设备在Core层主要发挥的作用是灵活配线,与自动配线架没有本质区别。

引入MEMS-OXC,不仅无法给网络带来增益,还可能制造出额外的问题:

首先,光电协同问题。

如果在第三层引入OXC光交换机,但数据中心网络底层用的还是电交换机,这就需要光电之间的协同、通信、配合,对整个数据中心网络的冲击是比较大的。

举个例子,OXC技术有灵活切换的特征,但对于整网来说,光交换机一会儿连通、一会儿断开,这就需要整个接入层和Spine层,都要随之进行策略调整。

试想一下,智算场景下的大模型训练大多采用并行训练,业务流随时变化,如果数据中心网络随时随地在进行秒级调整,那训练的可靠性就很难保证了。任何一个大模型研发团队,恐怕都无法接受训练的高频中断。

其次,OXC与AI业务的适配问题。

OXC光交换技术是不支持多对多通信的,只能进行纯物理的转发。而在智算场景中,AI任务是有很多算法和算子的,不同算法的通信模式都不太一样,可能需要一对多、多对一、多对多等多种转发方式。这些算法的高效通信,OXC技术就很难满足,导致相关智算业务无法开展。

第三大问题,就是OXC的耗能问题。

OXC光交换机的插损很大,也就是信号在光折射的过程中产生了衰减。那么为了弥补OXC的插损,就不得不采用更大功率或更长距离的光模块,这又会导致能耗上升。此外,插损问题,还会导致光模块速率无法演进。

由于上述问题的存在,智算中心结合插损、功耗等多方面进行考量,算一笔综合账,就会发现MEMS-OXC设备还不如自动配线架。

wKgZomc4SAiAXDpFAAIcFW0WLGw980.jpg

MEMS-OXC不如自动配线架的另一个关键因素,就是商用前景。

我们知道,一项新技术都必须在商业市场中完成闭环,能够通过使用来回收投资,才能吸引基础设施的进一步投入,形成良性循环。而OXC技术的产业化,良性商业闭环是很难的。

最首要的制约,是成本。

OXC技术的落地需要光交换机的大量使用,并且所有的相关器件如光模块都需要进行升级,这会导致前期投资巨大,综合成本高。

ODCC(开放数据中心委员会)在《AI网络光交换机技术报告》中提出,考虑到网络系统和OCS(光交换机)本身的挑战,从端口数量需求、切换时间需求、低成本、高可靠性、拓扑易于管理等维度分析,光交换机还需要优化设计以降低插损和回波损耗,以及探索与电交换机组网方案来降低成本等。

而上述投资,都需要从产业用户身上完成商业回报。但如前所说,受限于光交换技术本身的瓶颈,许多AI任务及场景是短期内难以落地的,这就导致OXC的商业不确定性强。

这样综合考虑下来,就导致业界落地OXC的步伐明显冷静,基本处于观望状态。

wKgZomc4SAmAePzrAAInWq12bXU698.jpg

技术不是生存在真空之中的,是寄生在人才、资金、产业、实体经济等多重因素的现实中。

中国智算产业仍处于追赶阶段,资源、人才等都相对不足,既要把握发展前景与机遇,也要面对当下生存、商业的现实挑战,甚至有的还要处理历史遗留问题。

这种情况下,如果国内智算产业将宝贵的资源,投入并不适合用来组网的OXC身上,可能会导致一系列连锁反应。

比如产业资源的分散,智算中心建设昂贵,而在组网规模、插损、功耗、成本等方面都没有优势的OXC设备,意味着低效投资,降低科技企业的抗风险能力。

MEMS-OXC设备在智算集群中的落地效果并不显著,解决不了网络可用度问题,引入OXC会影响到AI算力的传输与供给,进而阻碍AI训练、AI推理等业务的韧性开展。

更需要警惕的是,对OXC路线的炒作,可能导致国内智算错过对其他技术路线的探索,由此带来的机会成本,是无法估量的。

所以,只能作为自动配线架的OXC,并不适合成为智算中心组网的选择,在智算场景没有未来。眼下,中国智算产业真正该做的,是把自身在成熟交换技术、现有宝贵资源、产业智能化机遇等方面的核心优势,进一步发挥好。

wKgZomc4SAqAJzypAAGrMtiW8nA842.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29925

    浏览量

    268218
  • 智算中心
    +关注

    关注

    0

    文章

    55

    浏览量

    1636
收藏 人收藏

    评论

    相关推荐

    嵌入式系统的未来趋势有哪些?

    (ML)技术的快速发展,嵌入式系统将更多地整合这些先进技术,以支持智能决策和自动化。设备上直接运行AI和ML模型,进行图像识别、自然语言处理、预测分析等任务,将极大提升嵌入式系统的智能化水平。比如
    发表于 09-12 15:42

    MEMS 可编程车载与高温振荡器 SiT8918 系列:卓越性能驱动未来

    MEMS 可编程车载与高温振荡器 SiT8918 系列:卓越性能驱动未来
    的头像 发表于 08-13 16:47 255次阅读
    <b class='flag-5'>MEMS</b> 可编程车载与高温振荡器 SiT8918 系列:卓越性能驱动<b class='flag-5'>未来</b>

    RISC-V中国的发展机遇有哪些场景

    联网市场的重要参与者,拥有庞大的用户基数和丰富的应用场景。RISC-V中国的发展将受益于这一市场需求的增长。 2. 人工智能(AI) AI力需求:随着人工智能技术的广泛应用,对
    发表于 07-29 17:14

    中国力中心市场持续增长,智能力规模快速崛起

    7月24日,中国信息通信研究院(简称“中国信通院”)权威发布了《中国力中心服务商分析报告(2024年)》,该报告深入剖析了中国力中心市场的现状与未来趋势,揭示了我国全球
    的头像 发表于 07-24 15:25 416次阅读

    力系列基础篇——力与计算机性能:解锁超能力的神秘力量!

    力系列基础篇——力101:从零开始了解力》中,相信各位粉丝初步了解到人工智能的“发动机”和核心驱动力:力!
    的头像 发表于 07-11 08:04 104次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b>力与计算机性能:解锁超能力的神秘力量!

    MWC 2024聚焦:中国电信智实践引领未来

    成果。其中,“AI智 领航未来”成为此次展览中的一大亮点,充分展现了中国电信基础设施及平台方面的深厚实力与卓越成就。
    的头像 发表于 06-28 11:46 731次阅读

    数字孪生场景构建的未来发展

    工业制造、城市规划、医疗保健、农业等。随着数字孪生技术的不断发展和应用,未来数字孪生场景将呈现出以下发展趋势: 1.智能化与自动化:未来的数字孪生场景将更加智能化和自动化。通过结合人工
    的头像 发表于 06-11 14:57 282次阅读
    数字孪生<b class='flag-5'>场景</b>构建的<b class='flag-5'>未来</b>发展

    壁仞科技加入中国移动“融创未来力网络创新联合体

    近日,以“力网络点亮AI新时代”为主题的2024中国移动力网络大会在苏州举行。作为中国移动的力合作伙伴,壁仞科技加入“融创未来力网
    的头像 发表于 04-30 09:36 831次阅读
    壁仞科技加入中国移动“融创<b class='flag-5'>未来</b>”<b class='flag-5'>算</b>力网络创新联合体

    力系列基础篇——力101:从零开始了解

    相信大家已经感受到,我们正处在一个人工智能时代。如果要问人工智能时代最重要的是什么?那必须是:力!力!力!(重要的事情三遍)作为推
    的头像 发表于 04-24 08:05 1002次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b>力101:从零开始了解<b class='flag-5'>算</b>力

    能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

    ——能杯的选用硬件之一。 BM1684X是能出的一款智能视觉深度学习处理器,视频处理方面的性能非常的强劲: 所能使用的应用场景,也非常的多:
    发表于 02-28 11:21

    MEMS行业格局,重新洗牌

    来源:内容由半导体行业观察(ID:icbank)编译自elektroniknet,谢谢。 美国和欧洲通胀率下降表明终端消费市场温和复苏,从而带动该领域 MEMS 需求的复苏。汽车领域,汽车电气化
    的头像 发表于 02-20 08:38 194次阅读
    <b class='flag-5'>MEMS</b>行业格局,重新洗牌

    MEMS行业格局,重新洗牌!

    来源:半导体行业观察,谢谢 编辑:感知芯视界 Link 美国和欧洲通胀率下降表明终端消费市场温和复苏,从而带动该领域 MEMS 需求的复苏。汽车领域,汽车电气化和自动驾驶将带动MEMS需求
    的头像 发表于 02-04 09:35 654次阅读

    夯实力底座,顺网科技力业务全面升级

    解决行业的上网问题,演变为解决行业 “上好力,用好AI” 的问题,真正实现顺网新发展战略—— “立足力,聚焦AI” ,满足AI智时代的需求。 本次“跃迁·向
    的头像 发表于 01-22 09:20 368次阅读
    夯实<b class='flag-5'>算</b>力底座,顺网科技<b class='flag-5'>算</b>力业务全面升级

    什么是通感一体化?通感一体化的应用场景

    通感一体化可广泛应用于智能家居、智慧城市、智慧交通、医疗健康等方面。文档君为大家搜集了一些典型的应用场景。 智能家居 通感一体化利用基站或者Wi-Fi路由器为智能家居系统提供更加丰富的功能。
    发表于 01-18 16:12 1w次阅读
    什么是通感<b class='flag-5'>算</b>一体化?通感<b class='flag-5'>算</b>一体化的应用<b class='flag-5'>场景</b>

    福英达浅谈MEMS封装焊接技术

    是IC封装的延伸,MEMS的高度复杂性加大了封装难度和成本。通常来说MEMS封装成本占到了总设备费用的一半或更高,是因为MEMS的独特性导致没有标准的封装技术。传统的IC封装需要提供芯
    的头像 发表于 01-17 08:59 291次阅读