0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

卡都去哪了?AI超算成了GPU的无底黑洞

E4Life 来源:电子发烧友 作者:周凯扬 2024-06-26 09:03 次阅读

电子发烧友网报道(文/周凯扬)AI大模型似乎陷入了一个怪圈,尽管对于深度学习、数据优化和爆款应用的研究从来没有终止,但大多数人开口问的第一句话就是,“你有卡吗”?从行业对GPU的狂热追求来看,未来继续扩展大模型的机会,似乎只会被大公司掌握在手中。

xAI拉拢戴尔和超微打造AI超算,马斯克继续买买买

xAI作为2023年3月才成立的一家初创公司,在构建算力基础设施的投入上却一点也不含糊,不过这也多亏了背后的金主埃隆马斯克。近日,戴尔CEO Michael Dell宣布他们正在打造一个由英伟达GPU驱动的AI工厂,为xAI的Grok模型提供动力。不过马斯克随即表示,戴尔只是其中一半服务器集群的供应商,另外一半的超算系统则是由超微打造。

由此推测,这一AI工厂应该就是马斯克在月初提到的10万块H100液冷训练集群了,尽管有两家供应商同时为xAI打造服务器,但市面上的GPU需求依然维持在高位,还需要几个月这一集群才会正式上线,用于Grok的下一代大模型迭代。

H100这张2023年发布的GPU可以说是目前全球大模型算力供应的主力,无论是OpenAI还是xAI,其最新模型都是基于该GPU训练迭代的。H100无论是显存容量、带宽和算力性能都实现了一轮新的突破,甚至可以说H100带动了这一代AI大模型的发展,然而在GTC之后,马斯克已经开始眼馋最新的B200了。他认为考虑到目前的技术演进速度,实在不值得把1GW的电力供应给H100。

为此xAI也已经开始在规划下一代系统,据马斯克透露,该系统将由30万块B200 GPU组成,但上线时间需要等到明年夏天了。B200速度高达H100的4倍,更是可以轻松做到单机柜1exaflop的算力表现,更何况在能耗成本上,B200相比H100改善了20多倍,即便是大规模部署,也不会让厂商面临供电和碳足迹的双重困扰。

尽管xAI的AI超算目标已经明确,但对于马斯克旗下的另一家公司特斯拉而言,其技术路线依旧不算明朗。虽然特斯拉也开启了新一轮的英伟达GPU采购潮,但其内部也在继续发展自研的Dojo超算。只不过近年来Dojo的情报越来越少,就连马斯克自己也将其列入“远景计划”之列。

OpenAI与微软,“鲸级”超算已在全速运转中

相信不少人都还记得去年11月首度上榜TOP500的微软超算Eagle,这台空降第三的AI超算凭借14400个英伟达H100和561PFlop/s的算力,不仅让Azure系统再次闯进了前十,还拿下了当下云端超算最高的排名。而当时的Azure还未部署完成,虽然最新的排名中Eagle依然维持在第三的位置,但其核心数已经近乎翻倍。

这台超算为OpenAI的GPT-4训练和推理提供了极大的助力,但这远没有达到微软的财力极限。早在3月底,就有消息传出微软和OpenAI正在打造一个代号名为“星门”的AI超算,耗资高达1000亿美元。微软CTO Kevin Scott称不少有关其超算计划的推测简直错得可笑,但也指出他们确实会为这一计划付出不少努力和成本。

在上个月举办的Microsoft Build中,Kevin Scott公开透露了他们未来的超算扩展计划。2020年,微软为OpenAI打造了第一台AI超算,正是因为这台机器才孕育了GPT-3。而他们构建的下一个系统,也就是Eagle,则用于训练GPT-4。Kevin Scott选择了用海洋生物来描述这些超算的规模,比如首台超算可以用鲨鱼来描述,Eagle则是虎鲸,而他们的下一台超算规模则可以比拟蓝鲸。

Kevin Scott更是强调,别看现在Eagle可以排到第三名的位置,从现在开始微软每个月都会部署五台同样规模的超算,也就是说每月都有至少搭载72000个H100 GPU或同等规模系统投入应用,每月带来2.8exaflops的算力增长。同时,他们用来连接GPU的高速和InfiniBand线缆可以绕地球至少五周,也就是说长度在20万公里以上总线缆长度。

很明显,作为已经凭借OpenAI获得成功的微软来说,接下来需要赢下的就是这场Scaling之战。

TPU和GPU并用,谷歌的Hypercomputer

尽管不少巨头都在考虑如何自研芯片来降低购置海量GPU带来的成本,但真的成功将其用于大模型的训练中去的,已经迭代至第六代的谷歌TPU,恰好就为谷歌解决了这个问题。TPU作为谷歌和博通联合设计了几代的产品,在谷歌自己推出的各种新模型训练与推理中,重要性已经等同于英伟达的GPU了。

谷歌本身作为在AI算法和大模型上耕耘了诸多时间的巨头,从设计芯片之初就知道他们需要何种计算资源,正因如此,TPU几乎将所有的面积都分给了低精度的张量计算单元。这种ASIC方案也让谷歌大幅降低了打造AI Hypercomputer的成本。

但谷歌作为云服务厂商巨头还是逃不开通用性的问题,谷歌的TPU更多是为Gemini的模型做了优化,尽管TPU支持PyTorch、Tensorflow等常见AI模型,但在追求极致性能的选择上,还是难以媲美GPU。正因如此,在谷歌和其他大模型开发者的眼中,TPU固然性能不弱,但更像是一个性价比之选。用于已经成功商业化模型的降本增效属于不错的选择,但如果想要在这个竞争激烈的大模型市场杀出重围,那就只有谷歌能将TPU物尽其用。

在不少AI芯片厂商的宣传中,为了抬高自己的专用产品定位,将英伟达的GPU还是定性为图形处理单元。可在H100这种规模的GPU上,无论是性能和能效,也毫不输某些专用开发环境下的ASIC,至于未来更复杂的图形处理,英伟达也推出了L4 GPU这样的对应方案。

在今年GTC上,谷歌的云服务部门也宣布和英伟达达成深度合作关系,通过英伟达的H100和L4 GPU支持使用其云服务的AI开发者。同时谷歌也将购置GB200 NVL72系统,基于谷歌云的A3实例为开发者提供DGX Cloud的云端LLM托管方案,这也是对现有H100机器的升级。除此之外,就连谷歌自己的JAX框架,也在双方的合作之下,在英伟达的GPU上得到了支持。可以看出,谷歌还是采取两手抓的策略,TPU和GPU一并重要。

全力追逐Scaling Laws的大厂们

对于AI大模型而言,模型大小、数据集大小和计算成本之间不仅组成了三元关系,也代表了模型性能。而Scaling Laws这一扩展法则定义了三者之间势必会存在某种比例扩展,只不过如今看来,其边际效应已经变得越来越大。以GPT为例,如果GPT-6继续按照这样的比例扩展下去,且不说性能提升有限,即便微软这样的商业巨头也很难撑起成本的剧增。

可就是这样微不可察的差距,甚至对于AI大模型的常见应用聊天机器人来说只是速度和精度上的一些差距,却决定了他们在之后的十几年里能否继续制霸下去。微软作为已经在操作系统上实现霸权地位的厂商,自然也明白先入为主的重要性。

在边际效应的影响下,即便后入局的巨头,也有不少迎头赶上的机会,比如近期传出正在秘密研发Metis聊天机器人的亚马逊。亚马逊同样拥有自研服务器芯片的技术积累,但主要优势还是在CPU上,AI加速器相关的产品(Inferentia和Trainium)依旧有比较大的改进空间,而且与亚马逊自己的业务还没有紧密结合起来。如果亚马逊愿意去打造这样一个聊天机器人应用,很有可能后续也会加强在GPU上的投入,而不再紧紧作为云托管方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4546

    浏览量

    127927
  • AI
    AI
    +关注

    关注

    87

    文章

    28368

    浏览量

    265676
收藏 人收藏

    评论

    相关推荐

    AIGPU开始腾飞,背后是电源管理的持续支持

    AI PC元年。   不仅是AI PC,还包括AI服务器、AI手机、AI汽车等,众多AI实际应
    的头像 发表于 03-30 00:12 3694次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b>力<b class='flag-5'>GPU</b>开始腾飞,背后是电源管理的持续支持

    力服务器为什么选择GPU

    随着人工智能技术的快速普及,力需求日益增长。智中心的服务器作为支撑大规模数据处理和计算的核心设备,其性能优化显得尤为关键。而GPU服务器也进入了大众的视野,成为高性能计算的首选。那么,为什么
    的头像 发表于 07-25 08:28 169次阅读
    <b class='flag-5'>算</b>力服务器为什么选择<b class='flag-5'>GPU</b>

    芯片功率1000W,村田创新电容产品如何解决AI新挑战?

    电子发烧友网报道(文/梁浩斌)近年AI大模型的出现,引爆AI力需求,市场对相关力硬件,包括服务器、交换机、
    的头像 发表于 07-23 00:19 2553次阅读
    芯片功率<b class='flag-5'>超</b>1000W,村田创新电容产品如何解决<b class='flag-5'>AI</b>新挑战?

    摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

    近日,国内知名的GPU制造商摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已成功完成了一项重要的大模型训练测试。此次测试依托摩尔线程夸娥(KUAE)千
    的头像 发表于 06-14 16:31 399次阅读

    集群解决大模型训力需求,建设面临哪些挑战

    解决大模型训练对力需求的巨大增长问题,尤其是现在模型参数量从百亿级、千亿级迈向万亿级。   国内外企业积极构建万集群   目前,在国际上,包括微软、Google、Meta等AI领域的巨头,都已落子
    的头像 发表于 06-02 06:18 3902次阅读
    万<b class='flag-5'>卡</b>集群解决大模型训<b class='flag-5'>算</b>力需求,建设面临哪些挑战

    科学计算的下一轮创新,AI与数字孪生

    应用的行列中来。   AI 与数字孪生   在过去通用计算负载的时代,我们难以采用更大规模的计算集群来打造数字孪生。可随着AI技术,尤其是生成式
    的头像 发表于 05-07 00:16 1820次阅读
    科学计算的下一轮创新,<b class='flag-5'>AI</b><b class='flag-5'>超</b><b class='flag-5'>算</b>与数字孪生

    AI训练,为什么需要GPU

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人
    的头像 发表于 04-24 08:05 1075次阅读
    <b class='flag-5'>AI</b>训练,为什么需要<b class='flag-5'>GPU</b>?

    “捷智”正式入驻国家互联网平台

    ABSTRACT摘要2024年4月2日,本公司旗下力服务品牌“捷智”正式入驻国家互联网平台,开设云gpu旗舰店。我们将借助国家
    的头像 发表于 04-12 08:26 228次阅读
    “捷智<b class='flag-5'>算</b>”正式入驻国家<b class='flag-5'>超</b><b class='flag-5'>算</b>互联网平台

    千亿美元打造一个系统,成本越来越高的AI

    电子发烧友网报道(文/周凯扬)从近年来新发布的算机器和新的HPC AI性能榜单可以看出,AI力已经在
    的头像 发表于 04-09 00:19 2727次阅读

    晶晟微纳发布N800超大规模AI力芯片测试探针

    近日,上海韬盛科技旗下的苏州晶晟微纳宣布推出其最新研发的N800超大规模AI力芯片测试探针。这款高性能探针采用了前沿的嵌入式合金纳米堆叠技术,旨在满足当前超大规模
    的头像 发表于 03-04 13:59 634次阅读

    gpu服务器评测

    GPU服务器进行评测。 一、GPU服务器概述 GPU服务器是一种基于微服务器平台与
    的头像 发表于 01-10 10:37 974次阅读

    AIGPU席卷至MCU,内存的重要性与力等同

    电子发烧友网报道(文/周凯扬)在市场对AI的不懈追求中,似乎绝大多数人都把重心放在力上。然而决定真正AI计算表现的,还有内存这一重要组成部分。为此,除了传统的标准内存选项外,市面上
    的头像 发表于 11-29 01:04 1795次阅读
    <b class='flag-5'>AI</b>从<b class='flag-5'>GPU</b>席卷至MCU,内存的重要性与<b class='flag-5'>算</b>力等同

    AI PC到智慧医疗,锐炫GPUAI应用带来强劲力支持

    步入AI时代,GPU力的重要性早已不言而喻。谁拥有强劲的GPU力,谁就拥有足够的话语权,这话有点难听,但事实确是如此。尤其是伴随着AIG
    的头像 发表于 11-13 16:56 374次阅读
    从<b class='flag-5'>AI</b> PC到智慧医疗,锐炫<b class='flag-5'>GPU</b>为<b class='flag-5'>AI</b>应用带来强劲<b class='flag-5'>算</b>力支持

    聊聊GPU通信技术

    最近人工智能大火,AI 应用所涉及的技术能力包括语音、图像、视频、NLP 等多方面,而这些都需要强大的计算资源支持。AI 技术对力的需求是非常庞大的,虽然 GPU 的计算能力在持续提
    发表于 09-21 10:05 892次阅读
    聊聊<b class='flag-5'>GPU</b>通信技术

    全球GPU缺口40万张!力之困,中国大模型有解了

    目前,GPT-4、PaLM-2的力当量,已经达到了GPT-3的数十倍,相当于上万颗业界性能领先的NVIDIA Hopper架构的GPU芯片组成的AI集群,训练超过1个月的时间。
    的头像 发表于 09-01 15:54 770次阅读
    全球<b class='flag-5'>GPU</b>缺口<b class='flag-5'>超</b>40万张!<b class='flag-5'>算</b>力之困,中国大模型有解了