0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

千亿美元打造一个系统,成本越来越高的AI超算

E4Life 来源:电子发烧友 作者:周凯扬 2024-04-09 00:19 次阅读

电子发烧友网报道(文/周凯扬)从近年来新发布的超算机器和新的HPC AI性能榜单可以看出,AI算力已经在超算中成了不可忽视的性能指标之一,但也为厂商带来了更大的成本挑战。比如微软近期就爆出和OpenAI合作,打造一个千亿美元级别的超算系统。

千亿美元打造AI超算

根据外媒报道,此次打造的千亿美元超算系统名为Stargate,星门。这一超算系统仅仅只是微软和OpenAI一系列数据中心合作项目之一,但造价已经高到离谱了。从规模上看,这个超算的硬件配置已经到了远超现有系统的程度。据爆料,星门将集成百亿个最新英伟达GPU,造价可能会达到1150亿美元。不过在互联方案上,微软可能会跳过英伟达的InfiniBand专用方案,而采用更加通用以太网方案。

当然了,虽然总成本较高,但微软并没有一次建成的部署策略,而是分拆成五个阶段,整个项目在2028年成功建成。这样可以尽早让该系统投入使用,毕竟对于新的模型而言,率先发布才不会错失市场机会。这或许也与微软采用通用的以太网方案有关,毕竟面对跨度如此长的方案而言,专用方案很可能会面临被兼容性差和被淘汰的局面。微软预计会在第四阶段,也就是2026年左右,正式启用这一超算系统。

除此之外,超算的部署地点依然待定,这无疑与部署地的电网供电能力息息相关,当地政府如果能提供支持自然最好。不过从硬件规模来看,单系统的耗电已经达到千兆瓦级,无论是对美国哪个州而言,都是巨大的供电挑战。也正因如此,微软正在考虑核能在内的其他替代能源方案。

超算部署成本发生的变化

时至今日,微软已经在OpenAI上花了130亿美元,使用其数据中心来为ChatGPT之类的应用提供硬件支持。但此次的星门项目更是规模浩大,这也说明了新模型的训练和推理,仍在对数据中心的硬件提出新的要求,需要用性能更强的AI超算来解决。

但这并不意味着普遍的超算成本真的有这么夸张的变化,要知道目前TOP500上排名第一的超算Frontier,其成本也只有6亿美元。对于科研专用的单个超算系统而言,虽然造价不算低,但在政府的科研经费支持下,研究机构还是可以负担起的。

不过值得注意的是,TOP500上的超算都有公开的跑分成绩,为了实现这样的成绩,需要一定时间的优化,再运行一段时间的测试才会有此成绩。而市面上,尤其是在不少大型互联网公司内部,也存在并没有公开提交成绩的超算,因为这类系统几乎是从诞生起就被投入商业使用了。

所以市面上肯定有超过6亿美元的超算系统,比如Meta就在几个月前打造了两套系统,分别集成了2万个H100 GPU,总成本在10亿美元以上。其他的互联网公司,诸如国内的百度、腾讯等,想必也有庞大的硬件购买计划。

写在最后

随着HPC与AI在需求和计算负载上的融合,市场趋势从前几年的“带AI功能的HPC系统”变成了“同样可以用于HPC的AI系统”。但从其规模来看,对于HPC市场也未尝不是一件好事,毕竟目前AI超算的商业价值更高,能够吸引到更多的投资和补贴,也有望进一步推动HPC硬件的革新速度。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268882
  • HPC
    HPC
    +关注

    关注

    0

    文章

    315

    浏览量

    23753
  • 超算
    +关注

    关注

    1

    文章

    115

    浏览量

    9070
收藏 人收藏

    评论

    相关推荐

    卡都去哪了?AI成了GPU的无底黑洞

    继续扩展大模型的机会,似乎只会被大公司掌握在手中。   xAI 拉拢戴尔和打造AI,马斯克继续买买买   xAI作为2023年3月才
    的头像 发表于 06-26 09:03 3356次阅读

    为什么说雷达功能是UWB的“宝藏”

    就需要更多的传感器提供数据。IoT产品趋势就是功能越来越多,要实现越来越多的功能,就需要越来越多的传感器,而传感器多了之后带来的问题就是
    的头像 发表于 12-20 15:26 261次阅读
    为什么说雷达功能是UWB的<b class='flag-5'>一</b><b class='flag-5'>个</b>“宝藏”

    广和通开启端侧AI新时代

    AI发展正酣,随着终端芯片越来越高、端侧模型能力越来越强、实时响应及隐私保护的端侧应用需求增加,端侧AI已然具备落地的条件。端侧
    的头像 发表于 12-12 10:35 162次阅读

    人民邮电报:“开源”到底是什么?为啥热度越来越高

          本文转载自人民邮电报 这些年,“开源”这个词越来越火,开源AI大模型、开源数据库、开源框架、开源硬件等新词汇层出不穷。那么到底什么是“开源”呢,是“开源节流”中的“开源”吗? 非也,今天
    的头像 发表于 10-17 14:21 515次阅读
    人民邮电报:“开源”到底是什么?为啥热度<b class='flag-5'>越来越高</b>?

    稳定、高效、低成本,储能与力正在相互赋能

    电子发烧友网报道(文/黄山明)随着时代的发展,储能与力正越来越紧密的结合。或许对于很多人而言,储能是能源系统,而力则是信息系统,两者似乎
    的头像 发表于 10-09 00:08 4336次阅读

    芯片功率1000W,村田创新电容产品如何解决AI新挑战?

    AI服务器出货量逾125万台,同比增长超过47%。   其中AI加速卡作为力的核心来源,需求量暴增,今年以来我们经常可以看到各家科技公司抢购英伟达GPU的消息,这也是推动英伟达在短时间内市值飙升至全球前三的重要原因。 不过随着
    的头像 发表于 07-23 00:19 2928次阅读
    芯片功率<b class='flag-5'>超</b>1000W,村田创新电容产品如何解决<b class='flag-5'>AI</b>新挑战?

    力概念股寒武纪20cm涨停市值重回千亿

    7月16日整个力概念板块上涨;寒武纪(688256)上涨达20%,股价创年内新高,成交额42亿,寒武纪的总市值重回千亿大关。 此外,紫光股份(000938)、海光信息(688041)等概念股同步
    的头像 发表于 07-17 15:30 589次阅读

    系统集成指什么

    集成的目标是为用户提供的、可扩展的、高性能的计算环境,以满足不同应用场景的需求。 系统集成的背景和意义 随着信息技术的快速发展,
    的头像 发表于 07-03 14:07 487次阅读

    科学计算的下轮创新,AI与数字孪生

    应用的行列中来。   AI 与数字孪生   在过去通用计算负载的时代,我们难以采用更大规模的计算集群来打造数字孪生。可随着AI技术,尤其
    的头像 发表于 05-07 00:16 2000次阅读
    科学计算的下<b class='flag-5'>一</b>轮创新,<b class='flag-5'>AI</b><b class='flag-5'>超</b><b class='flag-5'>算</b>与数字孪生

    谷歌拟投千亿美元AI实力或领跑业界

    据企鹅号报道,DeepMind公司首席执行官德米斯·哈萨比斯在TED大会上,面对媒体对微软公司和OpenAI建设价值千亿美元超级计算机“星际之门”的提问,他未披露具体投资金额,但表示谷歌在人工智能领域的投入将超越千亿
    的头像 发表于 04-16 16:41 546次阅读

    我们该如何应对SOC中越来越庞大和复杂的SDC约束?

    SOC设计变得越来越复杂,成本越来越高,设计和验证也越来越困难。
    的头像 发表于 03-13 14:52 1131次阅读
    我们该如何应对SOC中<b class='flag-5'>越来越</b>庞大和复杂的SDC约束?

    IC datasheet为什么越来越薄了?

    刚毕业的时候IC spec动则三四百页甚至一千页,这种设置和使用方法很详尽,但是这几年IC datasheet为什么越来越薄了,还分成了IC功能介绍、code设置、工厂量产等等规格书,很多东西都藏着掖着,想了解IC什么东西都要发邮件给供应商,大家有知道这事为什么的吗?
    发表于 03-06 13:55

    AI芯片架构谁将问鼎江湖?

    Al力对高效电源提出新需求,背面供电技术蓄势待发:越来越高度化的集成会造成针对加速芯片的电源解决方案越来越复杂,方案需要不同电压、不同路的多路输入,这种情况下电压轨会越来越多。
    发表于 03-05 10:15 350次阅读
    <b class='flag-5'>AI</b>芯片架构谁将问鼎江湖?

    为何开关频率要大于30kHz,且有越来越高的趋势?

    为何开关频率要大于30kHz,且有越来越高的趋势?开关频率大小的限制因素是什么? 开关频率的大小是指开关电路每秒钟进行开关操作的次数。在电力电子设备中,开关频率主要用于调节电路的响应速度和功率传输
    的头像 发表于 01-31 17:39 2851次阅读

    你知道安防监控系统是由哪七大部分组成的吗?

    安防监控系统门被人们日益重视的新兴专业,就目前发展看,应用普及越来越广,科技含量越来越高
    的头像 发表于 01-08 09:13 613次阅读
    你知道安防监控<b class='flag-5'>系统</b>是由哪七大部分组成的吗?