0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

拥有26000个GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?

SDNLAB 来源:SDNLAB 2023-05-19 16:47 次阅读

云提供商正在组建 GPU 大军,以储备更多的 AI 火力。在与微软争夺 AI 霸权的斗争中,谷歌开始投入更多资源以进行反攻。在微软将 OpenAI 的技术应用于 Bing 搜索和办公应用程序之后,谷歌加速了其 AI 开发。

在前段时间举办的谷歌年度I/O 开发者大会上,谷歌宣布了一款 AI 超级计算机“A3 ”,这台超级计算机拥有大约 26000 个英伟达 H100 Hopper GPU。

*世界上最快的超级计算机Frontier拥有 37000 个 AMD Instinct 250X GPU。

谷歌表示A3是专为训练和运行现时的生成式AI和大语言模型而打造的,可提供26 exaFlops的AI性能。

A3 是第一个使用谷歌与英特尔联合定制设计的 200 Gbps IPU的 GPU 实例,它可以让GPU和GPU之间的数据绕过CPU,并可在其他虚拟机网络和数据流的接口上传输。与A2 VM 相比,这可实现高达 10 倍的网络带宽,同时具有低尾延迟和高带宽稳定性。

谷歌的Jupiter数据中心网络结构能让数以万计的GPU高度互连,而且能够按需调整网络拓扑,这有利于成本的降低。

A3 超级计算机的规模提供高达 26 exaFlops 的 AI 性能,这大大减少了训练大型 ML 模型的时间和成本。

A3 GPU VM 专门为当今的 ML 工作负载提供最高性能的训练,配备现代 CPU、改进的主机内存、下一代英伟达 GPU 和主要网络升级。以下是 A3 的主要特点:

8 个 H100 GPU,利用英伟达的 Hopper 架构,提供 3 倍的计算吞吐量

通过英伟达 NVSwitch 和 NVLink 4.0,A3 的 8 个 GPU 之间的对分带宽为 3.6 TB/s

第 4 代英特尔至强可扩展处理器

2TB 主机内存,通过 4800 MHz DDR5 DIMM

由支持硬件的 IPU、专门的服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽增加 10 倍

GPU 的数量已经成为云提供商推广其 AI 计算服务的重要名片。

微软与OpenAI合作开发的Azure AI超级计算机拥有285000 个CPU内核和10000 个 GPU。Oracle 的云服务提供512 个 GPU 集群的访问,并且正在开发新技术以提高 GPU 通信的速度。

此外,许多云提供商都在部署 H100 GPU。英伟达 H100 上的训练模型比上一代 A100 GPU 更快、更便宜。AI服务公司 MosaicML 进行的一项研究发现,H100 在其 70 亿参数的 MosaicGPT 大型语言模型上比 A100 的成本效益高 30%,速度快 3 倍。

英伟达在 3 月份推出了自己的 DGX 云服务,与租用上一代 A100 GPU 相比,该服务价格昂贵。

16a0cbbc-f621-11ed-90ce-dac502259ad0.png

|搭载8颗H100 Hopper GPU的英伟达DGX H100系统底板

谷歌一直在大力宣传其TPU v4 AI芯片,这些芯片被用于运行带有 LLM 的内部AI应用程序,例如谷歌的 Bard 产品。(点击阅读:对打英伟达A100,谷歌公布TPU v4技术细节)

16b8d090-f621-11ed-90ce-dac502259ad0.png

|谷歌TPU v4

谷歌表示,A3 超算是对现有配备英伟达A100 GPU的A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在不同地理位置的 A3 计算实例汇集到一台超级计算机中。

相比A2,谷歌的 A3 超级计算机用途广泛,可以针对广泛的 AI 应用程序和 LLM 进行调整。“鉴于这些工作负载的高要求,一刀切的方法是不够的,需要专为 AI 构建的基础设施。”客户可以通过 A3 虚拟机运行 AI 应用程序,并通过 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服务使用谷歌的 AI 开发和管理服务。

此外,I/O 开发者大会上,谷歌还发布了最新大语言模型PaLM 2。2022 年4月谷歌推出拥有5400 亿参数的大型语言模型PaLM。最新PaLM 2 基于Pathways 架构,使用TPU v4 芯片和JAX 框架训练,在代码和数学,分类和问答,翻译和多语言能力以及自然语言生成高级任务方面都比前一代PaLM 表现得更好,在推理和数学领域与GPT-4 相当。PaLM 2与A3 超级计算机的推出,使谷歌在AI 领域综合实力大幅增强。

AI 市场竞争激烈,微软近年来加大了对AI 的投资和研发力度,在深度学习、自然语言处理、计算机视觉等领域的技术已经达到了较高的水平。谷歌也推出了一系列AI 产品和服务,旨在通过提供全栈式的AI 解决方案来占据更加主导的地位。双方都在不断加强自己的技术研发和产品布局,以期在未来的市场竞争中获得更多的话语权。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4700

    浏览量

    128677
  • 超级计算机
    +关注

    关注

    2

    文章

    460

    浏览量

    41919
  • AI
    AI
    +关注

    关注

    87

    文章

    30084

    浏览量

    268348
  • 英伟达
    +关注

    关注

    22

    文章

    3740

    浏览量

    90794

原文标题:拥有 26000 个 GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA助力xAI打造全球最大AI超级计算机

    NVIDIA 宣布,xAI 位于田纳西州孟菲斯市的Colossus 超级计算机集群达到了 10 万颗 NVIDIA Hopper GPU 的巨大规模。该集群使用了NVIDIA Spectrum-X
    的头像 发表于 10-30 11:38 278次阅读

    NVIDIA Colossus超级计算机集群突破10万颗Hopper GPU

    NVIDIA近日宣布,其位于田纳西州孟菲斯市的xAI Colossus超级计算机集群规模已壮大至10万颗NVIDIA Hopper GPU。这一里程碑式的成就,再次彰显了NVIDIA在AI
    的头像 发表于 10-30 10:29 256次阅读

    NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

    市的 Colossus 超级计算机集群达到了 10 万颗 NVIDIA® Hopper  GPU 的巨大规模。该集群使用了 NVIDIA Spectrum-X™ 以太网网络平台,该平台是专为多租户
    发表于 10-30 09:33 117次阅读
    NVIDIA 以太网加速 xAI 构建的全球最大 <b class='flag-5'>AI</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    丹麦推出首台AI超级计算机Gefion

    超级计算机由1528英伟达H100 Tensor Core GPU驱动,并采用了英伟达DGX SuperPOD架构设计。这些高性能计算单元
    的头像 发表于 10-29 15:13 338次阅读

    NVIDIA助力丹麦发布首台AI超级计算机

    这台丹麦最大的超级计算机由该国政府与丹麦 AI 创新中心共同建设,是一台 NVIDIA DGX SuperPOD 超级计算机
    的头像 发表于 10-27 09:42 383次阅读

    云端超级计算机怎么用

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 10-18 10:14 107次阅读

    借助NVIDIA超级计算机加速量子计算发展

    科学期刊《自然》(Nature)本月早些时候发表了一项研究,通过使用 NVIDIA 驱动的超级计算机,验证了量子计算的商业化途径。
    的头像 发表于 07-25 09:55 485次阅读

    AMD雄心勃勃:计划构建百万级GPU超级计算机集群

    在全球科技竞赛的舞台上,AMD近日宣布了一项令人瞩目的计划——打造一包含多达120万颗GPU超级计算机集群。这一宏大的举措立即引发了业界的广泛关注,许多人认为,这是AMD为了与英伟
    的头像 发表于 06-27 14:37 618次阅读

    NVIDIA和Recursion利用AI超级计算机加快新药研发

    BioHive 由 NVIDIA AI 驱动,用于加速医疗领域科学家的工作。在全球超级计算机 TOP500 榜单中,它的排名上升了 100 多位。
    的头像 发表于 05-16 09:46 1227次阅读
    NVIDIA和Recursion利用<b class='flag-5'>AI</b><b class='flag-5'>超级</b><b class='flag-5'>计算机</b>加快新药研发

    富士通使用富岳超级计算机训练LLM

    尽管富士通的富岳超级计算机不再是超级计算机500强名单中最快的机器,但它仍然是一非常强大的系统,A
    的头像 发表于 05-13 14:18 510次阅读

    微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机

    微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机这一消息属实。
    的头像 发表于 04-11 10:14 498次阅读

    诺和诺德基金会将联手英伟达打造丹麦AI超级计算机

    诺和诺德基金会携手英伟达,共同宣布在丹麦打造一台领先的AI超级计算机。这台超级计算机将致力于推动医疗保健、生命科学以及绿色转型等领域的科研与
    的头像 发表于 03-21 13:43 555次阅读

    NVIDIA 推出 Blackwell 架构 DGX SuperPOD,适用于万亿参数级的生成式 AI 超级计算

    ——  NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX SuperPOD™。
    发表于 03-19 10:56 379次阅读
    NVIDIA 推出 Blackwell 架构 DGX SuperPOD,适用于万亿参数级的生成式 <b class='flag-5'>AI</b> <b class='flag-5'>超级</b><b class='flag-5'>计算</b>

    Tesla 计划斥资 5 亿美元建造一台由 NVIDIA 的 AI GPU 提供支持的 Dojo 超级计算机

    ABSTRACT摘要Tesla计划斥资5亿美元建造一台由NVIDIA的AIGPU提供支持的Dojo超级计算机,因此该公司正在加大基于AI的开发力度。JAEALOT2024年1月27日Tesla计划
    的头像 发表于 02-19 12:45 540次阅读
    Tesla 计划斥资 5 亿美元建造一台由 NVIDIA 的 <b class='flag-5'>AI</b> <b class='flag-5'>GPU</b> 提供支持的 Dojo <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    特斯拉在布法罗超级工厂投资5亿美元建造Dojo超级计算机

    霍楚尔表示,此次项目投资为5亿美元,并将同时在纽约州立大学建设另一台独立的AI超级计算机。“我很荣幸地告诉大家,特斯拉将在布法罗投资5亿美元,用于其新一代超级
    的头像 发表于 01-29 10:58 384次阅读