拥有26000个GPU的“A3”超级计算机，能为谷歌赢下AI反攻战吗？-电子发烧友网

云提供商正在组建 GPU 大军，以储备更多的 AI 火力。在与微软争夺 AI 霸权的斗争中，谷歌开始投入更多资源以进行反攻。在微软将 OpenAI 的技术应用于 Bing 搜索和办公应用程序之后，谷歌加速了其 AI 开发。

在前段时间举办的谷歌年度I/O 开发者大会上，谷歌宣布了一款 AI 超级计算机“A3 ”，这台超级计算机拥有大约 26000 个英伟达 H100 Hopper GPU。

*世界上最快的超级计算机Frontier拥有 37000 个 AMD Instinct 250X GPU。

谷歌表示A3是专为训练和运行现时的生成式AI和大语言模型而打造的，可提供26 exaFlops的AI性能。

A3 是第一个使用谷歌与英特尔联合定制设计的 200 Gbps IPU的 GPU 实例，它可以让GPU和GPU之间的数据绕过CPU，并可在其他虚拟机网络和数据流的接口上传输。与A2 VM 相比，这可实现高达 10 倍的网络带宽，同时具有低尾延迟和高带宽稳定性。

谷歌的Jupi ter数据中心网络结构能让数以万计的GPU高度互连，而且能够按需调整网络拓扑，这有利于成本的降低。

A3 超级计算机的规模提供高达 26 exaFlops 的 AI 性能，这大大减少了训练大型 ML 模型的时间和成本。

A3 GPU VM 专门为当今的 ML 工作负载提供最高性能的训练，配备现代 CPU、改进的主机内存、下一代英伟达 GPU 和主要网络升级。以下是 A3 的主要特点：

8 个 H100 GPU，利用英伟达的 Hopper 架构，提供 3 倍的计算吞吐量

通过英伟达 NVSwitch 和 NVLink 4.0，A3 的 8 个 GPU 之间的对分带宽为 3.6 TB/s

第 4 代英特尔至强可扩展处理器

2TB 主机内存，通过 4800 MHz DDR5 DIMM

由支持硬件的 IPU、专门的服务器间 GPU 通信堆栈和 NCCL 优化提供支持的网络带宽增加 10 倍

GPU 的数量已经成为云提供商推广其 AI 计算服务的重要名片。

微软与OpenAI合作开发的Azure AI超级计算机拥有285000 个CPU内核和10000 个 GPU。Or acle 的云服务提供512 个 GPU 集群的访问，并且正在开发新技术以提高 GPU 通信的速度。

此外，许多云提供商都在部署 H100 GPU。英伟达 H100 上的训练模型比上一代 A100 GPU 更快、更便宜。AI服务公司 MosaicML 进行的一项研究发现，H100 在其 70 亿参数的 MosaicGPT 大型语言模型上比 A100 的成本效益高 30%，速度快 3 倍。

英伟达在 3 月份推出了自己的 DGX 云服务，与租用上一代 A100 GPU 相比，该服务价格昂贵。

｜搭载8颗H100 Hopper GPU的英伟达DGX H100系统底板

谷歌一直在大力宣传其TPU v4 AI芯片，这些芯片被用于运行带有 LLM 的内部AI应用程序，例如谷歌的 Bard 产品。（点击阅读：对打英伟达A100，谷歌公布TPU v4技术细节）

｜谷歌TPU v4

谷歌表示，A3 超算是对现有配备英伟达A100 GPU的A2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在不同地理位置的 A3 计算实例汇集到一台超级计算机中。

相比A2，谷歌的 A3 超级计算机用途广泛，可以针对广泛的 AI 应用程序和 LLM 进行调整。“鉴于这些工作负载的高要求，一刀切的方法是不够的，需要专为 AI 构建的基础设施。”客户可以通过 A3 虚拟机运行 AI 应用程序，并通过 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服务使用谷歌的 AI 开发和管理服务。

此外，I/O 开发者大会上，谷歌还发布了最新大语言模型PaLM 2。2022 年4月谷歌推出拥有5400 亿参数的大型语言模型PaLM。最新PaLM 2 基于Pathways 架构，使用TPU v4 芯片和JAX 框架训练，在代码和数学，分类和问答，翻译和多语言能力以及自然语言生成高级任务方面都比前一代PaLM 表现得更好，在推理和数学领域与GPT-4 相当。PaLM 2与A3 超级计算机的推出，使谷歌在AI 领域综合实力大幅增强。

AI 市场竞争激烈，微软近年来加大了对AI 的投资和研发力度，在深度学习、自然语言处理、计算机视觉等领域的技术已经达到了较高的水平。谷歌也推出了一系列AI 产品和服务，旨在通过提供全栈式的AI 解决方案来占据更加主导的地位。双方都在不断加强自己的技术研发和产品布局，以期在未来的市场竞争中获得更多的话语权。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4742

浏览量
128968
超级计算机

超级计算机

+关注

关注
2

文章
462

浏览量
41949
AI

AI

+关注

关注
87

文章
30946

浏览量
269186
英伟达

英伟达

+关注

关注
22

文章
3778

浏览量
91148

原文标题：拥有 26000 个 GPU的“A3”超级计算机，能为谷歌赢下AI反攻战吗？

文章出处：【微信号：SDNLAB，微信公众号：SDNLAB】欢迎添加关注！文章转载请注明出处。

云端超级计算机使用教程

云端超级计算机是一种基于云计算的高性能计算服务，它将大量计算资源和存储资源集中在一起，通过网络向用户提供按需的

发表于 12-17 10:19 •129次阅读

NVIDIA助力xAI打造全球最大AI超级计算机

NVIDIA 宣布，xAI 位于田纳西州孟菲斯市的Colossus 超级计算机集群达到了 10 万颗 NVIDIA Hopper GPU 的巨大规模。该集群使用了NVIDIA Spectrum-X

发表于 10-30 11:38 •380次阅读

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

市的 Colossus 超级计算机集群达到了 10 万颗 NVIDIA® Hopper GPU 的巨大规模。该集群使用了 NVIDIA Spectrum-X™ 以太网网络平台，该平台是专为多租户

发表于 10-30 09:33 •156次阅读

NVIDIA 以太网加速 xAI 构建的全球最大 <b class='flag-5'>AI</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

丹麦推出首台AI超级计算机Gefion

超级计算机由1528个英伟达H100 Tensor Core GPU驱动，并采用了英伟达DGX SuperPOD架构设计。这些高性能计算单元

发表于 10-29 15:13 •399次阅读

NVIDIA助力丹麦发布首台AI超级计算机

这台丹麦最大的超级计算机由该国政府与丹麦 AI 创新中心共同建设，是一台 NVIDIA DGX SuperPOD 超级计算机。

发表于 10-27 09:42 •445次阅读

云端超级计算机怎么用

云端超级计算机是一种基于云计算的高性能计算服务，它将大量计算资源和存储资源集中在一起，通过网络向用户提供按需的

发表于 10-18 10:14 •160次阅读

借助NVIDIA超级计算机加速量子计算发展

科学期刊《自然》（Nature）本月早些时候发表了一项研究，通过使用 NVIDIA 驱动的超级计算机，验证了量子计算的商业化途径。

发表于 07-25 09:55 •525次阅读

AMD雄心勃勃：计划构建百万级GPU超级计算机集群

在全球科技竞赛的舞台上，AMD近日宣布了一项令人瞩目的计划——打造一个包含多达120万颗GPU的超级计算机集群。这一宏大的举措立即引发了业界的广泛关注，许多人认为，这是AMD为了与英伟

发表于 06-27 14:37 •670次阅读

NVIDIA和Recursion利用AI超级计算机加快新药研发

BioHive 由 NVIDIA AI 驱动，用于加速医疗领域科学家的工作。在全球超级计算机 TOP500 榜单中，它的排名上升了 100 多位。

发表于 05-16 09:46 •1276次阅读

NVIDIA和Recursion利用<b class='flag-5'>AI</b><b class='flag-5'>超级</b><b class='flag-5'>计算机</b>加快新药研发

富士通使用富岳超级计算机训练LLM

尽管富士通的富岳超级计算机不再是超级计算机500强名单中最快的机器，但它仍然是一个非常强大的系统，A

发表于 05-13 14:18 •555次阅读

微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机

微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机这一消息属实。

发表于 04-11 10:14 •561次阅读

诺和诺德基金会将联手英伟达打造丹麦AI超级计算机

诺和诺德基金会携手英伟达，共同宣布在丹麦打造一台领先的AI超级计算机。这台超级计算机将致力于推动医疗保健、生命科学以及绿色转型等领域的科研与

发表于 03-21 13:43 •608次阅读

NVIDIA 推出 Blackwell 架构 DGX SuperPOD，适用于万亿参数级的生成式 AI 超级计算

—— NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX SuperPOD™。

发表于 03-19 10:56 •426次阅读

Tesla 计划斥资 5 亿美元建造一台由 NVIDIA 的 AI GPU 提供支持的 Dojo 超级计算机

ABSTRACT摘要Tesla计划斥资5亿美元建造一台由NVIDIA的AIGPU提供支持的Dojo超级计算机，因此该公司正在加大基于AI的开发力度。JAEALOT2024年1月27日Tesla计划

发表于 02-19 12:45 •569次阅读

特斯拉在布法罗超级工厂投资5亿美元建造Dojo超级计算机

霍楚尔表示，此次项目投资为5亿美元，并将同时在纽约州立大学建设另一台独立的AI超级计算机。“我很荣幸地告诉大家，特斯拉将在布法罗投资5亿美元，用于其新一代超级

发表于 01-29 10:58 •411次阅读

搜索历史

拥有26000个GPU的“A3”超级计算机，能为谷歌赢下AI反攻战吗？

评论

云端超级计算机使用教程

NVIDIA助力xAI打造全球最大AI超级计算机

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

丹麦推出首台AI超级计算机Gefion

NVIDIA助力丹麦发布首台AI超级计算机

云端超级计算机怎么用

借助NVIDIA超级计算机加速量子计算发展

AMD雄心勃勃：计划构建百万级GPU超级计算机集群

NVIDIA和Recursion利用AI超级计算机加快新药研发

富士通使用富岳超级计算机训练LLM

微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机

诺和诺德基金会将联手英伟达打造丹麦AI超级计算机

NVIDIA 推出 Blackwell 架构 DGX SuperPOD，适用于万亿参数级的生成式 AI 超级计算

Tesla 计划斥资 5 亿美元建造一台由 NVIDIA 的 AI GPU 提供支持的 Dojo 超级计算机

特斯拉在布法罗超级工厂投资5亿美元建造Dojo超级计算机