分析丨 AI数据中心堪比超算，NVIDIA与AMD同场竞技-电子发烧友网

超级计算机对于科学研究、能源、工程设计领域具有重要意义，在商业用途中也发挥重要作用。2022年高性能计算专业大会发布的全球超级计算机Top500排行榜显示，美国橡树岭国家实验室（ORNL）的Frontier系统位列榜首，自2022年6月以来，Frontier一直是全球超级计算机Top500名单上的强大设备。

图注：全球超级计算机Top10，发布时间为2022年11月（来源：中科院网信工作网）

进入2023年，超级计算机的排行将发生改变。

芯查查APP显示，在美国劳伦斯利弗莫尔国家实验室（LLNL）安装的“El Capitan”超级计算机最快于2023年底启动，从而可能刷新全球超级计算机榜单。El Capitan估计FP64峰值性能约为2.3 exaflops，比Frontier超级计算机的1.68 exaflops性能高出约37%。

同时，人工智能（AI）应用掀起，超大规模云服务企和AI初创企业都开始构建大型数据中心，比如，NVIDIA和CoreWeave正在为Inflection AI开发数据中心；Microsoft Azure正在为OpenAI构建的数据中心。从下图可以看出，目前在建的这两个AI数据中心在TFLOPS算力性能上虽然不如现有的超级计算机，但是在成本上已经超出很多。

图注：超级计算机与AI数据中心对比（来源：nextplatform网站）

AI数据中心面向AI训练和推理进行配置，在建的AI数据中心进程如何？使用了哪些处理器？

Inflection AI使用处理器：NVIDIA H100Inflection AI是一家由Deep Mind前负责人创建，并由Microsoft和Nvidia支持的新创业公司。目前估值约为40亿美元，产品为AI聊天机器人，支持计划、调度和信息收集。

在筹集了13亿美元的资金之后，Inflection AI将建立一个由多达22000个NVIDIA H100 GPU驱动的超级计算机集群，其峰值理论计算能力将与Frontier相当。理论上能够提供1.474 exaflops的FP64性能。在CUDA内核上运行通用FP64代码时，峰值吞吐量仅为其一半：0.737 FP64 exaflops（与前文图表数值略有出入，但相差不大）。虽然FP64性能对于许多科学工作负载很重要，但对于面向AI的任务，该系统可能会更快。FP16/BF16的峰值吞吐量为43.5 exaflops，FP8吞吐量的峰值吞吐量是87.1 exaflops。

图片来源：NVIDIA

Inflection AI的服务器集群成本尚不清楚，但NVIDIA H100 GPU零售价超过30000美元，预计该集群的GPU成本将达到数亿美元。加上所有机架服务器和其他硬件，将占13亿美元资金的大部分。

在市场需求远远超过供应的情况下，NVIDIA或AMD不会为其GPU计算引擎给予大幅折扣就，其服务器OEM和ODM合作伙伴同样如此。因此，与美国的百亿亿次高性能计算系统相比，这些设备非常昂贵。Inflection AI的FP16半精度性能为21.8 exaflops，足以驱动一些非常大的LLM和DLRM（大型语言模型和深度学习推荐模型）。

El Capitan使用处理器：AMD Instinct MI300A为超级计算机“El Capitan”提供算力的处理器是“Antares”AMD Instinct MI300A CPU-GPU混合体，其FP16矩阵数学性能仍然未知。

图注：基于AMD MI300的刀片设施（来源：http://tomshardware.com）

Instinct MI300是一款数据中心APU，它混合了总共13个chiplet，其中许多是3D堆叠的，形成一个单芯片封装，其中包含24个Zen 4 CPU内核，融合CDNA 3图形引擎和八个总容量为128GB的HBM3内存堆栈。这个芯片拥有1460亿个晶体管，使其成为AMD投入生产的最大芯片。其中，由9个计算die构成的5nm CPU和GPU混合体，在4个6nm die上进行3D堆叠，这4个die主要处理内存和I/O流量。

预计每个MI300A在2.32 GHz时钟频率下可提供784 teraflops性能，常规MI300的时钟频率约为1.7GHz。惠普公司（HPE）或许在El Capitan系统中为每个滑轨配置8个MI300A，El Capitan的计算部分应该有大约2931个节点、46个机柜和8行设备。基于上述猜测，El Capitan应该有大约23500个MI300 GPU，具备大约18.4 exaflops的FP16矩阵数学峰值性能。相比Inflection AI，用更少的钱，发挥出更大性能。

Microsoft/OpenAI使用处理器：NVIDIA H100传闻Microsoft正在为OpenAI构建25000 GPU集群，用于训练GPT-5。

从历史上看，Microsoft Azure使用PCI-Express版本的NVIDIA加速器构建其HPC和AI集群，并使用InfiniBand网络将它们连接在一起。

为OpenAI构建的集群使用NVIDIA H100 PCI-Express板卡，假设为每个20000美元，即5亿美元。另外，使用英特尔“Sapphire Rapids”至强SP主机处理器、2TB的主内存和合理数量的本地存储，每个节点再增加150000美元，这将为容纳这25000个GPU的3125个节点再增加4.69亿美元。InfiniBand网络将增加2.42亿美元。合计12.1亿美元，这些费用要比国家实验室的超级计算机贵很多。

全球超级计算机追求新颖的架构，为最终商业化而进行研发。超大规模云服务商可以做同样的数学运算，构建自己的计算引擎，包括亚马逊网络服务、谷歌、百度和Facebook都是如此。即使有50%的折扣，诸如Inflection AI和OpenAI的设备单位价格仍然比国家实验室为超级计算机昂贵。

“神威·太湖之光”使用处理器：申威26010以2022年的全球超级计算机榜单来看，进入Top10的我国超级计算机是“神威·太湖之光”。资料显示，该计算机安装了40960个中国自主研发的申威26010众核处理器，采用64位自主神威指令系统，峰值性能为12.5亿亿次每秒，持续性能为9.3亿亿次每秒，核心工作频率1.5GHz。

申威和龙芯目前是我国自研处理器的代表，两者均采用自研处理器的指令集架构。CPU国产化目前有3种方式，一个是获得x86内核授权，一个是获得Arm指令集架构授权，另一种是自研指令集架构，这种方式的安全可控程度较高，也是自主化较为彻底的一种方式。

图注：国内服务器处理器厂商

小结随着人工智能应用发酵，超级计算机与AI数据中心的界限可能变得模糊，两者的硬件和架构已经发展到可以更快地处理更多数据，因此其配置将会逐步超越，芯查查认为，整体呈现为几点趋势：面向AI应用，高性能处理器采用更多核心、异质架构将更加普遍，以支持更多的并行计算和更快的数据处理速度，处理器的内存管理和缓存设计也得到了优化，以减少对主存储器的访问延迟。专门的加速器，比如图形处理单元（GPU）和神经网络处理单元（NPU），将被引入处理器，高效地执行矩阵计算和神经网络。能效是AI数据中心和超级计算机共同难点，处理器能效成为要点，设计趋向于降低功耗和散热需求，采用更先进的制程技术、优化的电源管理以及动态频率调节等方法。AI数据中心和超级计算机建设的需求推动了处理器的发展，也推动了存储、结构和GPU的进步，这些组件都将服务于系统的数据吞吐量和效率。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据中心

数据中心

+关注

关注
16

文章
4876

浏览量
72462
AI

AI

+关注

关注
87

文章
31845

浏览量
270674

NVIDIA发布个人超算利器project digital，标志着ai元年的开启

的projectdigital发布之后，这些设想都在被世人一一实现。NVIDIA发布的最新个人超算projectdigital将云AI转变成了本地A

发表于 01-16 11:52 •294次阅读

智算中心会取代通用算力中心吗？

随着人工智能（AI）技术的飞速发展，计算需求不断攀升，数据中心行业正经历着前所未有的变革。传统的通用算力中心与新兴的智算

发表于 01-06 14:45 •206次阅读

全球视野算领未来，施耐德电气助力数据中心把握智算机遇

领域专家及行业合作伙伴，深入探讨AI重塑未来之际，数据中心面临的新挑战、技术革新与未来发展趋势，并分享了施耐德电气赋能数据中心绿色可持续影响力的创新解决方案，谱写智算发展新篇章。

发表于 11-21 15:50 •396次阅读

AMD数据中心业务收入超越Intel

领导者Intel。相比之下，Intel的数据中心和AI业务收入为33.49亿美元，虽然同比增长了9%，但在与AMD的竞争中略显逊色。这一数据对比凸显了

发表于 11-07 11:10 •472次阅读

AMD数据中心业务首超英特尔,Nvidia异军突起

长期以来，英特尔在数据中心CPU市场占据主导地位，其Xeon处理器为绝大多数服务器提供动力。大约七、八年前，AMD的处理器在市场份额中还只是个位数。然而，这一局面已经发生了翻天覆地的变化。尽管英特尔

发表于 11-06 15:49 •551次阅读

AI数据中心的能源危机，需要更高效的PSU

电子发烧友网报道（文/梁浩斌）数据中心在近年AI的浪潮中得到极大的发展，算力需求的膨胀带动全球数据中心建设规模呈现爆发式增长。而在数据中心数

发表于 11-04 02:21 •4873次阅读

AMD全新处理器扩大数据中心CPU的领先地位

在Computex 2024 开幕主题演讲上，AMD 详细介绍了全新的 CPU、NPU 和 GPU 领先架构，为从数据中心到个人电脑的端到端 AI 基础架构带来强大算力。

发表于 09-19 11:01 •614次阅读

NVIDIA 在 Hot Chips 大会展示提升数据中心性能和能效的创新技术

为 NVIDIA Blackwell 平台提供动力的最新技术进展，以及新的数据中心液冷研究成果和用于芯片设计的 AI 代理。他们

发表于 08-28 16:38 •431次阅读

AI时代，我们需要怎样的数据中心？AI重新定义数据中心

超过60%的中国企业计划在未来12至24个月内部署生成式人工智能。AI、模型的构建，将颠覆数据中心基础设施的建设、运维和运营。一个全新的数据中心智能化时代已经拉开序幕。

发表于 07-16 11:33 •805次阅读

云数据中心、智算中心、超算中心，有何区别？

云数据中心、智算中心和超算中心是当前计算机领域中比较重要的研究方向，三者虽然都属于

发表于 06-22 08:27 •5838次阅读

AMD推出全新AMD锐龙和EPYC处理器，扩大数据中心和PC领域领先地位

——下一代 AMD EPYC 处理器将扩大数据中心 CPU 的领先地位 ——全新 AMD 锐龙 AI 300 系列笔记本电脑和 AMD 锐龙

发表于 06-04 19:21 •1062次阅读

NVIDIA为新工业革命打造 AI 工厂和数据中心

搭载 Grace CPU 以及 NVIDIA 网络和基础设施，助力于企业建立 AI 工厂和数据中心，推动新一轮生成式 AI 突破。 NVIDIA

发表于 06-03 18:14 •1068次阅读

八大科技巨头携手推进UALink，加速数据中心AI互联

近日，英特尔、Google、微软、Meta等八家科技巨头宣布共同成立超加速器链接（UALink）推广小组，致力于推动数据中心内AI加速器芯片的连接组件发展。UALink旨在优化数据中心

发表于 05-31 10:59 •910次阅读

一图看懂星河AI数据中心网络，全面释放AI时代算力

华为中国合作伙伴大会 | 一图看懂星河AI数据中心网络，以网强算，全面释放AI时代算力

发表于 03-22 10:28 •852次阅读

CloudFabric3.0超融合数据中心网络全新升级，携手共筑算力新联接

在华为中国合作伙伴大会2024期间，华为举办了以“超融合数据中心网络，携手共筑算力新联接”为主题的数据中心网络分论坛。

发表于 03-19 09:18 •968次阅读