谷歌、Facebook 和微软的下一代高性能计算机的新蓝图-电子发烧友网

在最近的开放计算项目峰会上出现了准备改变传统服务器架构的新一代设计，谷歌、Facebook 和微软在峰会上展示了高性能计算机的新蓝图。

在加利福尼亚州圣克拉拉举行的贸易展上展示的硬件表明，云提供商继续降低 CPU 的优先级，同时更多地关注网络、存储和加速器，如 GPU 和 AI 芯片。服务器制造商可以复制和改进 OCP 设计。

本次峰会上的焦点之一是 Meta 设计的名为 Grand Teton 的服务器，该公司正在为数据中心部署该服务器以运行人工智能应用程序。Meta 的工程副总裁 Alexis Bjorlin 在一篇博客文章中表示，Meta 的目标是为其大型数据中心带来更多的 AI 能力，这支撑了其社交媒体平台上的许多功能，同时也为其 metaverse 的未来做好准备。

半导体研究机构 SemiAnalysis 的创始人 Dylan Patel 表示，OCP 包括服务器世界的名人录——Meta、Google 和其他公司——在戴尔、HPE 和联想的标准机架之前，所有很酷的新硬件都在这里出现。

“当我们谈论硬件时，它的功率要高得多，但也很高效。它可能是高功率，因为它用于 Facebook 的 AI，或者它可能是高功率，因为它是一个非常密集的服务器，”Patel 说。

Patel 还指出，许多下一代服务器也展示了代号为 Sapphire Rapids 的 Intel 下一代 Xeon 服务器 CPU 和 AMD 即将推出的 Genoa。

Bjorlin 上个月表示，Meta 计划到2025 年建立拥有超过 4,000 个加速器的大型集群。这些核心将被组织为一个网格，加速器之间的带宽将达到每秒 1 TB。Bjorlin 上个月在 AI 硬件峰会上的一次演讲中详细介绍了这些计划，但没有分享硬件细节。该公司广泛使用 Nvidia GPU。

Meta 的服务器设计基本方法包括去除不必要的组件，并在系统和芯片级别缩小硬件。系统和芯片尺寸的缩小将有助于创建 AI 训练集群，这些集群将消耗更多功率，同时也提供显着更高的每瓦性能。

Bjorlin 在 Grand Teton 的公告中说，深度学习模型正在显著增长到数十万亿个参数，并且“可能需要 zettaflop 的计算来训练”。

“人工智能和机器学习模型正变得越来越强大和复杂，需要更多高性能基础设施来匹配，”Bjorlin 说。

Grand Teton 是 2021 年推出的 Zion-EX 横向扩展系统的继任者。Grand Teton 的速度明显快于其前身，主机到 GPU 带宽提高了四倍，计算能力和吞吐量提高了两倍。

“与包含多个独立子系统的 Zion-EX 相比，Grand Teton 还具有集成底盘，”Bjorlin 说。

微软展示了一个名为 Mt. Shasta 的模块化系统，这是一个可以容纳人工智能和高性能计算加速器的机箱。该模块通过 48 伏电源馈入高性能服务器。该模块可以热插拔并容纳多个加速器。该系统由 Molex 和 Quanta 设计，并与 OCP 的 Open Rack V3 设计兼容，该设计为系统打开了机架级分解。

微软在一篇博文中表示，Mt. Shasta 模块解决了在数据中心实施加速器时面临的常见问题。加速器可以在数据中心的电源、冷却和连接指南内轻松实施，并自动与基于软件的管理接口进行硬件控制。节点级挂钩使模块可热插拔，这在 PCI Gen 3.0 接口中也很困难，该接口较旧，但仍在较旧的服务器上使用。

Insight 64 首席分析师 Nathan Brookwood 表示，加速器的多样化服务器硬件一直是当务之急，但今年围绕 CXL（Compute Express Link）引起了很多兴奋，因为它提供了轻松添加一系列加速器的钩子。

“很明显，那些在云中部署的人——你看到的是谷歌、微软等——他们知道他们需要什么。他们可能会去掉 HPE 和戴尔在通用企业级产品中投入的更多花里胡哨的东西，”Brookwood说。

CXL 是一个关键的构建块，旨在改变服务器的设计、定制和配置方式。CXL 允许更轻松地选择和组装服务器的构建块。该技术提供了计算、内存和存储系统之间的通信链接，并包括跨服务器提供和管理计算的工具。

“CXL 正在迅速被接受，这令人惊讶，因为支持它的通用处理器尚未发布，包括 [Intel 的] Sapphire Rapids 和 [AMD 的] Genoa，”Brookwood 说。

虽然 Facebook 的 Grand Teton 是一个集成服务器，但 Google 专注于未来的“多脑”服务器，它将存储、加速器、内存和基础设施处理单元整合到单独的托盘中。模块化硬件架构基于包括 CXL 和 NVMe 在内的互连以及 OpenBMC 和 RedFish 等分布式系统管理工具。

Brookwood 说，小型服务器制造商同样对 CXL 感到兴奋。

“随着这些产品的推出，我认为小型服务器制造商，尤其是云计算领域的制造商，将会关注这一点，”Brookwood说。

IT 基础设施公司 Wiwynn 是台湾纬创资通集团的子公司，专注于定制服务器设计的构建模块。该公司以前专门从事 OCP 的集成服务器设计，但今年的重点是根据特定要求构建的定制设计。

Wiwynn 的构建模块包括 OCP 认证的冷却、电源、组件、互连、NIC 和安全模块。CXL 互连也在设计中，位于中间以促进存储、内存和处理单元之间的通信。

该设计适用于英特尔和 AMD 的各种 x86 服务器芯片，以及 Ampere 的 CPU 等 Arm 服务器芯片。它还支持英特尔的 Habana Gaudi AI 处理器等加速器。

Wiwynn 销售支持执行董事 Steven Hwang 在 OCP 峰会前的新闻发布会上表示，客户对构建块的关注点发生了变化，因为他们有兴趣构建更接近其数据中心要求的服务器。

具体来说，人们对功率转换组件很感兴趣，Hwang 说，并补充说，“许多数据中心正在走向绿色，能源变得非常非常敏感……所以从直流到交流和交流到直流的功率损耗肯定是人们可以立即从中受益的东西。”

在 OCP，谷歌、微软、Nvidia 和 AMD 还合作创建了一个名为 Caliptra 的规范，允许系统制造商在芯片和系统级别嵌入安全层。该规范在 0.5 版中，侧重于在硅中创建信任根。

微软 Azure 首席技术官 Mark Russinovich 在一篇博客文章中表示：“作为可重用的开源、硅级块，用于集成到片上系统（例如 CPU、GPU 和加速器）中，Caliptra 提供了可信赖且易于验证的证明。”

Caliptra 规范包括一系列用于存储和加密数据的块，并确保只有授权方才能访问安全飞地中的数据。它还确保数据的安全性，因此在本地或云中时不会受到 Spectre 和 Meltdown 等基于硬件的黑客攻击。云提供商对 Caliptra 感兴趣，以改进机密计算产品和保护虚拟机。

编辑：黄飞

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

amd

amd

+关注

关注
25

文章
5470

浏览量
134211
服务器

服务器

+关注

关注
12

文章
9184

浏览量
85490
虚拟机

虚拟机

+关注

关注
1

文章
917

浏览量
28223

原文标题：下一代服务器设计蓝图浮现！

文章出处：【微信号：芯长征科技，微信公众号：芯长征科技】欢迎添加关注！文章转载请注明出处。

云端超级计算机使用教程

云端超级计算机是一种基于云计算的高性能计算服务，它将大量计算资源和存储资源集中在

发表于 12-17 10:19 •130次阅读

虚拟内存对计算机性能的影响

在现代计算机系统中，内存管理是确保系统高效运行的关键因素之一。虚拟内存技术作为内存管理的核心组成部分，对于提升计算机性能和用户体验起着至关重要的作用。

发表于 12-04 09:17 •747次阅读

工业中使用哪种计算机？

使其成为工厂、仓库和其他要求苛刻的工业环境的理想选择。通过提供高性能和可靠性，工业计算机可确保高效、连续的运行。工业计算机的类型在工业环境中，人们使用各种专用计算机来满

发表于 11-29 14:07 •152次阅读

ROM对计算机性能的影响

只读存储器（ROM）是计算机硬件中的一个重要组成部分，它负责存储计算机启动时必需的固件和基本输入输出系统（BIOS）。ROM的性能和质量对计算机

发表于 11-04 10:31 •350次阅读

云端超级计算机怎么用

云端超级计算机是一种基于云计算的高性能计算服务，它将大量计算资源和存储资源集中在

发表于 10-18 10:14 •161次阅读

M.2 连接器，满足高性能计算机设备的数据传输需求

硬盘是影响计算机性能的重要组件面对迅速更新换代的硬盘市场更小、更快的硬盘接口——M.2 连接器正逐步成为市场主流产品速览 M.2 连接器是一种用于连接高性能固态硬盘的连接器。相

发表于 09-23 09:38 •343次阅读

IaaS+on+DPU(IoD)+下一代高性能算力底座技术白皮书

大规模生产环境落地应用的条件。某种程度上，IoD 技术已成为下一代高性能算力底座的核心技术与最佳实践。白皮书下载：*附件：IaaS+on+DPU(IoD)+下一代高性能算力底座+技

发表于 07-24 15:32

24芯M16插头在下一代技术中的潜力

　　德索工程师说道随着科技的飞速发展，下一代技术正逐渐展现出其独特的魅力和潜力。在这一背景下，24芯M16插头作为一种高性能、多功能的连接器，将在下

发表于 06-15 18:03 •339次阅读

工业计算机与普通计算机的区别

在信息化和自动化日益发展的今天，计算机已经成为了我们日常生活和工作中不可或缺的工具。然而，在计算机领域中，工业计算机和普通计算机虽然都具备基本的计算

发表于 06-06 16:45 •1419次阅读

微软发布AI专用计算机，引领计算新纪元

微软近日宣布，其全新的人工智能专用计算机正式问世，这款计算机在性能上实现了重大突破，相较于MACBOOK AIR M3，速度提升了惊人的58%。这一

发表于 05-22 09:27 •462次阅读

微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机

微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机这一消息属实。

发表于 04-11 10:14 •563次阅读

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

欣喜收到《量子计算机——重构未来》一书，感谢电子发烧友论坛提供了一个让我了解量子计算机的机会！自己对电子计算机有点了解，但对量子

发表于 03-05 17:37

【昉·星光 2 高性能RISC-V单板计算机体验】VisionFive2开箱+安装Ubuntu

【昉·星光 2 高性能RISC-V单板计算机体验】VisionFive2开箱+安装Ubuntu 前言很感谢赛昉科技及iCeasy提供的样片，让我第一次接触高性能的RISC-V的开发板

发表于 02-21 17:49

什么是HPC高性能计算

高性能计算（HighPerformanceComputing，简称HPC），是指利用集群、网格、超算等计算机技术，通过合理地组织计算机资源以及运用适合的算法和程序，提高

发表于 02-19 13:27 •868次阅读

中国第三代自主超导量子计算机“本源悟空”上线运行

1月6日上午9时，中国第三代自主超导量子计算机“本源悟空”，在本源量子计算科技（合肥）股份有限公司（简称本源量子）正式上线运行。图为中国第三代自主超导量子

发表于 01-07 08:21 •877次阅读