0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CXL对数据中心的意义

sakobpqhz6 来源:IC学习 作者:IC学习 2022-12-05 15:43 次阅读

CXL(Compute Express Link)将成为一种变革性技术,将重新定义数据中心的架构和构建方式。这是因为 CXL 为跨芯片的缓存一致性、内存扩展和内存池提供了标准化协议。在本文中,我们将重点介绍微软正在做的事情,以帮助大家了解CXL对数据中心的意义。

数据中心是一件非常昂贵的事情。微软表示,他们高达50% 的服务器成本仅来自 DRAM。所需的资本支出是巨大的,但您构建的服务器并不是同质的。工作负载不是静态的。它们在不断地成长和进化。计算资源、DRAM、NAND 和网络类型的组合将根据工作负载而变化。

一刀切的模式是行不通的,这就是为什么您会看到云提供商拥有数十种甚至数百种不同的实例类型。这些正在尝试针对不同的工作负载优化硬件产品。即便如此,许多用户最终还是为他们真正不需要的东西付费。

实例选择并不完美,这些实例与硬件的匹配也不完美。随之而来的是平台级内存搁浅问题。服务器配置为不合适的实例类型场景。

3e4df38a-73ac-11ed-8abf-dac502259ad0.png

这个问题的解决方案是内存池。多个服务器可以共享一部分内存,并且可以动态地将其分配给不同的服务器。与其过度地配置服务器,不如将它们配置为更接近平均 DRAM 与内核的比率,并且可以通过内存池来解决客户的过多 DRAM 需求。此内存池将通过 CXL 协议进行通信。未来,随着对 CXL 协议的修订,服务器甚至可以共享相同的内存来处理相同的工作负载,这将进一步减少 DRAM 需求。

拥有大规模应用程序的复杂运营商可以通过向其开发人员提供具有不同带宽和延迟的多层内存来解决这个问题。这对于亚马逊、谷歌、微软和其他公司运营的公共云环境来说是站不住脚的。

Microsoft 概述了与公共云环境中的内存池有关的 3 个主要功能挑战。无法修改客户工作负载,包括guest操作系统。内存池系统还必须与虚拟化加速技术兼容,例如直接将 I/O 设备分配给 VM 和 SR-IOV。池化还必须可用于商用硬件。

在过去他们也试过内存池,但它需要自定义硬件设计、更改 VM guest并依赖页面错误。这种组合使其无法部署在云中。这就是 CXL 的用武之地。英特尔AMD 和多个 Arm 合作伙伴已经加入了该标准。带有 CXL 的 CPU 将于今年晚些时候开始问世。此外,三星、美光和 SKHynix 三大 DRAM 制造商也都承诺支持该标准。

即使有硬件供应商的广泛支持,仍有很多问题需要回答。在硬件方面:应该如何构建内存池以及如何平衡池大小与较大池的较高延迟?在软件方面:如何管理这些池并将池暴露给guest操作系统,云工作负载可以容忍多少额外的内存延迟?

在分布层:提供者应如何在具有 CXL 内存的机器上调度 VM,内存中的哪些项目应存储在池中与直接连接的内存中,它们能否预测内存行为和延迟敏感性有助于产生更好的性能,如果是,准确度如何这些是预测吗?

微软提出了这些问题,并试图回答这些问题。我们将在这里概述他们的发现。他们的第一代的解决方案架构取得了令人印象深刻的成果。

随着未来 CXL 版本的推出和延迟降低,这些收益可能会进一步扩大。

首先是硬件层。Microsoft 使用直接连接到 8 到 32 个插槽 CPU 的多端口外部存储器对此进行了测试。内存扩展是通过连接 CXL 的外部内存控制器 (EMC) 完成的,该控制器具有四个 80 位 ECC DDR5 池 DRAM 通道和多个 CXL 链路,以允许多个 CPU 插槽访问内存。此 EMC 管理请求并跟踪分配给各个主机的各个内存区域的所有权。

3e7248fc-73ac-11ed-8abf-dac502259ad0.png

CXL x8 通道的带宽约为 DDR5 内存通道的带宽。每个 CPU 都有自己更快的本地内存,但它也可以访问具有更高延迟的 CXL 池化内存,相当于单个 NUMA 跃点。跨 CXL 控制器和 PHY、可选重定时器、传播延迟和外部存储器控制器的延迟增加了 67ns 到 87ns。

下图显示了当前本地 DRAM 的固定百分比(10%、30% 和 50%)切换到池化资源。池化内存与本地内存的百分比越大,节省的 DRAM 就越多。就 DRAM 节省而言,增加Socket数量会很快消失。

3e99762a-73ac-11ed-8abf-dac502259ad0.png

虽然更大的池大小和更多的socket看起来是最好的选择,但这里有更多的性能和延迟影响。如果池大小降为 4 到 8 个 CPU 插槽,则不需要重定时器。这将延迟从 87ns 降低到 67ns。此外,在这些较小的插槽数中,EMC 可以直接连接到所有 CPU 插槽。

更大的 32 个插槽池将 EMC 连接到不同的 CPU 子集。这将允许在更多数量的 CPU 插槽之间共享,同时保持 CPU 端口的 EMC 设备数量固定。这里需要重定时器,这导致每个方向的延迟为 10ns。

3ecb2012-73ac-11ed-8abf-dac502259ad0.png

在软件方面,解决方案相当巧妙。

Microsoft 经常部署多插槽系统。在大多数情况下,VM 足够小,它们完全适合单个 NUMA 节点、内核和内存。Azure 的管理程序尝试将所有核心和内存放在单个 NUMA 节点上,但在极少数情况下(2% 的时间),VM 有一部分资源跨越socket。这不会暴露给用户。

内存池在功能上的工作方式相同。内存设备将作为零核虚拟 zNUMA 节点公开,没有内核,只有内存。内存偏离这个 zNUMA 内存节点,但允许溢出。粒度(granularity)是每片内存 1GB 。

分布式系统软件层依赖于对 VM 的内存延迟敏感度的预测。未触及的存储被称为“frigid memory”。Azure 估计第 50 个百分位的 VM 具有 50% 的冷(frigid)内存。这个数字似乎很圆。预计对内存延迟不敏感的 VM 完全支持池 DRAM。为内存敏感的 VM 配置了一个 zNUMA 节点,仅用于它们的冷内存。预测是在虚拟机部署时完成的,但它是异步管理的,并在检测到预测不正确时更改虚拟机放置。

这些算法的准确性对于节省基础设施成本至关重要。如果操作不当,性能影响可能会很大。

3f01ce6e-73ac-11ed-8abf-dac502259ad0.png

考虑到潜在的性能影响可能是巨大的,将云居民(cloud resident)的内存移动到 67ns 到 87ns 的池中是非常糟糕的。

因此,Microsoft 在两种情况下对 158 个工作负载进行了基准测试。一种是只有本地 DRAM 的控制。另一个是模拟 CXL 内存。应该强调的是,尽管英特尔早前声称其支持 Sapphire Rapids CXL 的平台将于 2021 年底推出。或者声称 Sapphire Rapids 将于 2022 年初推出。因此,微软必须模拟延迟影响。Microsoft 使用了 2 路 24C Skylake SP 系统。

3f4d6dd8-73ac-11ed-8abf-dac502259ad0.png

当带宽超过 80GB/s 时,内存访问延迟为 78ns。当一个 CPU 跨 NUMA 边界访问另一个 CPU 的内存时,会导致额外的 64ns 内存延迟。这非常接近外部存储设备 (EMC) 在低插槽数系统中的 67ns 额外延迟。

20% 的工作负载没有性能影响。另有 23% 的工作负载出现了不到 5% 的减速。25% 的工作负载严重减速,性能下降超过 20%,其中 12% 的工作负载甚至出现超过 30% 的性能下降。根据工作负载的本地与池内存量,该数字会发生相当大的变化。

3f8cdcfc-73ac-11ed-8abf-dac502259ad0.png

这进一步强调了预测模型的重要性。Microsoft 的基于随机森林(random forest) ML 的预测模型更准确,并且产生的误报减速更少。随着更多的内存被池化,越多变得越重要。

随着 CXL 规范的改进、延迟的降低和预测模型的改进,内存池节省的可能性可能会增长到云服务器成本的两位数百分比

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    452

    文章

    50134

    浏览量

    420438
  • NAND
    +关注

    关注

    16

    文章

    1663

    浏览量

    135919
  • 数据中心
    +关注

    关注

    16

    文章

    4616

    浏览量

    71872

原文标题:为什么看好CXL?一文看懂!

文章出处:【微信号:IC学习,微信公众号:IC学习】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    怎样保障数据中心不间断电源不断电 提供可靠安全的供配电#数据中心

    数据中心配电系统
    安科瑞王金晶
    发布于 :2024年08月29日 14:51:36

    数据中心能耗较多 如何科学智慧化进行整体解决方案呢

    节能的意义,*点介绍了常用的数据中心节能措施,并以北方某数据中心为例说明常用的数据中心措施的优点。首先对数据中心能耗结构进行分析,然后根据*
    的头像 发表于 07-29 16:58 225次阅读
    <b class='flag-5'>数据中心</b>能耗较多 如何科学智慧化进行整体解决方案呢

    数据中心液冷需求、技术及实际应用

    了,也更热了。有什么办法,给服务器“物理降温”吗?   根据国家对数据中心的节能要求,全国范围内新建数据中心要求PUE(Power Usage Effectiveness,电源利用效率)<1.2,而传统的风冷制冷方式已经无法满足数据中心
    的头像 发表于 06-19 11:12 703次阅读
    <b class='flag-5'>数据中心</b>液冷需求、技术及实际应用

    CXL技术:全面升级数据中心架构

    作为全球最大数据产生国之一,随着数据规模的成倍增长,中国对更高性能数据中心的需求日益迫切。根据IDC Global DataSphere对每年数据产生量的预测,全球
    发表于 04-17 16:32 252次阅读

    数据中心UPS系统运行能耗优化探讨与应用

    摘要:数据中心UPS系统合理的运行方式对数据中心的管理和运行具有十分重要的意义,PUE、pPUE、CLF/PLF、RER是通用的衡量数据中心的能效指标,UPS系统的构建和系统运行方式的
    的头像 发表于 04-11 15:36 416次阅读
    <b class='flag-5'>数据中心</b>UPS系统运行能耗优化探讨与应用

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    #mpo光纤跳线 #数据中心光纤跳线

    光纤数据中心
    jf_51241005
    发布于 :2024年03月22日 10:18:31

    #光纤弯曲 #光纤衰减 #数据中心光纤

    光纤数据中心
    jf_51241005
    发布于 :2024年03月08日 09:59:50

    #MPO预端接 #数据中心机房 #机房布线

    数据中心MPO
    jf_51241005
    发布于 :2024年03月01日 11:12:47

    #永久链路 #信道测试 #数据中心

    数据中心
    jf_51241005
    发布于 :2024年02月23日 10:17:58

    #紧套光缆 #松套光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月26日 09:44:11

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    数据中心 3D 机房数字孪生 #数据中心

    3D数据中心
    阿梨是苹果
    发布于 :2023年12月28日 10:02:33

    #预端接光缆 #24芯光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2023年12月08日 11:01:21

    大模型时代,数据中心将转向何方?

    数据中心大模型
    脑极体
    发布于 :2023年11月22日 09:01:41