0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CXL内存延迟到底有多糟糕?

芯长征科技 来源:半导体行业观察 作者:半导体行业观察 2022-12-07 15:44 次阅读

传统观点认为,如果您非常关心延迟,那么尝试将系统内存连接到 PCI-Express 总线并不是一个好主意。因为内存离 CPU 越远,延迟就越高,这就是内存 DIMM 通常尽可能靠近插槽的原因。

从逻辑上讲,PCI-Express 是千里之外的。随着每一代 PCI-Express 带宽翻倍,如果没有重定时器的帮助也会增加延迟,它可以传输的距离也会缩短。对于我们习惯于连接到 PCI-Express 的大多数类型的内存来说,这不是什么大问题。闪存存储的延迟以几十微秒为单位的情况并不少见,这使得互连产生的额外几百纳秒成为一个有争议的问题。然而,我们对DDR 和其他形式的易失性存储器就没有那么宽容了。

以前的内存扩展尝试都陷入了妥协,特别是在延迟方面。例如,GigaIO 表示其FabreX 架构已经可以使用 DMA 在 PCI-Express 上进行内存池化,但这样做需要应用程序能够容忍 500 纳秒到 1.5 微秒的延迟。

同样,根据 Blocks and Files 的说法,在英特尔今年夏天毫不客气地削减其 Optane 持久内存业务之前,部署该技术意味着会产生大约350 纳秒的延迟。虽然可用,尤其是在分层内存配置中,但它比直接连接 CPU 的 DDR 内存预期的低于 100 纳秒的往返延迟要长得多。

进入 CXL 内存生态系统

这为我们带来了使用 Compute Express Link 协议或 CXL 的第一代内存扩展模块。基于 AMD 的Epyc 9004“Genoa”处理器的系统是首批系统之一,拥有 64 条 CXL 连接通道——不同于其 128 至 160 条整体 PCI-Express 通道——最多可分为四到十六个设备。至于英特尔将如何在其“Sapphire Rapids”Xeon SP 处理器上实施 CXL,我们将不得不等到它们明年初问世。

与这些服务器相得益彰的是我们确信的第一个是许多 CXL 内存扩展模块。虽然 CXL 最终将允许完全分解的系统,在这些系统中,资源可以通过高速结构在整个机架上共享,但距离那一天还有几年的时间。

对于首次涉足数据中心,CXL 直接专注于内存扩展、分层内存和一些早期的内存池应用程序。目前,我们只关注内存扩展,因为在这个早期阶段,它可以说是最简单和最实用的,尤其是在以可用延迟附加内存时。

三星和Astera Labs已经展示了 CXL 内存模块,他们说只需将它们插入兼容的 PCI-Express 5.0 插槽,即可为系统添加数 TB 的内存。从系统的角度来看,它们的外观和行为就像通过内存总线连接到相邻插槽的常规 DDR DRAM 内存。

在最长的时间里,一旦达到 CPU 内存控制器的限制,添加更多内存的唯一方法就是添加更多插槽。如果工作负载可以利用额外的线程,那就更好了,但如果不能,这将成为一种非常昂贵的添加内存的方式。实际上,额外的插槽只是一个内存控制器,上面附有一堆昂贵的、不需要的内核。

内存扩展模块的行为方式大致相同,但它不是使用专有的插槽到插槽互连,如英特尔的 UPI 或 AMD 的 xGMI 链接,而是 CXL。这意味着您可以拥有这些设备的整个生态系统,事实上,我们已经看到一个相当充满活力,有时甚至是令人向往的设备围绕 CXL 展开。

CXL 总裁 Siamak Tavallaei在 SC22上告诉 The Next Platform ,CXL 实际上包含三种协议,但并非所有协议都是延迟的灵丹妙药。“CXL.io 仍然具有您预期的相同类型的延迟(来自 PCI-Express),但其他两个协议——CXL.cache 和 CXL.mem——通过协议采用更快的路径,并且它们减少了延迟。”

CXL 内存延迟到底有多糟糕?

如果 Astera 值得信任,延迟并不像您想象的那么糟糕。该公司的Leo CXL 内存控制器旨在接受高达 5600 MT/秒的标准 DDR5 内存 DIMM。他们声称客户可以预期延迟与访问第二个 CPU 上的内存大致相当,一个 NUMA 跃点。这使得它在 170 纳秒到 250 纳秒附近。事实上,就系统而言,这正是这些内存模块向操作系统显示的方式。

Tavallaei 解释说,大多数 CXL 内存控制器会增加大约 200 纳秒的延迟,额外的重定时器会增加或花费几十纳秒,具体取决于设备与 CPU 的距离。这与其他 CXL 早期采用者所看到的一致。GigaIO 首席执行官 Alan Benjamin 告诉The Next Platform,它所见过的大多数 CXL 内存扩展模块的延迟都接近 250 纳秒,而不是 170 纳秒。

然而,正如 Tavallaei 指出的那样,这仍然是对四插槽或八插槽系统的改进,在这些系统中,应用程序可能仅仅因为需要内存而不得不应对多个 NUMA 跃点。(不过,公平地说,IBM 和英特尔在 CPU 之间添加了更多更快的链接,以减少跳数和每跳延迟。)

话虽如此,许多芯片制造商很快指出,CXL 生态系统现在才刚刚起步。在 CXL 董事会任职的 AMD 的 Kurtis Bowman 告诉The Next Platform,许多早期的 CXL 概念验证和产品都使用尚未针对延迟进行优化的 FPGA 或第一代 ASIC。随着时间的推移,他预计延迟会大大改善。

如果 CXL 供应商能够像他们声称的那样,在展厅演示之外实现与多插槽系统同等的延迟,那么它应该在很大程度上消除利用它们所需的应用程序或操作系统特定定制的需要。好吧,至少就内存扩展而言。正如我们在 Optane 中看到的那样,CXL 内存分层几乎肯定需要某种操作系统或应用程序支持。

随着插槽变得越来越大并且在板上安装更多 DIMM 变得越来越难,这再合适不过了。放置它们的地方更少了。有可容纳 32 个 DIMM 的双插槽系统,但随着芯片制造商增加更多通道以满足更高核心数的带宽需求,这是不可扩展的。

我们已经在某种程度上在 AMD 的 Genoa 芯片上看到了这一点,尽管该芯片将内存通道数量增加到 12 个,但在发布时每个通道仅支持一个 DIMM,将双插槽配置中的 DIMM 数量限制为 24 个。即使您可以为每个通道连接两个 DIMM,我们被告知将 48 个 DIMM 安装到标准机箱中是不切实际的。

当我们希望在更远的距离(例如跨机架)连接内存时,事情会变得更加复杂,因为电或光互连产生的延迟必须计入方程式。但对于机箱内 CXL 内存扩展,延迟似乎并不像许多人担心的那么令人头疼。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5479

    浏览量

    134311
  • 内存
    +关注

    关注

    8

    文章

    3037

    浏览量

    74151
  • 生态系统
    +关注

    关注

    0

    文章

    703

    浏览量

    20746

原文标题:CXL,面临严峻的延迟问题

文章出处:【微信号:芯长征科技,微信公众号:芯长征科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    内存扩展CXL加速发展,繁荣AI存储

    和IO墙的瓶颈。它通过PCI Express的物理层,提供低延迟和高带宽的连接,旨在支持下一代数据中心的高性能计算和内存密集型工作负载。   CXL主要有CXL.io、
    的头像 发表于 08-18 00:02 4925次阅读
    <b class='flag-5'>内存</b>扩展<b class='flag-5'>CXL</b>加速发展,繁荣AI存储

    24位或者说高分辨率的AD到底有什么用呢?

    的AD,如24位的AD,其分辨率达到很低的uV级别,我们如何考究其精度?而且AD的精度受到诸多因素的影响,其中参考源的稳定度和供电电源的稳定度对精度影响很大,参考源最低0.05%的精度,那么24位的分辨率所可以达到的精度却是要大打折扣的,请问在这样的情况下,24位或者说高分辨率的AD到底有什么用呢?
    发表于 01-07 06:49

    差分输入和和单端输入在本质上到底有什么区别?

    和和单端输入在本质 上到底有什么区别? 因为,ADC采集的信号说到底是AINP - AINN,不管单端还是差分,采集的信号都是这两个pad的差值。 2:将单端信号接在ADC的差分输入接口上可以用
    发表于 12-23 07:31

    TFP401APZP到底有没有HSYNC输出?

    请教下TI的大牛,TFP401APZP这颗IC到底有没有HSYNC输出?实测发现HSYNC无输出,是要做什么设置么?!
    发表于 12-20 07:28

    高铁站网约车数智出行到底有智能‌

    在当今这个科技飞速发展的时代,智能出行已成为我们日常生活中不可或缺的一部分,而高铁站网约车数智出行更是将这一理念推向了新的高度。那么,这种数智出行方式到底有智能呢? 首先,从预约叫车开始,高铁站网
    的头像 发表于 11-14 14:48 235次阅读

    RTOS与Linux到底有什么区别

    很多做嵌入式开发的小伙伴都存在这样的疑惑:RTOS与Linux到底有什么区别?
    的头像 发表于 10-29 09:53 507次阅读

    研华科技推出SQRAM CXL 2.0 Type 3内存模块SQR-CX5N

    10月15日最新消息,研华科技(Advantech)于昨日正式揭晓了其最新研发的SQRAM CXL 2.0 Type 3 内存模块——SQR-CX5N。该模块遵循EDSFF E3.S 2T标准,拥有
    的头像 发表于 10-15 15:28 478次阅读

    CMOS运放的输入阻抗到底有多高呢?

    都说CMOS运放输入阻抗高,到底有多高呢?可有一个量化指标?
    发表于 09-06 06:59

    影响内存延迟的因素有哪些

    内存延迟是指等待对系统内存中存储数据的访问完成时引起的延期,它是衡量内存响应速度的重要指标。影响内存延迟
    的头像 发表于 09-04 11:46 1683次阅读

    求助,这个电路U1A运放同相端的R1电阻到底有什么作用啊?

    想问下这个电路U1A运放同相端的R1电阻到底有什么作用啊?很郁闷。
    发表于 08-27 07:09

    业界首创512GB CXL AIC内存扩展卡,江波龙革新AI与高性能计算领域内存技术

    人工智能大模型计算、高性能计算(HPC)以及数据中心等行业的迅猛发展,对计算机系统内存性能的需求日益提升,业界对具备高带宽、低延迟性能且超大容量的内存需求也愈发迫切,以支持CPU和GPU进行高速
    发表于 04-17 14:40 474次阅读
    业界首创512GB <b class='flag-5'>CXL</b> AIC<b class='flag-5'>内存</b>扩展卡,江波龙革新AI与高性能计算领域<b class='flag-5'>内存</b>技术

    FORESEE CXL 2.0内存拓展模块

    ,实现大规模量产和交付。随着AI的快速发展,计算密集型工作负载对存储的低延迟、高带宽提出了前所未有的高要求。ComputeExpressLink(CXL)互连技术为
    的头像 发表于 03-28 08:19 732次阅读
    FORESEE <b class='flag-5'>CXL</b> 2.0<b class='flag-5'>内存</b>拓展模块

    利用CXL技术重构基于RDMA的内存解耦合

    本文提出了一种基于RDMA和CXL的新型低延迟、高可扩展性的内存解耦合系统Rcmp。其显著特点是通过CXL提高了基于RDMA系统的性能,并利用RDMA克服了
    发表于 02-29 10:05 3312次阅读
    利用<b class='flag-5'>CXL</b>技术重构基于RDMA的<b class='flag-5'>内存</b>解耦合

    网线到底有多少种连接器

    我们在谈论网线的时候,聊得最多的,一定是它的连接器,它在连接过程中扮演着极为重要的角色。网线到底有多少种连接器?本期我们将从工业级使用出发,来看看这根似乎普通的网线,在连接器上有多么努力。
    的头像 发表于 01-26 10:06 630次阅读

    NUC123的USB外设到底有没有DMA功能?

    下载最新的TRM 1.07: 在最先前的描述以及USB的寄存器章节都有DMA相关的内容。但是DMA那一章节里的框图没有USB外设。同时关于USB外设DMA的用法也没具体说明。所以USB外设到底有没DMA功能,若是该怎么用?
    发表于 01-16 08:26