电子发烧友网报道(文/周凯扬)当下服务器市场在内存上面临的一大挑战就是成本,截至今日,我们在选择云服务容器时,内存依然占了很大一部分,往往内存用量扩大一倍后,价格也随之上涨了一倍。这其实与内存本身的扩展性有关,目前服务器上更大的存储已经成为常态,但要想实现更大的内存始终存在瓶颈。因此,从2013年开始,每bit内存的价格基本趋于平缓了。
但服务器CPU的核心数增加的速度可没有因此减缓下来,加上AI等新型工作负载的引入,更大的内存容量、更大的内存带宽,都成了当下服务器内存面临的痛点。为此,业界开始考虑从系统层级上来解决这些问题,比如为CPU增加DDR通道,好让其支持更大的带宽和容量。
但这就又引入了一系列新问题,为了满足新增的DDR通道,需要更多的引脚,也提高了成本降低了可靠性,PCB的层数也开始增加。这也造就了整个服务器主板的尺寸变得异常大,甚至难以放进1U标准尺寸的机柜里。
CXL的灵活性和延迟
这时对于内存媒介无限制的CXL,就提供了一个灵活的内存接口,让设计者可以从持久性、延迟、带宽等各个参数特性上灵活选择,让服务器CPU不止可以使用常用的DDR内存,也能支持LPDDR5和持久内存等等。我们此前已经多次介绍过CXL了,这次就来讲下作为内存扩展,CXL有哪些优势。
比如一个80核的CPU,应用要求每个核心配置2GB的DDR5内存,也就是需要160GB的DDR5内存。如果采用16GB DIMM x8的配置明显满足不了,32GB x 8多出了96GB内存,徒增了近乎500美元的成本,使用32GB x 5这样不跑满通道的配置虽然容量对了,但是会降低带宽和性能。
而这时我们反观CXL,CXL可以在配置了原生DDR通道配置了8个16GB DIMM的情况下,再加入32GB的CXL内存,如此一来不仅满足了内存容量的需求,还增加了额外的带宽,况且我们已经提到了CXL并没有内存媒介的限制,所以可以用上LPDDR5之类的CXL扩展内存进一步降低成本。
![pYYBAGMEpKCAfyAMAALWhOBgIJg398.png](https://file.elecfans.com/web2/M00/64/7B/pYYBAGMEpKCAfyAMAALWhOBgIJg398.png)
各种缓存、内存和存储的延迟对比 / CXL联盟
作为一个分布式内存,尽管CXL主打的是低延迟,但要说与CPU的内存、缓存和寄存器比起来,延迟还是有一定差距的。今年的Hot Chips上,CXL联盟就给出了CXL在延迟上的具体数字。独立于CPU外的CXL内存延迟在170-250ns左右,高过独立于CPU的NVM、网络连接的解构内存、SSD和HDD等。
虽然在我们看来这个数字已经很小了,但相较原生的主要内存,还是把延迟扩大了两倍。来自Meta和AMD的两位专家提出了一个概念,也就是对内存进行分层,分为用于实时分析等关键任务的“热”内存、访问不那么频繁的“暖”内存和用于庞大数据的“冷”内存。“热”内存页面放在原生DDR内存里,而“冷”内存页面则交给CXL内存。
然而在当前的软件眼里,它们才分不清楚什么是“热”内存和“冷”内存,原生内存用完后,就开始去占用CXL内存,如此一来原本作为“冷”内存的CXL,也开始变成“热”内存。所以目前最大的挑战就是在操作系统和软件层面,如何检测到“冷”内存页面,将其主动转入CXL内存里,为原生内存留出空间。Meta和AMD的两位专家表示,他们已经在开发相应的软硬件技术。
CXL或许不会成为HPC和AI应用的宠儿
固然CXL对于云服务厂商和诸多数据中心拥有不错的吸引力,然而这种形式的内存可能并不适用于HPC与超算应用。“富岳之父”松冈聪教授表示CXL这种内存解构方案还存在不少技术问题,使其不能在主流的HPC甚至是AI负载中物尽其用。松冈聪教授并没有给出具体的细节,但他给出了一个例子,那就是多年前SGI的NUMALINK系统也是采用了分布式内存解构的方式,但我们也都知道如今市面上的NUMALINK产品基本已经销声匿迹了。
但他并没有彻底否认内存解构这种思路,就连富岳超算本身也用这一技术,从而将MPI进行put/get运算时的远程内存访问延迟降低至亚微秒级。但加入一个单独的UMA内存池,已经在历史中证明了这对HPC来说收效甚微。
首先,这需要更高硬件交换机成本,再者,在超算这种大型配置规模的系统上,缺乏对应的编程标准。因此,对于目前的HPC大型系统来说,CXL内存或许会先出现在一小部分节点上,比如一些需要近存或存内计算AI负载,而不会普及到整个系统。
写在最后
其实对于CXL的担心也没必要那么多,对于服务器市场来说,低核心数的CPU依然会继续使用原生DDR通道来配置DIMM内存。到了高核心数CPU上,再根据系统成本、容量、功耗和带宽等参数来灵活应用CXL内存,而这才是CXL带来的最大优势,灵活性。况且目前CXL内存还没有大规模量产出来,自然也没有普及开来,大家对其实际性能表现还没有个大致了解,也许引入CXL的延迟后,对性能的损失不会那么糟糕。
但服务器CPU的核心数增加的速度可没有因此减缓下来,加上AI等新型工作负载的引入,更大的内存容量、更大的内存带宽,都成了当下服务器内存面临的痛点。为此,业界开始考虑从系统层级上来解决这些问题,比如为CPU增加DDR通道,好让其支持更大的带宽和容量。
但这就又引入了一系列新问题,为了满足新增的DDR通道,需要更多的引脚,也提高了成本降低了可靠性,PCB的层数也开始增加。这也造就了整个服务器主板的尺寸变得异常大,甚至难以放进1U标准尺寸的机柜里。
CXL的灵活性和延迟
这时对于内存媒介无限制的CXL,就提供了一个灵活的内存接口,让设计者可以从持久性、延迟、带宽等各个参数特性上灵活选择,让服务器CPU不止可以使用常用的DDR内存,也能支持LPDDR5和持久内存等等。我们此前已经多次介绍过CXL了,这次就来讲下作为内存扩展,CXL有哪些优势。
比如一个80核的CPU,应用要求每个核心配置2GB的DDR5内存,也就是需要160GB的DDR5内存。如果采用16GB DIMM x8的配置明显满足不了,32GB x 8多出了96GB内存,徒增了近乎500美元的成本,使用32GB x 5这样不跑满通道的配置虽然容量对了,但是会降低带宽和性能。
而这时我们反观CXL,CXL可以在配置了原生DDR通道配置了8个16GB DIMM的情况下,再加入32GB的CXL内存,如此一来不仅满足了内存容量的需求,还增加了额外的带宽,况且我们已经提到了CXL并没有内存媒介的限制,所以可以用上LPDDR5之类的CXL扩展内存进一步降低成本。
![pYYBAGMEpKCAfyAMAALWhOBgIJg398.png](https://file.elecfans.com/web2/M00/64/7B/pYYBAGMEpKCAfyAMAALWhOBgIJg398.png)
各种缓存、内存和存储的延迟对比 / CXL联盟
作为一个分布式内存,尽管CXL主打的是低延迟,但要说与CPU的内存、缓存和寄存器比起来,延迟还是有一定差距的。今年的Hot Chips上,CXL联盟就给出了CXL在延迟上的具体数字。独立于CPU外的CXL内存延迟在170-250ns左右,高过独立于CPU的NVM、网络连接的解构内存、SSD和HDD等。
虽然在我们看来这个数字已经很小了,但相较原生的主要内存,还是把延迟扩大了两倍。来自Meta和AMD的两位专家提出了一个概念,也就是对内存进行分层,分为用于实时分析等关键任务的“热”内存、访问不那么频繁的“暖”内存和用于庞大数据的“冷”内存。“热”内存页面放在原生DDR内存里,而“冷”内存页面则交给CXL内存。
然而在当前的软件眼里,它们才分不清楚什么是“热”内存和“冷”内存,原生内存用完后,就开始去占用CXL内存,如此一来原本作为“冷”内存的CXL,也开始变成“热”内存。所以目前最大的挑战就是在操作系统和软件层面,如何检测到“冷”内存页面,将其主动转入CXL内存里,为原生内存留出空间。Meta和AMD的两位专家表示,他们已经在开发相应的软硬件技术。
CXL或许不会成为HPC和AI应用的宠儿
固然CXL对于云服务厂商和诸多数据中心拥有不错的吸引力,然而这种形式的内存可能并不适用于HPC与超算应用。“富岳之父”松冈聪教授表示CXL这种内存解构方案还存在不少技术问题,使其不能在主流的HPC甚至是AI负载中物尽其用。松冈聪教授并没有给出具体的细节,但他给出了一个例子,那就是多年前SGI的NUMALINK系统也是采用了分布式内存解构的方式,但我们也都知道如今市面上的NUMALINK产品基本已经销声匿迹了。
但他并没有彻底否认内存解构这种思路,就连富岳超算本身也用这一技术,从而将MPI进行put/get运算时的远程内存访问延迟降低至亚微秒级。但加入一个单独的UMA内存池,已经在历史中证明了这对HPC来说收效甚微。
首先,这需要更高硬件交换机成本,再者,在超算这种大型配置规模的系统上,缺乏对应的编程标准。因此,对于目前的HPC大型系统来说,CXL内存或许会先出现在一小部分节点上,比如一些需要近存或存内计算AI负载,而不会普及到整个系统。
写在最后
其实对于CXL的担心也没必要那么多,对于服务器市场来说,低核心数的CPU依然会继续使用原生DDR通道来配置DIMM内存。到了高核心数CPU上,再根据系统成本、容量、功耗和带宽等参数来灵活应用CXL内存,而这才是CXL带来的最大优势,灵活性。况且目前CXL内存还没有大规模量产出来,自然也没有普及开来,大家对其实际性能表现还没有个大致了解,也许引入CXL的延迟后,对性能的损失不会那么糟糕。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
服务器
+关注
关注
12文章
9342浏览量
86206 -
2cxl
+关注
关注
0文章
5浏览量
6417
发布评论请先 登录
相关推荐
内存扩展CXL加速发展,繁荣AI存储
电子发烧友网报道(文/黄晶晶)CXL即Compute Express Link,是一种全新的互连协议,为各种处理器包括CPU、GPU、FPGA、加速器和存储设备提供统一接口标准,可以有效解决内
![<b class='flag-5'>内存</b>扩展<b class='flag-5'>CXL</b>加速发展,繁荣AI存储](https://file1.elecfans.com/web2/M00/03/06/wKgZoma_IHiAaHO3AAS8xx3aMnM285.png)
SMART Modular CXL AIC内存扩充卡获CXL联盟认证
近日,全球领先的整合型内存与储存解决方案提供商SMART Modular世迈科技(隶属于Penguin Solutions™集团)宣布,其4-DIMM和8-DIMM CXL®(Compute
SMART Modular世迈科技CXL内存扩充卡获CXL联盟认证
SMART Modular世迈科技近日宣布其4-DIMM和8-DIMM CXL®(Compute Express Link®)内存扩充卡已成功通过CXL 2.0认证测试,并正式被列入CXL
澜起科技CXL®内存扩展控制器芯片通过CXL 2.0合规性测试
近日,澜起科技在CXL(Compute Express Link)技术领域取得了又一重要里程碑。其自主研发的CXL®内存扩展控制器(MXC)芯片成功通过了
云服务器 Flexus X 实例,镜像切换与服务器压力测试
云服务器 Flexus X 压力测试 1、购买华为云 Flexus X 实例 Flexus云服务器X实例-华为云 (huaweicloud.com) 2、xshell 远程连接服务器 3、安装
![云<b class='flag-5'>服务器</b> Flexus X 实例,镜像切换与<b class='flag-5'>服务器</b>压力测试](https://file1.elecfans.com//web3/M00/04/A1/wKgZPGd2mNaAFclpAAGrndbG1KI643.png)
Jtti:新加坡服务器的性能如何评估
支持高达16GB的DDR3内存配置,为运行多个应用程序和处理大量工作负载提供充足的内存。同时,服务器配备了500GB SSD,提供快速的读写速度,显著提高了系统性能和应用程序响应速度。 网络性能 :Jtti新加坡
拓展AI数据中心内存,第二代AMD Versal Premium系列自适应SoC,首发支持CXL 3.1、 PCIe Gen6
电子发烧友网报道(文/黄晶晶)在数据中心市场,DDR5和CXL内存正在成为广泛采用的主流趋势。预计2024年到2029年CXL内存的采用将达到212%的年复合增长率。如今,现有出货的半
![拓展AI数据中心<b class='flag-5'>内存</b>,第二代AMD Versal Premium系列自适应SoC,首发支持<b class='flag-5'>CXL</b> 3.1、 PCIe Gen6](https://file1.elecfans.com/web2/M00/0B/A3/wKgZomc1t1qAJ7fAAAnXfN3i2s8611.png)
独立服务器与云服务器的区别
随着互联网技术的飞速发展,企业对于服务器的需求日益增加,而服务器市场也随之出现了多种类型的产品,其中最常见的是独立服务器和云服务器。这两种服务器
云服务器和虚拟服务器的区别是什么
云服务器和虚拟服务器是两种常见的服务器类型,它们在很多方面有相似之处,但也有一些关键的区别。本文将详细介绍云服务器和虚拟服务器的区别,包括它
SMART Modular 世迈科技推出高性能服务器专用全新CXL® 内存扩充卡系列
(CXL®)内存扩充卡(AIC)系列,可支持业界标准 DDR5 内存模块。这也是同类产品中第一款采用CXL®协议的高密度内存模块扩充卡。
揭秘服务器CPU、内存与硬盘的作用
一般服务器后面插的硬盘我们称为本地盘(安装服务器的操作系统、应用软件等)。
前面的硬盘可以用作配超融合的虚拟存储(即:在服务器上配置虚拟机的时候,一般分配前置硬盘的资源)。
![揭秘<b class='flag-5'>服务器</b>CPU、<b class='flag-5'>内存</b>与硬盘的作用](https://file1.elecfans.com/web2/M00/C6/88/wKgaomYA5umAd6veAAAuaWYhD2U437.png)
利用CXL技术重构基于RDMA的内存解耦合
本文提出了一种基于RDMA和CXL的新型低延迟、高可扩展性的内存解耦合系统Rcmp。其显著特点是通过CXL提高了基于RDMA系统的性能,并利用RDMA克服了CXL的距离限制。
发表于 02-29 10:05
•3710次阅读
![利用<b class='flag-5'>CXL</b>技术重构基于RDMA的<b class='flag-5'>内存</b>解耦合](https://file1.elecfans.com/web2/M00/C2/06/wKgZomXf5-2AToOKAAAlpP6w5oc356.png)
linux服务器和windows服务器
Linux服务器和Windows服务器是目前应用最广泛的两种服务器操作系统。两者各有优劣,也适用于不同的应用场景。本文将
对Linux服务器和Windows
发表于 02-22 15:46
评论