0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当下的HPC存储遇上了哪些挑战

lPCU_elecfans 来源:电子发烧友网 作者:电子发烧友网 2022-03-01 09:16 次阅读

电子发烧友网报道(文/周凯扬)近两年以来存储市场可谓好不热闹,SSD带来的急速已经体现在了下至消费电子,上至超算的性能上,然而随着高性能计算走上了全新的道路,大吞吐量和大容量也已经不再是HPC存储关注的唯二设计目标了。

那么当下的HPC存储遇上了哪些挑战呢?首先数据生成已经在被数据接入逐渐取代,大数据环境下,IOPS要求的反而是小数据的随机存取。其次,“寻找”到真正所需的数据成了最关键的一环,也对元数据在统计、读取、写入和删除上提出了更高的要求。加之近年来涌现的不同文件与数据形式,处理起来需要额外的注意,高性能存储必须具备大型数据转移的能力。

新的高性能计算场景

就以目前一些在建的智能城市项目为例,诸多传感器和执行器散落在城市中,激光雷达、摄像头、微流控传感器和电机,它们将产生PB级别的原始数据,这些数据在需要经过压缩、预处理、上传、深度学习和推理,存储可以说与边缘计算和机器学习紧密联系在一起。

另一个例子就是我们的自动驾驶,如今的自动驾驶方案都是通过数据与高性能计算实现的,像特斯拉这样的厂商甚至自研自建芯片和超算,用于其自动驾驶技术的开发。自动驾驶测试车队每天都要将PB级的遥测传感数据传输给数据平台,随后经过标签、分类、错误检测仿真,再放到大型存储系统中,而这样的大型存储平台不仅大小可能扩展至EB级,还要承受着仿真、再处理与机器学习的繁重负载。

在这些新场景给出的挑战下,兴起了一波新的技术,比如PCIe 4.0朝PCIe 5.0转变,光模块从200G朝400G的转变,使用GPU直接存储等专用协议等等。这些技术多数是对HPC存储在吞吐量上的提升,而更重要的是对特定工作流效率的优化。

HPC系统中存储的组成

在当下的HPC场景中,无论是本地部署还是云端环境,都需要一个计算平台,可能是CPU或是CPU+GPU/加速器的配置,这一节点可以充分利用3D Xpoint这样的持久内存,不仅可以提供低延迟的内存数据访问,在断电下不丢失数据,还可以用上DAOS这样分布式异步对象存储的文件系统。

接着是存储平台,也就是并行文件系统的所在,这个系统可能是基于Lustre、Spectrum或是NVMe-oF的方案。但无论是哪种系统,考虑到需要低成本大容量,通常都会用到NVMe硬盘和HDD硬盘的混合方案,但这就提出了数据分布以及数据移动上的挑战。不过现在已经有了PCC/LROC这样的客户端持久性高速缓存,在存储或数据敏感的环境中,只需完成计算平台和存储平台相关的数据移动,进一步降低了I/O开销。

最后是数据的管理,这一部分属于对大量数据更加长期的存储,比如像波音这样的航空公司,需要对每一架飞机的细致数据存储50年以上,还要具备数据追溯的能力。这样的存储并不需要拥有高速的性能,但在前端的程序需要时提供即时的交互,而且为了节能考虑,要做到所谓的“零功耗存储”。

超算是怎么做的?

随着不少超算都已经在布局百亿亿级的系统,作为HPC中最顶端的应用,我们自然可以从中窥得一二,看一看当下主流的HPC存储方案。以计划于今年打造完成的Frontier超算为例,该超算将成为美国第一台百亿亿级别的超算,算力约为1.5 exaFLOPS。

Frontier采取了AMD的全套方案,结合AMD的EPyc CPU和Radeon Instinct GPU,在AMD的缓存一致性互联方案下,CPU上的代码可以直接访问GPU内存,这也就是我们在上文提到的GPU直接存储技术。在存储系统上,Frontier用到了679PB基于Lustre+ZFS的文件系统方案,用47700块硬盘实现,最高速率可达5TB/s。高速存储上,共有5400块NVMe固态硬盘组成11PB的存储空间,提供10TB/s的读取速度。

而Aurora同样作为今年推出的百亿亿级超算系统,则选择了英特尔的方案,单个计算节点由两个Xeon Sapphire Rapids、6个Xe Ponte Vecchio GPU和一个通用内存架构组成。其主要存储方案也选择了英特尔的DAOS文件系统,结合NVMe和傲腾持久内存,组成一套大于230PB的系统,并实现25TB/s的速度。

小结

在HPC存储上的挑战除了以上提到的这些外,还有近来兴起的存内计算激发的计算能力挑战,未来5年内,无论是存储结构、文件系统乃至存储材料都会再度迎来新的变化。这些变化会先一步解决HPC上的难题,再潜移默化地改善日常应用。

原文标题:速度和容量受制?No!高性能存储的瓶颈不止于此

文章出处:【微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    3945

    浏览量

    84953
  • SSD
    SSD
    +关注

    关注

    20

    文章

    2734

    浏览量

    116012
  • HPC
    HPC
    +关注

    关注

    0

    文章

    291

    浏览量

    23461

原文标题:速度和容量受制?No!高性能存储的瓶颈不止于此

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI是把双刃剑,HPC面临的全新机遇与挑战

    电子发烧友网报道(文/周凯扬)高性能计算也就是HPC(High Performance Computing),是一种利用超级计算机或高性能计算机集群的能力实现并行计算,以处理标准工作站无法完成的数据
    的头像 发表于 05-11 00:11 2669次阅读
    AI是把双刃剑,<b class='flag-5'>HPC</b>面临的全新机遇与<b class='flag-5'>挑战</b>

    看一下通过采用HPC方法来解决汽车行业工程挑战的两个具体实例

    大家可能都知道,将Ansys解决方案与高性能计算(HPC)相结合,可带来巨大的投资回报(ROI)。接下来,让我们来看一下通过采用HPC方法来解决汽车行业工程挑战的两个具体实例。
    的头像 发表于 03-12 14:29 244次阅读

    什么是HPC高性能计算

    高性能计算(HighPerformanceComputing,简称HPC),是指利用集群、网格、超算等计算机技术,通过合理地组织计算机资源以及运用适合的算法和程序,提高计算效率和处理能力,实现对大量
    的头像 发表于 02-19 13:27 427次阅读
    什么是<b class='flag-5'>HPC</b>高性能计算

    SOVD协议在HPC中的应用详解

    整车电子电器架构正在从分布式总线架构逐渐向以High Performance Computer(以下简称HPC)为中心的集中式架构转变
    的头像 发表于 12-29 16:34 4349次阅读
    SOVD协议在<b class='flag-5'>HPC</b>中的应用详解

    加速SDV诊断开发用例的HPC实施方案解析

    向软件定义车辆的快速转变;车载/离线诊断工具和用于HPC实现的加速器; 现有的挑战和需求正在推动E/E体系结构的演进。连接的、软件定义的车辆的需求
    的头像 发表于 11-21 11:27 290次阅读
    加速SDV诊断开发用例的<b class='flag-5'>HPC</b>实施方案解析

    研扬最新COM-HPC模块让您获得源源不断的强劲性能

    HPC-RPSC的COM-HPC模块拥有比以往任何产品更多的接口、存储和处理能力,旨在为最苛刻的应用提供最高性能。HPC-RPSC支持第12代和第13代IntelCore处理器,兼容超
    的头像 发表于 11-18 08:05 308次阅读
    研扬最新COM-<b class='flag-5'>HPC</b>模块让您获得源源不断的强劲性能

    HPC工作负载应用中如何实现硅光子学

    在当今的数字数据密集型环境中,随着组织面临大量工作负载和复杂的数据处理挑战,对高性能计算 (HPC) 的需求持续激增。高效、高带宽、低延迟计算的新方法对于处理这些需求至关重要,因为传统技术在数
    的头像 发表于 10-27 15:39 286次阅读

    HPC与AI:完美融合

    HPC早于AI问世,因此这两个领域在软件和基础设施方面存在显著差异。要将它们有机地融合在一起,需要对工作负载管理和工具进行必要的调整。以下是HPC如何逐步发展以迎合AI挑战的一些方法。
    的头像 发表于 10-22 14:59 1080次阅读

    康佳特喜迎PICMG对COM-HPC 1.2规范的批准, 重磅推出COM-HPC Mini

    迷你尺寸,最高性能 2023/ 10 / 12 中国上海* * * 嵌入式和边缘计算技术的领先供应商,德国康佳特喜迎PICMG对COM-HPC 1.2规范的批准,该规范引入了COM-HPC Mini
    发表于 10-12 11:44 336次阅读
    康佳特喜迎PICMG对COM-<b class='flag-5'>HPC</b> 1.2规范的批准, 重磅推出COM-<b class='flag-5'>HPC</b> Mini

    中国HPC的高潜力与AI融合的未来

    云端HPC部署方面,根据数据显示,2020-2022年,用户上公有云的速度和应用速度加快,促使HPC云上支出增速大大高于HPC线下本地部署规模,2022年全球HPC云上支出市场规模达到
    的头像 发表于 09-10 10:53 910次阅读
    中国<b class='flag-5'>HPC</b>的高潜力与AI融合的未来

    以算筑基 以智赋能 丨 坤前闪耀CCF HPC China 2023!

    伴随八月翻涌的海浪,世界级超算盛会——第19届CCF全国高性能计算学术年会(简称“CCF HPC China 2023”)在青岛红岛国际会展中心圆满落幕。全球HPC领域院士专家、顶级学界精英、先锋
    的头像 发表于 09-08 17:42 278次阅读

    移植和优化用于Arm文档的HPC应用程序

    介绍如何将高性能计算(HPC)应用程序移植到基于ARM的硬件上,如何在移植后开始优化应用程序,以及ARM提供了哪些工具来帮助
    发表于 08-25 07:58

    为ARM 3.0版移植和优化HPC应用程序文档

    描述如何将高性能计算(HPC)应用程序移植到基于Arm的硬件,如何在移植后开始优化应用程序,以及Arm提供了哪些工具可以提供帮助
    发表于 08-10 06:37

    IP_数据表(Z-1):GPIO for TSMC 28nm HPM/HPC/HPC+

    IP_数据表(Z-1):GPIO for TSMC 28nm HPM/HPC/HPC+
    发表于 07-06 20:19 1次下载
    IP_数据表(Z-1):GPIO for TSMC 28nm HPM/<b class='flag-5'>HPC</b>/<b class='flag-5'>HPC</b>+

    分布式存储架构面临的挑战

      从云和互联网的业务场景来看,其存储域主要采用基于服务器部署分布式存储服务的融合方式,它面临如下挑战 : 1.数据保存周期与服务器更新周期不匹配。大数据、人工智能等新兴业务催生出海量数据,大量数据
    的头像 发表于 07-05 10:44 1125次阅读
    分布式<b class='flag-5'>存储</b>架构面临的<b class='flag-5'>挑战</b>