0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

影响存储系统性能的因素

Micron美光科技 来源:Micron美光科技 2024-11-18 10:35 次阅读

数据是各种现代企业的生命线,而数据存储、访问与管理策略对企业的生产力、盈利能力以及竞争力会产生显著影响。随着人工智能AI)的兴起,各行各业都在经历变革,企业不得不重新思考如何利用数据来加速创新和增长。然而,AI训练和推理对数据管理和存储提出了独特的挑战,因为它们需要处理庞大的数据,同时要求高性能、可扩展性和高可用性。

存储系统的性能各异,受多种因素影响。在这篇博客文章中,我们将探讨影响存储系统在AI领域的表现的几大因素,并重点分析所选用的基础存储介质将如何影响这些性能因素。

AI工作负载的关键属性

AI工作负载具有数据密集和计算密集的双重特性,这意味着它们需要高速、低延迟地处理大量数据。存储在支持AI工作负载高效且有效地访问、摄取、处理和存储数据方面发挥着关键作用。典型AI工作负载对存储要求产生影响的几个关键属性包括:

·数据多样性:AI工作负载需要从多个来源访问数据,数据格式包括结构化、非结构化和半结构化,同时这些数据位于不同的位置(如本地、云端或边缘设备)。存储解决方案需要确保在不同环境和平台之间实现快速且可靠的数据访问和传输。

·数据速度:AI工作负载需要实时或近实时地处理数据。存储解决方案需要确保在数据摄取、处理和分析过程中,实现高吞吐量、低延迟,以及稳定一致的性能。

·数据量:由于AI模型越来越复杂、准确性越来越高,GPU集群计算能力不断增长,其存储解决方案也需要提供灵活且可扩展的容量和性能。

·数据可靠性和可用性:AI工作负载必须确保数据的完整性、安全性以及非常高的可用性,尤其是在与大型GPU集群相连时,这些集群不能容忍数据访问发生中断,因此相应的要求也越高。

影响存储系统性能的因素

存储系统性能并非单一指标,而是多个因素的组合,取决于数据、应用程序和数据中心基础设施的特性和要求。其中包括以下几大重要因素:

·吞吐量:从存储系统到网络或主机,以及从网络或主机到存储系统的数据传输速率。提高吞吐量可以改善系统性能,方法是增加带宽以及减少数据流中的拥塞和瓶颈。吞吐量通常受网络宽带或存储介质速度的影响。

·延迟:存储系统对读写请求的响应时间。低延迟可以改善性能,方法是减少GPU空闲时间以及提高系统对用户输入的响应能力。机械设备(如HDD)的延迟本质上要远高于固态设备(SSD)。

·可扩展性:存储系统对数据量、数据速度和数据多样性的适应能力。高可扩展性是确保存储系统能够随着业务需求和目标实现增长和演进的关键。在增加系统能够存储和管理的数据量方面,面临的严苛挑战是维持性能扩展,同时不触及瓶颈或存储设备的限制。

·复原力:存储系统在遭遇故障、错误或灾难时维护数据完整性和可用性的能力。更高的可靠性可以通过降低数据损坏、丢失以及恢复的频率和影响来提高性能。

其他存储介质

在数据中心应用中,机械硬盘(HDD)和固态硬盘(SSD)是两种主要的持久存储设备。HDD是机械设备,通过旋转的磁盘盘片(表面涂有一层磁性材料)来存储数据,而SSD通过固态闪存芯片来存储数据。几十年来,HDD一直都是主导的存储设备。HDD的每位成本很低,同时具有长期断电耐用性,但是在速度和可靠性方面不及SSD。SSD具有高吞吐量、低延迟、高可靠性,以及更密集的封装选项等特点。

随着技术的不断进步和计算需求的日益增加,HDD的机械性质确实让其在性能上无法与SDD比肩。系统设计可以采用以下几种方法来提升基于HDD的存储系统的有效性能,例如将热数据和冷数据混合存放(让热数据从冷数据中借用性能),在多个HDD磁盘中并行共享数据(提高吞吐量但不降低延迟),在HDD中预留冗余容量(本质上是针对IO进行预置,而不是增加容量),以及为延迟异常的请求或操作添加SSD缓存层。从成本效益的角度来看,这些系统级解决方案的能力只能在有限的范围内扩展。实际应用需要怎样的性能水平,这些解决方案就需要进行相应扩展,才能满足性能要求。对于目前的许多AI 工作负载而言,基于HDD的系统在性能可扩展性和功率效率方面存在不足。

基于SSD的大容量存储系统可以提供一种更为简洁且可扩展性更强的解决方案,并且它们正在迅速发展,在许多以GPU为中心的大型数据中心中,已成为高性能AI数据湖的存储介质。单从驱动器层面来看,SSD(基于每位成本)的成本要高于HDD。而从系统层面整体来看,如果考虑到以下改进,则与HDD相比,使用SSD构建的系统运营成本要低一些:

·更高的吞吐量

·延迟降低100倍以上

·每PB字节所需的服务器和机架数量更少

·可靠性更高,使用寿命更长

·在给定的性能水平下,能源效率更高

未来几年,SSD的容量有望突破120TB。随着容量的增加以及SSD与HDD之间价格差距的缩小,对于需要高于平均性能或在大数据集上需要极低延迟的其他工作负载(比如视频剪辑和医疗成像诊断)来说,这些SSD将是具有吸引力的替代方案。

结论

存储性能是运行AI工作负载的系统的一个重要设计标准。该性能会影响系统性能、可扩展性、数据可用性以及整体系统成本和功率要求。因此,了解不同存储方案的特性与优势,并针对AI需求选择合适的存储解决方案至关重要。选择合适的存储解决方案,助您优化AI工作负载,实现AI目标。

本文作者

Currie Munce

美光存储部门高级技术顾问和战略专家

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30698

    浏览量

    268852
  • 存储系统
    +关注

    关注

    2

    文章

    409

    浏览量

    40849
  • 工作负载
    +关注

    关注

    0

    文章

    9

    浏览量

    1948

原文标题:为什么存储系统的性能对AI工作负载至关重要?

文章出处:【微信号:gh_195c6bf0b140,微信公众号:Micron美光科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    PCIe延迟对系统性能的影响

    随着技术的发展,计算机系统性能的要求越来越高。PCIe作为连接处理器、内存、存储和其他外围设备的关键接口,其性能直接影响到整个系统的表现。
    的头像 发表于 11-26 15:14 319次阅读

    WDS分布式存储系统软件助力电信工程海量数据存储项目

    WDS分布式存储系统软件助力电信工程海量数据存储项目
    的头像 发表于 11-11 09:59 175次阅读
    WDS分布式<b class='flag-5'>存储系统</b>软件助力电信工程海量数据<b class='flag-5'>存储</b>项目

    如何优化emc存储性能

    在当今的数据中心环境中,存储性能对于业务连续性和数据访问速度至关重要。EMC作为领先的存储解决方案提供商,其产品线涵盖了从入门级到企业级的存储系统。然而,即使是最好的
    的头像 发表于 11-01 15:57 269次阅读

    emc企业级存储系统的特点

    在当今这个数据驱动的时代,企业对于数据存储的需求日益增长。EMC,作为全球领先的数据存储解决方案提供商,其企业级存储系统以其卓越的性能、可靠性和创新技术,为企业提供了一个强大的数据管理
    的头像 发表于 11-01 15:24 297次阅读

    计算机存储系统的工作原理和功能

    计算机存储系统作为计算机系统中至关重要的组成部分,其原理和功能对于理解计算机的运行机制具有关键意义。以下将详细阐述计算机存储系统的原理和功能。
    的头像 发表于 09-26 16:42 829次阅读

    计算机存储系统的构成

    计算机存储系统是计算机中用于存放程序和数据的设备或部件的集合,它构成了计算机信息处理的基础。一个完整的计算机存储系统通常包括多个层次的存储器,从高速缓存(Cache)到主存储器(Mai
    的头像 发表于 09-26 15:25 772次阅读

    基于分布式存储系统医疗影像数据存储解决方案

    基于分布式存储系统医疗影像数据存储解决方案
    的头像 发表于 09-14 09:53 302次阅读
    基于分布式<b class='flag-5'>存储系统</b>医疗影像数据<b class='flag-5'>存储</b>解决方案

    基于CSS融合存储系统的自动化制造服务平台存储解决方案

    基于CSS融合存储系统的自动化制造服务平台存储解决方案
    的头像 发表于 09-10 10:15 330次阅读
    基于CSS融合<b class='flag-5'>存储系统</b>的自动化制造服务平台<b class='flag-5'>存储</b>解决方案

    内存、存储系统和CPU的区别

    在计算机系统中,内存、存储系统和CPU是三个至关重要的组件,它们各自承担着不同的职责,共同协作以完成数据处理和运算任务。以下是对这三者之间区别的详细阐述。
    的头像 发表于 07-15 18:11 2342次阅读

    黑龙江电力高性能WDS分布式存储系统解决方案

    黑龙江电力高性能WDS分布式存储系统解决方案
    的头像 发表于 07-01 09:54 363次阅读
    黑龙江电力高<b class='flag-5'>性能</b>WDS分布式<b class='flag-5'>存储系统</b>解决方案

    数据中心存储系统出现故障的处理方法有哪些?数据中心存储系统出现故障怎么办?

    互联网+时代,大数据非常重要,如果保护好如数据存储系统相当关键。如今,随着互联网的快速发展,各种攻击变得越来越严重,数据存储系统也变得越来越不安全了,普遍来说,存储系统是由主机、交换机及存储
    的头像 发表于 06-19 11:30 781次阅读

    IOPS:存储芯片的“心跳”性能

    IOPS,即每秒输入/输出操作数(Input/Output Operations Per Second),是一个用于计算机存储设备(如硬盘,SD Nand 、eMMC等)性能测试的量测方式,是评估存储系统性能的一个关键指标。
    的头像 发表于 05-27 09:25 2234次阅读
    IOPS:<b class='flag-5'>存储</b>芯片的“心跳”<b class='flag-5'>性能</b>

    兆芯携手智云创新推出高性能NVMe企业级存储系统

    面向持续增长的数字化转型与应用创新发展需求,兆芯携手智云创新,基于兆芯高性能自主处理器平台成功推出多款信创存储产品,包括高性能NVMe企业级存储系统、HS6000系列企业级
    的头像 发表于 04-12 14:06 544次阅读

    什么是智能存储系统?对比传统存储柜,智能存储柜有哪些优点?

    智能存储系统(IntelligentStorageSystem)是一种先进的数据存储解决方案,它结合了硬件、软件和自动化管理功能,以实现对数据存储的高度优化、高效能、高可用性和可扩展性。是针对现代
    的头像 发表于 03-05 13:53 489次阅读
    什么是智能<b class='flag-5'>存储系统</b>?对比传统<b class='flag-5'>存储</b>柜,智能<b class='flag-5'>存储</b>柜有哪些优点?

    得瑞领新参编团体标准《高性能计算 分布式存储系统技术要求》正式发布

    得瑞领新参编的《高性能计算 分布式存储系统技术要求》团标由中国电子工业标准化技术协会正式发布,这标志着得瑞在高性能计算和分布式存储领域的技术实力得到认可,同时也展现了公司在行业标准制定
    的头像 发表于 03-01 10:00 453次阅读
    得瑞领新参编团体标准《高<b class='flag-5'>性能</b>计算 分布式<b class='flag-5'>存储系统</b>技术要求》正式发布