0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮信息推出基于新一代分布式存储平台AS13000G7的AIGC存储解决方案

浪潮存储 来源: 浪潮存储 2024-07-01 19:00 次阅读

6月28日,浪潮信息“元脑中国行”全国巡展杭州站顺利举行。会上,浪潮信息重磅推出基于新一代分布式存储平台AS13000G7的AIGC存储解决方案。通过加持EPAI/AIStation的资源调度能力、新一代分布式存储AS13000G7自身产品优势,新方案从容应对大模型应用对存储性能、容量以及数据管理等方面的苛刻要求。同时,浪潮信息尝试性提出GPU计算集群算力与存储集群聚合带宽的推荐配比,实现检测点数据60秒内写入和读取恢复,提高大模型训练效率。

大模型时代

数据基础设施挑战升级

随着数字经济的蓬勃发展,AI技术正逐渐成为推动企业业务变革和创新的重要动力,大模型已经成为驱动数字经济深度创新、引领企业业务变革、加速形成新质生产力的重要动能。

会上,存储产品线副总经理刘希猛表示,随着大模型参数量和数据量的极速膨胀,多源异构数据的传、用、管、存,正在成为制约生成式AI落地的瓶颈之一,在AI大模型数据归集、训练、数据归档与管理等阶段,面临着数据归集时间长、模型训练效率低、数据管理复杂度高等针对数据基础设施的新挑战,用户亟需构建支持多协议、高带宽、低延迟、数据高效流转的大模型存储底座。

作为率先在业界提出分布式融合存储的厂商,浪潮信息聚焦行业客户的大模型落地需求与核心痛点,打造基于NVMe SSD高效适配和优化的分布式全闪存储AS13000G7-N系列。依托自研分布式文件系统构建了新一代数据加速引擎DataTurbo,在缓存优化、空间均衡、缩短GPU与存储读取路径等方面进行了全面升级,提供TB级带宽、千万级IOPS、EB容量,满足大模型存储在性能和容量方面的要求。

剑指AIGC主战场

打造面向大模型应用的存储解决方案

在大模型数据处理全流程中,要想使训练效率达到极致,减少不必要的资源浪费,算力和存力需要均衡配置,训练阶段的数据读写性能成为发挥存力最大作用的关键。而想要提升存储效率、降低模型训练成本,必须要在存储技术上进行创新。对此,浪潮信息推出基于AS13000G7的AIGC存储解决方案,该方案通过浪潮信息AIStation人工智能平台进行智能资源调度和深度数据管理,与EPAI“元脑企智”平台深度集成,数据在热、温、冷、冰四个存储资源池中高效流动,最大限度满足AIGC不同阶段对高性能、易管理的存储需求。首先,通过与上层EPAI/AIStation的深度定制,依托智能数据预读和智能故障处理等技术,为行业用户提供经验证的、更成熟的存储整体方案,目前已累计服务AIGC用户超100家,其中百PB级用户超10家;其次,通过全局命名空间、多协议实时互通、数据冷热分层等技术实现横向数据自由流动,提升存储效率和降低用户TCO 20%以上,方案更加简约;最后,通过AS13000G7-N系列强大的智能缓存优化、智能空间均衡和GPU直通存储等优势实现纵向数据高效访问,缩短大模型训练时间50%,方案更加高效。凭借成熟的深度定制能力、卓越的产品性能优势以及数据全生命周期管理能力,浪潮信息基于AS13000G7的AIGC存储解决方案充分满足大模型训练阶段高性能、归档阶段低成本的存储需求。

7750f170-3794-11ef-a4c8-92fbcf53809c.png

算存黄金比例

加速大模型训练

倪光南院士曾提出,“对于AI智能计算中心来说,要想均衡配置存力、算力和运力,一定要注意比例相当,不能失调,才能取得最大的经济和社会效益。”为了最大限度发挥大模型潜能,解决存算比例不平衡的难题,需要制定最佳的存算比例,保障模型的高效训练。浪潮信息最新发布的AIGC存储解决方案尝试给出了模型训练时GPU算力与全闪存储性能、容量的配置推荐。

性能方面:大模型训练过程中检测点文件读写对存储系统读写性能带来巨大挑战。万亿模型需要12~13TB模型参数,写检测点需要耗费大量的时间,未经优化的存储集群一次写入检测点需要3个小时。基于对存储集群读写带宽与大模型检测点恢复时间的分析,为提高大模型的训练效率,实现检测点数据60秒以内的写入和读取恢复,前端GPU计算集群算力(单位采用每秒千万亿次浮点预算PFLOPS)与存储集群聚合带宽(单位采用每秒千亿字节也就是常说的TB/s)的推荐配比为35:1。当然,如果期望获取更低的CHK写入和恢复时间,可以继续增加集群带宽,但其收益率相对较低。

全闪容量方面:模型训练场景中,除了初始加载的训练数据集要存放在全闪池中,还有过程训练中的CHK数据要保存。随着万卡时代的到来,当出现掉卡或训练中止现象,用户通常会每隔一段时间就保存一次Check point数据,可以用来恢复训练或用于模型评估和推理。经过一年多的实践,建议大模型用户2~4小时做一次Checkpoint,检测点数据保存两周时间,实现存储集群容量的合理利用。通过模型分析,结合产品特点,便可推算出全闪热存储池的存储配置要求。当然,用户需求还会涉及到用于收集原始数据、准备原始数据的温存储池,用于归档的冷数据存储池。这些温冷池的容量一般在热存储池容量的10-20倍左右,达百PB级。

“元脑中国行”杭州站现场吸引了来自天目山实验室、网易伏羲、英特尔等300余位专家学者、产业领袖、行业客户,现场围绕生成式人工智能、Al for Science、大模型的AIGC应用等行业热点话题进行分享。浪潮信息还在会上举行了“EPAI种子计划”签约仪式,名都科技、启帆信息、图灵软件、天健远见等浙江区域的10位元脑伙伴正式加入“EPAI种子计划”,共同加速AI应用创新发展,推动大模型应用落地实践。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4257

    浏览量

    85644
  • 浪潮
    +关注

    关注

    1

    文章

    450

    浏览量

    23808
  • 分布式存储
    +关注

    关注

    4

    文章

    170

    浏览量

    19498
  • AIGC
    +关注

    关注

    1

    文章

    354

    浏览量

    1504

原文标题:助力AI产业革新!浪潮信息重磅推出AIGC存储解决方案

文章出处:【微信号:inspurstorage,微信公众号:浪潮存储】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    浪潮信息分布式存储平台AS13000G7的优越性能

    近年来,人工智能相关技术在社会发展中扮演着日渐重要的角色。特别是在广告、影视等多个行业,AIGC将内容生产效率提升数倍甚至数十倍,降低人力成本50%以上,是推动企业数字化转型的关键动力。然而,在AI技术快速发展和相关应用迅速增长的同时,其背后的数据基础设施也面临严峻的考验。
    的头像 发表于 11-12 11:42 224次阅读
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>分布式</b><b class='flag-5'>存储</b><b class='flag-5'>平台</b><b class='flag-5'>AS13000G7</b>的优越性能

    浪潮信息AI存储性能测试的领先之道

    MLCommons,个致力于推动全球 AI系统发展的顶级工程联盟,汇聚了包括谷歌、斯坦福大学在内的众多顶尖企业和研究机构。作为该联盟的创始成员之浪潮信息自2020年起便积极参与其中,共同探索
    的头像 发表于 10-29 16:30 192次阅读
    <b class='flag-5'>浪潮信息</b>AI<b class='flag-5'>存储</b>性能测试的领先之道

    浪潮信息AS13000G7荣获MLPerf™ AI存储基准测试五项性能全球第

    北京2024年9月27日 /美通社/ -- 9月25日,MLCommons协会发布最新MLPerf™ Storage v1.0 AI存储基准测试成绩。浪潮信息分布式存储
    的头像 发表于 09-28 16:46 185次阅读
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>AS13000G7</b>荣获MLPerf™ AI<b class='flag-5'>存储</b>基准测试五项性能全球第<b class='flag-5'>一</b>

    基于分布式存储系统医疗影像数据存储解决方案

    基于分布式存储系统医疗影像数据存储解决方案
    的头像 发表于 09-14 09:53 257次阅读
    基于<b class='flag-5'>分布式</b><b class='flag-5'>存储</b>系统医疗影像数据<b class='flag-5'>存储</b><b class='flag-5'>解决方案</b>

    医疗PACS影像数据的极速分布式存储解决方案

    医疗PACS影像数据的极速分布式存储解决方案
    的头像 发表于 08-23 10:13 263次阅读
    医疗PACS影像数据的极速<b class='flag-5'>分布式</b>块<b class='flag-5'>存储</b><b class='flag-5'>解决方案</b>

    浪潮信息推出AIGC存储解决方案

    隆重推出了基于其新一代分布式存储平台AS13000G7AI
    的头像 发表于 07-03 11:16 672次阅读

    黑龙江电力高性能WDS分布式存储系统解决方案

    黑龙江电力高性能WDS分布式存储系统解决方案
    的头像 发表于 07-01 09:54 321次阅读
    黑龙江电力高性能WDS<b class='flag-5'>分布式</b><b class='flag-5'>存储</b>系统<b class='flag-5'>解决方案</b>

    浪潮信息分布式存储AS13000完成英特尔至强6能效核处理器适配

    近日,浪潮信息分布式存储AS13000完成英特尔至强6能效核处理器适配,实现每瓦性能提升2.3倍,以更高的效率、更优的成本满足海量多态数据的存储
    的头像 发表于 06-19 10:05 809次阅读
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>分布式</b><b class='flag-5'>存储</b>AS<b class='flag-5'>13000</b>完成英特尔至强6能效核处理器适配

    浪潮信息发布AS13000G7-N系列分布式全闪存储

    浪潮信息近日推出了专为大型AI模型优化的AS13000G7-N系列分布式全闪存储。该系列基于浪潮信息
    的头像 发表于 05-14 10:03 518次阅读

    为大模型专门优化 浪潮信息发布分布式全闪存储AS13000G7-N系列

    北京2024年5月10日 /美通社/ -- 近日,浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息
    的头像 发表于 05-10 16:37 406次阅读
    为大模型专门优化 <b class='flag-5'>浪潮信息</b>发布<b class='flag-5'>分布式</b>全闪<b class='flag-5'>存储</b>AS<b class='flag-5'>13000G7</b>-N系列

    浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列

    近日,浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息自研分布
    的头像 发表于 05-08 09:38 498次阅读
    <b class='flag-5'>浪潮信息</b>发布为大模型专门优化的<b class='flag-5'>分布式</b>全闪<b class='flag-5'>存储</b>AS<b class='flag-5'>13000G7</b>-N系列

    图读懂浪潮信息新一代分布式全闪存储AS13000G7-N系列

    图读懂浪潮信息新一代分布式全闪存储AS13000G7-N系列
    的头像 发表于 05-08 09:35 1192次阅读
    <b class='flag-5'>一</b>图读懂<b class='flag-5'>浪潮信息</b><b class='flag-5'>新一代</b><b class='flag-5'>分布式</b>全闪<b class='flag-5'>存储</b>AS<b class='flag-5'>13000G7</b>-N系列

    浪潮信息推出全球首个单存储即可支持16节点的SAP HANA集群方案

    近日,浪潮信息成功实现并推出全球首个单存储即可支持16节点的SAP HANA集群方案,全闪存储HF5000系列作为该
    的头像 发表于 04-01 10:03 405次阅读

    分布式存储与计算:大数据时代的解决方案

    分布式存储和计算技术应运而生,并迅速成为处理大数据的首选方案。本文将深入探讨分布式存储和计算的概念、优势及其在各个领域的应用情况。 1.
    的头像 发表于 03-07 14:42 687次阅读

    曙光存储推出ParaStor分布式全闪存储

    曙光存储推出ParaStor分布式全闪存储,携业内首创技术XDS,以训练加速、稳定性强、性价比高的独特价值,全维度涵盖网络、计算和平台,为千
    发表于 03-01 11:30 548次阅读