AI大模型驶向产业之海，需要高质数据“河道”引航-电子发烧友网

“我们的AI大模型，在万卡集群上训练，三小时就出一次错。别笑，这已经是世界先进水平了。”某次行业峰会上，一位清华大学的院士科学家，讲出了AI大模型训练的“大实话”。

风靡全球的AI大模型，是今年毋庸置疑的风口，数量不断增长，达到了惊人的水平。“百舸争流”之下，大家却经常会忽略一个关键问题：AI大模型带来的数据激流，也比想象中更加汹涌。

“三小时出错一次”，听起来不可思议的故障率，却是大模型从业者要面对的常态，甚至是“优等生”。目前业界的普遍做法，是写容错检查点checkpoint。既然三小时就报错，那就2.5小时停一次，写好检查点，把数据存起来，再开始训练。一旦出现故障，可以从写好的检查点恢复，避免“从头开始”、全部白干。而检查点需要存储的数据多，会耗费大量的时间。该院士团队基于llama 2架构研发的大模型，数据存一次硬件，就需要十个小时，存储效率直接影响了开发进度。

如果说大规模的异构数据，是肆意奔涌的激流，存储系统就是承载着数据流量的河道，其宽阔坚固程度直接决定了数据是否会淤塞甚至停滞，从而卡住AI大模型的生命线。可以说，整个大模型行业的生产力和效率，都被存储规定了“上限”。

这也是为什么，存储作为AI数据基础设施，受到越来越多关注。

11月29日，“数智创新 AI未来”2023中国数据与存储峰会在北京举办。曙光存储发布了面向AI大模型的存储解决方案。

借此机会，我们一起了解一下，AI大模型浪潮来袭，给存储带来的承载挑战，以及曙光存储是如何为智能产业引航，助推AI大模型百舸扬帆。

AI大模型驶入产业深水区，传统存储的数据之殇

最近我去了一趟云南，发现不仅北上广等科技重地的大模型建设如火如荼，在昆明、大理等二三线城市，甚至边疆地区，都在积极地探索大模型行业应用。

各行各业走向智能化，几乎都点燃了对大模型的炽热兴趣。这时候，一个关键问题也显露了出来：AI大模型的产业化风潮，需要升级存储基础设施。

模型开发者的每一次训练，数据都在向存储系统发起多种挑战：

数据洪潮的冲击。随着大模型的产业落地，许多行业都开始训练专属模型，大量行业数据、专有数据、新的标注数据被输送给大模型，澎湃的数据数量对存储系统提出了挑战。云南某数据科技公司提到，行业大模型要用高质量的数据集、文档、客户私有数据进行训练，每个项目都是单独成立标注组，数据规模持续增大，存储诉求和成本也随之增加。

2.数据淤塞的桎梏。超大规模数据预处理的速度慢、耗时长，采集、归类、搬迁等过程费时费力，一旦存储性能跟不上，海量文件吞吐慢、多读少写，检查点Checkpoint等待耗时久，会延缓开发进度，增加开发成本。

3.数据复杂的暗涌。此外，AI大模型要用到大量异构数据，文件格式复杂、数据集类型多样，数据数量激增，传统存储难以应对数据复杂性的挑战，容易产生消化不良的问题，造成数据访问效率低，从而造成模型运行效率下降，训练算力消耗增多，无法充分“压榨”昂贵的GPU算力资源。比如云南当地的太阳观测站，通过让AI科学计算模型学习海量图片，呈现太阳真实的样子，每天产生2TB的图片数据，当前存储的吞吐效率低，会导致训练集加载慢、数据处理周期长，拖慢研究进程。

4. 数据安全的隐忧。目前，AI大模型已经深度渗透各行业之中，在训练开发及应用落地过程中需要海量的数据支撑，其中包含行业或个人敏感信息的数据，如果没有合理的数据脱敏和数据托管机制，则可能造成数据泄露，给行业和个人造成损失。同时，模型安全风险也需重视，比如，插件可能被植入有害内容，成为不法分子欺诈和“投毒”的工具，危及社会和产业安全。

AI大模型驶向产业深水区，欣喜的是，这一技术创新正在高度融入千行万业，满足智能化需求，生命力旺盛。担忧的是，数据工程贯穿大模型的全生命周期，从收集、清理、训练、推理部署、反馈调优等各个阶段，都需要用到大量数据。存储成为瓶颈，意味着AI大模型的各个阶段都需要消耗在大量的数据淤塞、故障、低效之中，这会让大模型的开发周期与综合成本极高，是产业所无法承受的。

疏浚存储“河道”，避免数据淤塞，为大模型的产业扬帆提供支持和滋养，曙光存储带来的新解决方案，让我们发现了有价值的参考案例。

高质数据“航道”，曙光存储给大模型行业一个答案

经过与AI大模型开发者的交流，我得出了一个清晰的结论：构建一个适配AI大模型的全新存储体系，已经不再是需要讨论的问题，关键是谁能率先完成方案升级、给出实用解法。

洞察行业的存力需求，曙光存储打造了以ParaStor大模型专用存储为底座的AI大模型存储解决方案，写下了自己的答案。

曙光存储AI大模型存储集群，拥有异构融合、极致性能与原生安全三大领先能力。

首先，可提供千亿级文件存储服务，接近无限扩展规模。针对数据访问协议多样性问题，同时支持文件、对象等多种存储协议，避免数据跨存储系统复制。

其次，针对AI大模型开发过程中对数据处理效率的高需求，曙光存储AI大模型存储集群可提供多级缓存加速、XDS数据加速及智能高速选路等多种数据IO性能优化能力。

最后，为保障全流程数据安全，曙光存储节点还提供芯片级安全能力，并支持国密指令集，通过多级可靠性，保障存储集群在训练开发全周期内稳定运行，符合政策和未来安全趋势。

有人可能会问了，市面上的存储方案这么多，有的也宣传为模型开发提供专业支持。曙光存储的方案有哪些差异化价值？

如果对各家的技术名词和产品细节云里雾里，大家不妨用几个词，记住曙光存储AI大模型存储集群的差异化价值：

1.先进。异构融合，极致性能，芯片级原生安全，展现了曙光存储的技术先进性，也针对性地解决了大模型开发的数据量大、数据形态复杂多样、吞吐效率低、存算时间长等实实在在的痛点。

2.可靠。高性能AI数据基础设施基于曙光存储的自研创新，更加可靠安全，符合信创政策和未来安全趋势，可以帮助国内大模型服务商规避海外供应链风险，从供应链安全、数据安全、模型安全等多个角度，为大模型产业的发展护航。

3.全面。曙光存储打造了涵盖从网络、计算到平台的全维度AI解决方案，支持训练开发全周期内稳定运行，可以降低综合成本，让大模型开发者和行业客户无忧前行。

总结一下，在曙光存储构建的高质“航道”上，大规模数据高效吞吐，AI大模型加速开发，因此，行业和企业可以快人一步，将大模型与垂直场景和业务深度融合，率先获得通往智能时代的船票。

第五范式的新起点，看百舸争流、万业扬帆

图灵奖获得者吉姆·格雷（Jim Gray），曾提出第四范式，核心是数据驱动。而随着大语言模型“智能涌现”，“智能驱动”的第五范式，更侧重于数据和智能的有机结合，成为支撑科学革命、产业革命的新底层逻辑。

所有过往，皆是序章。AI如此，存储亦如此。

此次大会上，凭借20年行业深耕，与在AI存储技术突破、液冷存储研发等领域的领先实践，曙光存储公司总裁惠润海获评“存储先锋”。在其领导下，多年来曙光分布式文件存储在市场中持续领跑，市场份额名列前茅。面向AI大模型的数据存储解决方案，让曙光存储又一次站到了时代前沿。

曙光存储的AI大模型存储集群，正是积极践行范式转换，对应数据新范式，用数据基础设施的飞跃，助推大模型产业化的涨潮。

接下来，在存储行业的新范式、新起点，在曙光存储的高质数据“河道”上，我们会看到，行业大模型百舸争流，AI应用千帆竞渡，加速驶向智能中国。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

存储

存储

+关注

关注
13

文章
4298

浏览量
85811
AI

AI

+关注

关注
87

文章
30763

浏览量
268914
曙光

曙光

+关注

关注
0

文章
182

浏览量
13529
大模型

大模型

+关注

关注
2

文章
2427

浏览量
2650
AI大模型

AI大模型

+关注

关注
0

文章
315

浏览量
306

AI基础数据服务是AI产业的关键支撑

更深、更宽的网络结构，训练更强大的模型，并加速模型的推理速度；数据是模型学习和适应不同任务的基石高质量的

发表于 12-13 15:45 •201次阅读

标贝科技：AI基础数据服务，人工智能行业发展的底层支撑

随着不同大模型在语言理解及生成等领域的出色表现，大模型别后的规模规律不断强化数据在要提升AI性能上的关键作用，AI

发表于 11-14 18:32 •264次阅读

使用AI大模型进行数据分析的技巧

以及后续的分析步骤。确定需要分析的数据类型、规模和复杂度，以便选择合适的AI大模型。二、高质量数据收集与处理

发表于 10-23 15:14 •702次阅读

AI模型在面对数据壁垒时的困境

8月1日，根据各大媒体的广泛报道，当前全球互联网已经陷入了优质数据资源的严重匮乏，人工智能（AI）领域也正在面临严峻的“数据墙”难题。对专注于研发大型AI

发表于 08-01 15:20 •458次阅读

ai大模型和ai框架的关系是什么

的数据和计算资源来进行训练。AI大模型的主要特点包括： 1.1 参数数量大：AI大模型的参数数量通常在数百万到数十亿之间，这使得它们能够捕捉

发表于 07-16 10:07 •4w次阅读

ai大模型和传统ai的区别在哪？

AI大模型和传统AI的区别主要体现在以下几个方面：数据量和训练规模 AI大模型通常

发表于 07-16 10:06 •1325次阅读

河道水面漂浮物识别检测 YOLO算法

河道水面漂浮物识别检测根据监控摄像头搜集江河或河道的水面视频，截取图片中带有海上漂浮物的照片，河道水面漂浮物识别检测训练所需照片，形成数据实体模型

发表于 07-02 11:37 •489次阅读

鸿蒙元服务，软件开发者驶向蓝海的一叶飞舟

鸿蒙元服务作舟，AI分发为帆：软件开发者驶向流量蓝海

发表于 06-26 09:39 •1517次阅读

澳鹏入选亿欧大模型基础层图谱，以优质数据赋能AGI智能涌现

近日发布《2024中国"百模大战"竞争格局分析报告》，全方位呈现大模型产业现状。作为产业链上的重要一环，澳鹏Appen凭借高质量的大模型

发表于 05-27 17:01 •351次阅读

中国少年，从一场软件竞技赛驶向产业之海

中国软件黄金十年的新航路，少年们用云与AI大模型开启

发表于 04-30 16:41 •524次阅读

2024中国AI大模型产业发展报告

日前，人民网财经研究院、至顶科技联合发布《开启智能新时代：2024年中国AI大模型产业发展报告》（以下简称《报告》），对于AI大模型

发表于 03-30 08:26 •784次阅读

AI大模型将如何推动中国产业升级？华为盘古大模型深耕千行万业

AI大模型将如何推动中国产业升级？日前，华为混合云副总裁胡玉海在做客央视网《中国神气局》时，畅谈AI大模

发表于 03-22 10:40 •586次阅读

防止AI大模型被黑客病毒入侵控制（原创）聆思大模型AI开发套件评测4

模型并为其提供了输入数据。最后，我运行了模型的推理，并输出了预测结果。此外，还需要考虑其他因素，如模型的优化器、损失函数和评估指标等。为

发表于 03-19 11:18

北斗芯片产业的高质量发展之路

导航定位协会副会长、深圳华大北斗科技股份有限公司董事长兼总经理孙中亮认为：北斗芯片产业作为科技自立自强的排头兵更是北斗产业发展的底座，同样需要高质量发展，同样需要走以科技创新为驱动力，

发表于 03-15 14:03 •383次阅读

AI大模型可以设计电路吗?

AI大模型

电子发烧友网官方
发布于 :2024年01月02日 15:09:29