0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

忆联PCIe5.0 SSD以软硬协同的高可靠性,支撑大模型全流程训练

全球TMT 2025-03-12 10:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

深圳2025年3月11日/美通社/ -- 当前,大模型全流程训练对数据存储系统的要求已突破传统边界。企业级SSD作为AI算力基础设施的核心组件,其高可靠性、高性能及智能化管理能力,正成为支撑大模型训练效率与稳定性的关键。

从海量数据的预处理到高频参数迭代,从模型微调到实时推理,大模型运行的每一个环节都需存储设备在"硬指标"与"软实力"间达成平衡。从产品可靠性视角出发,忆联新一代PCIe Gen5 ESSD UH812a/UH832a可高效支撑大模型全流程训练。

可靠性硬指标:从容应对数据洪流"耐力赛"

大模型训练阶段,需处理从10TB到100PB量级不等的海量数据集,读写频率高、负载强度大。企业级SSD侧重以高耐久性、大容量、混合读写性能等"硬指标"应对挑战。

忆联UH812a/UH832a采用最新一代PCIe 5.0接口,其存储带宽、时延、密度、耐久性、数据完整性和寿命与稳定性等核心指标表现,均高于行业标准,对比同代际产品,处于业内领先水平。

高速带宽与超低延迟

PCIe 5.0高速接口:支持单双端口、NVMe2.0协议。对比PCIe 4.0带宽翻倍,可高效处理海量非结构化数据(文本、图像等)的清洗、标注和格式转换。
高吞吐量:顺序读写14900MB/s-10500MB/s,峰值性能领先业内同代际产品。
超低延迟:4K随机读取QD1延迟≤55μs,对比上一代(UH811a系列)改善43%。

wKgZO2fQPseAb4IYAACFUqrxWG8016.jpg


高密度与大容量

单盘容量可达15.36TB:15.36TB容量SSD的TBW通常为28PBW-70PBW,满足大模型参数存储需求,减少数据迁移开销。

错误率与数据完整性

UBER(不可恢复错误率):1E-18。JESD218A规范(固态硬盘可靠性测试方法)下,企业级SSD UBER满足 ≤1E-17即可,部分高端产品通过技术优化,可提升至1E-18。

高耐久性

DWPD(每日全盘写入次数):高达3 DWPD(UH832a)。5年保修期内,可满足用户每天3次全盘的数据写入量,有力承载海量数据写入的应用场景。

高置信度

MTBF(平均故障间隔时间):≥250万小时。累计1200+片盘测试。
AFR(年失效率):≤0.35%

根据OCP(开放计算项目)规范,企业级SSD的MTBF≥200万小时(运行温度0°-55°)、AFR(年失效率)≤0.44%即可。忆联UH812a/UH832a高置信度的MTBF和AFR可轻松满足模型训练场景需求。

wKgZPGfQPsiAKoYnAACqyn2iAOA674.jpg


系统级可靠性软实力:毫秒级响应推理"敏捷战"

进入模型微调与推理阶段,读写数据量降低,参数读取速度和模型加载速度变得更为关键,存储需求转向低延迟与高服务质量(QoS)。此时,企业级SSD需以"软实力"极速响应推理"敏捷战"。

忆联UH812a/UH832a针对AI推理场景的典型需求,通过算法优化、容错与恢复机制、智能监控与维护、数据保护等系统级可靠性设计,以及积累多年的完备测试验证能力,构建了多维度的"软实力"保障体系。

wKgZO2fQPsiACZj2AADJ2muZkeE507.jpg


固件算法优化

增强的LDPC纠错算法:提供比Flash颗粒要求更高的纠错能力,能够精准识别并修正数据传输与存储过程中出现的各类错误。LDPC+DSP算法引擎融合硬判决、软判决、DSP等手段,使Flash寿命最高提升5倍。

全场景QoS调优:随机读99.999%的QoS时延小于1ms,达到业界领先。

智能磨损平衡技术:智能均衡Flash颗粒磨损压力,区分"健壮"与"脆弱"的NAND单元,优化写入分布,避免NAND局部过度擦写,并结合智能健康监测提前预警潜在风险,提升SSD寿命。

智能FSP算法:通过软硬件协同设计,结合介质特性,有效解决SSD在长期使用中性能衰减、数据可靠性下降的痛点。业界最低误码率的FSP算法保护SSD生命末期可靠,使得SSD全生命周期性能浮动小于10%。

容错与恢复机制

内置类RAID算法:基于智能的类RAID算法,当介质数据出现错误后,可以恢复数据,单芯片故障不影响数据完整性。

Flexible RAID算法:在发生Flash器件失效后,将主动恢复故障Flash中的数据并继续对数据进行RAID保护。

掉电保护:当服务器异常下电时,通过内置电容在断电瞬间维持供电,确保硬盘内的数据不丢失,优先写入缓存数据,防止模型训练中断导致模型参数丢失。

智能监控与预测性维护

健康状态报告:实时检测设备剩余寿命、温度、IO统计、坏块率等指标。支持设备诊断、监测和SMART信息上报。

数据巡检技术:周期性巡检错误、处理坏块、校验数据等,在后台对全盘数据进行校验检查,可有效规避数据失真。若数据有失真风险,则及时搬迁此部分数据,并屏蔽该Flash空间,避免业务读取错误数据,确保数据可靠性、完整性和设备健康。

NVMe-MI带外管理:支持通过访问带外通道进行设备管理。如:软硬件状态监控、主机业务性能监控、SSD固件升级与激活、带外业务管理等。

全链路数据保护

端到端数据保护:保护整个数据路径中的数据,支持用户通过DIF域进行数据保护,数据在盘片内部各模块间传输时均有校验保护,应用于大模型推理的复杂场景,可显著降低数据丢失风险并延长SSD使用寿命。

高级Flash访问技术:组合应用Flash颗粒的Read retry和Adaptive read技术,有效保证数据的有效性。

深度调优及验证

企业级研发实验室:可开展从软件研发、算法到芯片、硬件及软件测试等全方位的测试验证任务。基于行业三大标准规范(JEDEC规范、SNIA和OCP),拥有强大的产品验证及深度调优能力,通过多种可靠性专项验证测试,保障客户使用的SSD具备长期可靠性和稳定性。

全流程可靠性验证:从白盒、灰盒、黑盒等多维度保障软件特性功能和可靠性,已累计可靠性专项测试用例4000+。同时构建了兼容性CI,持续累积可靠性测试强度,测试规模和测试压力保持业界标杆水平。

wKgZPGfQPsiAWUjxAADSO7pn4og563.jpg


综上所述,实现企业级SSD的高可靠性需"软硬结合",既要硬指标达标(如MTBF、UBER、AFR),也需软实力优异(如算法优化、容错与恢复、高标准测试验证等),通过构建"零数据丢失"的可靠防线,方能支撑大模型从PB级数据训练到毫秒级推理响应的全流程需求。

作为企业级PCIe 5.0标杆产品,忆联UH812a/UH832a将以稳定可靠的存力底座激发算力潜能,为客户与伙伴提供坚实的数据存储基础设施保障。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SSD
    SSD
    +关注

    关注

    21

    文章

    3147

    浏览量

    122588
  • PCIe
    +关注

    关注

    16

    文章

    1474

    浏览量

    88895
  • PCIe5.0
    +关注

    关注

    0

    文章

    37

    浏览量

    2001
  • 大模型
    +关注

    关注

    2

    文章

    3750

    浏览量

    5268
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    得瑞领新聚焦AI数据中心存储,全国产高性能企业级PCIe 5.0 SSD正当时

    随着大模型训练与推理、海量数据处理等场景的规模化落地,AI数据中心对企业级SSD提出严苛要求,不仅需要极致的低延迟与高IOPS性能支撑高并发访问,还需兼顾大容量、高速读取、稳定
    的头像 发表于 04-14 15:01 4308次阅读
    得瑞领新聚焦AI数据中心存储,全国产高性能企业级<b class='flag-5'>PCIe</b> <b class='flag-5'>5.0</b> <b class='flag-5'>SSD</b>正当时

    知识分享-嵌入式系统可靠性模型

    形式,实现系统可靠性的成倍提升,这时一般会采取可靠性并联结构模型。注意:系统可靠性的串、并联模型
    的头像 发表于 03-11 16:43 374次阅读
    知识分享-嵌入式系统<b class='flag-5'>可靠性</b><b class='flag-5'>模型</b>

    AM6D1DRAMLess架构重塑性能与成本平衡

    随着PCIe 5.0 SSD逐渐普及,如何在极致性能与成本控制间取得平衡,成为存储厂商的核心攻坚课题。洞察趋势,推出行业领先的DRAML
    的头像 发表于 03-05 16:07 991次阅读
    <b class='flag-5'>忆</b><b class='flag-5'>联</b>AM6D1<b class='flag-5'>以</b>DRAMLess架构重塑性能与成本平衡

    ICY DOCK PCIe5.0存储扩展三件套深度评测 实测满速无损传输

    、阻抗匹配、电磁干扰极度敏感,传统抽取方案常因信号衰减导致速率骤降或链路中断。ICYDOCK系统级工程思维破局,推出端到端协同优化的PCIe5.0存储扩展三件套
    的头像 发表于 02-12 17:02 5317次阅读
    ICY DOCK <b class='flag-5'>PCIe5.0</b>存储扩展三件套深度评测 实测满速无损传输

    正式推出面向PCIe 5.0的自研M.2 SLT测试系统

    体验的关键支撑历经多轮技术攻坚与系统迭代,正式推出面向PCIe 5.0的自研M.2 SL
    的头像 发表于 02-11 10:12 1122次阅读
    <b class='flag-5'>忆</b><b class='flag-5'>联</b>正式推出面向<b class='flag-5'>PCIe</b> <b class='flag-5'>5.0</b>的自研M.2 SLT测试系统

    128Gbps满血释放:PCIe5.0 商用存储全场景落地,ICY DOCK 系产品深度解析

    数据中心、AI训练、金融交易等高性能场景的核心支撑。ICYDOCK同步推出全系列PCIe5.0产品,涵盖各种规格硬盘盒、EXLink转接卡以及NVMe资料传输线,全面
    的头像 发表于 02-07 11:00 1045次阅读
    128Gbps满血释放:<b class='flag-5'>PCIe5.0</b> 商用存储全场景落地,ICY DOCK <b class='flag-5'>全</b>系产品深度解析

    如何突破AI存储墙?深度解析ONFI 6.0高速接口与Chiplet解耦架构

    的带宽(如HBM3/E)来支撑张量处理单元。• 存储瓶颈:传统NAND闪存接口已无法支撑企业级PCIe 5.0 SSD的吞吐要求,亟需更高效
    发表于 01-29 17:32

    什么是高可靠性

    、如何评估PCB是否具备高可靠性高可靠性是结合“工程技术”与“管理艺术”的一种实践科学,稳健地产出高可靠PCB须建立一整套“规范、高效、协同、可控”的管理程序,要求工厂必须全方位管
    发表于 01-29 14:49

    正式推出消费级PCIe 5.0固态硬盘新品AM6D0

    近日,正式推出消费级PCIe 5.0固态硬盘新品——AM6D0。作为继AM6D1之后,联在PCIe
    的头像 发表于 01-09 14:12 1563次阅读
    <b class='flag-5'>忆</b><b class='flag-5'>联</b>正式推出消费级<b class='flag-5'>PCIe</b> <b class='flag-5'>5.0</b>固态硬盘新品AM6D0

    VIAVI Xgig 5P16推出全新功能,完善PCIe5.0测试需求

    VIAVI Xgig 5P16推出全新功能,完善了PCIe5.0测试需求。Xgig 5P16分析仪/协议训练器提供16通道全速数据捕获和错误注入,可对PCIe协议进行详细的功能和性能分析。
    的头像 发表于 12-17 16:25 448次阅读
    VIAVI Xgig 5P16推出全新功能,完善<b class='flag-5'>PCIe5.0</b>测试需求

    旗舰PCIe5.0 SSD亮相MTS2026,得瑞领新解码AI时代应对之道

    在MTS2026大会上,得瑞领新重点展示了其高性能PCIe 5.0 SSD如何通过超高带宽与低延迟,针对解决AI训练、推理等场景中遇到的存
    的头像 发表于 12-08 18:40 2085次阅读
    旗舰<b class='flag-5'>PCIe5.0</b> <b class='flag-5'>SSD</b>亮相MTS2026,得瑞领新解码AI时代应对之道

    正式推出首款面向OEM市场的消费级PCIe 5.0 SSD产品AM6D1

    近日,正式推出首款面向OEM市场的消费级PCIe 5.0 SSD产品AM6D1。该产品高达
    的头像 发表于 12-01 14:51 1760次阅读
    <b class='flag-5'>忆</b><b class='flag-5'>联</b>正式推出首款面向OEM市场的消费级<b class='flag-5'>PCIe</b> <b class='flag-5'>5.0</b> <b class='flag-5'>SSD</b>产品AM6D1

    PCIe 5.0企业级固态硬盘UH812a评测

    近日,国内知名计算机硬件评测媒体PCEVA对PCIe 5.0企业级固态硬盘UH812a进行了全面评测,测试数据显示该产品不仅在性能上达到业界领先水平,更在Oracle数据库、VSI
    的头像 发表于 08-21 11:27 4790次阅读
    <b class='flag-5'>忆</b><b class='flag-5'>联</b><b class='flag-5'>PCIe</b> <b class='flag-5'>5.0</b>企业级固态硬盘UH812a评测

    最新PCIe5.0 U.2硬盘抽取盒— ICY DOCK MB491V5K-B 开箱测评

    随着PCIe5.0存储方案逐渐普及,如何在高性能数据存储的同时实现“安全”、“可维护”与“工业级稳定性”,成为众多边缘计算、AI平台、车载与军工系统构建时的关注重点。今天要分享的这款产品
    的头像 发表于 08-01 14:48 1507次阅读
    最新<b class='flag-5'>PCIe5.0</b> U.2硬盘抽取盒— ICY DOCK MB491V5K-B 开箱测评

    英特尔Benchmark验证!UH812a问鼎PCIe Gen5企业级存储性能巅峰

    UH812a PCIe5.0企业级SSD成为首家通过Intel关键组件验证的国产存储产品,其性能全面超越同代竞品。该产品顺序读写达15000MB/s和10500MB/s,随机读写I
    的头像 发表于 07-07 16:33 871次阅读
    英特尔Benchmark验证!<b class='flag-5'>忆</b><b class='flag-5'>联</b>UH812a问鼎<b class='flag-5'>PCIe</b> Gen5企业级存储性能巅峰