0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SSD的可靠性可靠性量化指标MTBF

SSDFans 来源:Memblaze 作者:Memblaze 2021-10-11 09:50 次阅读

企业环境复杂多变,快速增长的业务需求使得企业在数据存储规模、存储性能和可靠性等多方面提出了越来越高的要求。SSD固态硬盘凭借极高的读写性能、极低延迟成为越来越多企业的首选解决方案,并在数据库、虚拟化、应用加速、大数据、云计算乃至人工智能等领域发挥重要作用。企业级SSD往往需要在高并发、大压力、24小时全天候运行的严苛环境下运行,其可靠性是企业级用户的重点关注之一。

可靠性指的是一个部件或系统在规定的操作条件下,在特定的时间内继续执行其预定功能的能力。对企业级SSD而言,它是非常重要的一项指标,不仅直接决定产品出货的良率、故障率等核心指标,而且对数据可用性、一致性的保护,也起着关键作用。

01

可靠性量化指标 —— MTBF

SSD的“可靠性”通常以MTBF量化衡量。MTBF全称Mean Time between Failures,平均故障间隔时间,即产品在总的使用阶段累计工作时间与故障次数的比值。它反映了产品的时间质量,产品故障越少,MTBF越高,产品可靠性也就越高。

与消费级SSD产品相比,企业级SSD在可靠性方面面临更高挑战。根据OCP(Open Compute Project)给出的建议,部署于数据中心的企业级SSD MTBF平均故障间隔时间要在2,000,000小时,也是目前企业级SSD奉行的标准。但是,MTBF是需要实际跑测验证的,不能凭空而来。按照传统方法,要完成多次200万小时的验证显然不可能。那么,这长达200万小时的平均故障间隔时间,又是如何得到的呢?

答案是基于一定样本量,在一定时间段内通过加速因子加速(如写入量加速、运行环境温度加速)进行统计推断。过程模拟典型用户场景,通过实测验证理论值,提前验收产品质量。严谨的跑测验证将直接决定MTBF“可靠性指标”是否真的可靠。

02

MTBF 的表征时期

和大部分电子产品一样,SSD同样符合浴盆曲线(失效率曲线)特性,它分为三个关键时期:

早期失效期(Infant Mortality)

产品在刚生产好并加电使用时,因良率等因素会导致其失效率较高。为保证交付到客户手上的SSD符合企业级可靠性标准,企业级SSD厂商会对所有生产线上的产品进行一定时长的老化跑测,以最大程度暴露产品可能的早期失效,保证客户拿到的产品不存在早期失效问题。

偶然失效期(Random Failures or Normal Life)

这一阶段对应正式出货产品,产品失效率较低,且较稳定。产品可靠性指标MTBF所描述的就是这个时期,即产品的稳定使用阶段。

磨损期(Wearout Phase)

该阶段因产品磨损、老化等因素,其失效率会随时间的延长而呈指数级增加。此时SSD宣称寿命已经结束,虽可继续使用,但坏块会随着PE的增加而加速上升,SSD的有效预留空间(OP)逐渐消耗殆尽,设备失效率提高。对企业级SSD而言,进入磨损期的产品已不建议继续使用。

03

MTBF = MTTF

在MTBF之外,你可能还听过另外一个可靠性描述的词——MTTF。对于一个可维护的设备来说,MTBF = MTTF + MTTR,三者关系如下:

MTTF (Mean Time To Failure,平均失效时间):指系统两次失效的平均时间,取所有从系统开始正常运行到发生故障之间的时间段的平均值。MTTF =∑T1/ N;

MTTR (Mean Time To Repair,平均修复时间):指系统从发生故障到维修结束之间时间段的平均值。MTTR =∑(T2+T3)/ N;

MTBF (Mean Time Between Failure,平均无故障时间):指系统两次故障发生之间(包括故障维修)时间段的平均值。MTBF =∑(T2+T3+T1)/ N。

因为MTTR通常远远小于MTTF,所以MTBF近似等于MTTF。

04

MTTF理论计算公式,2,000,000小时如何而来?

最简单的情况下,MTTF计算遵循如下公式:

其中:

Ai 为 SSD i 的加速因子;

ti 为 SSD i 的测试时间;

nf 为出现故障 SSD 的数量;

a 为置信度(confidence limit,60%);

x2 为卡方分布(chi-squared distribution)。

上述等式中的加速因子通常分为3类:

未加速因子:A=1,通常用于固件故障;

TBW(Total Bytes Written)加速因子 :通过增加数据写入强度进行寿命加速;

温度加速因子 :通过升高测试环境温度进行故障出现加速。

TBW (Total Bytes Written) 加速因子

TBW是SSD寿命单位,以寿命为1.5 DWPD,用户容量3.84TB PBlaze6 SSD为例,其5年总的数据写入量(也就是现场部署写入量field)为10.5 PB,对应每天数据写入量为5.76 TB。如果增加每天的数据写入量(加速写入量stress),相当于加快消耗SSD寿命,可以加速故障出现。TBW加速因子计算方法如下:

假设一个用户容量为100G的SSD,其产品规格书定义SSD寿命为175TBW,典型使用场景下可使用5年(43800个小时)。其在1008小时内写入130TB的数据,写放大为1.2,则TBW加速因子为32,如果短时间内写入更多数据,则TBW加速因子也会相应提升。

温度加速因子

NAND因其固有特性,数据保持力会随着温度的升高而降低。阿伦尼乌斯公式(Arrhenius Equation)指出,在室温 40℃ 下SSD放置 1 年(8670个小时),相当于在 85℃ 的老化室中放置 52 个小时。

JESD 22-A108定义了温度随时间对SSD的影响,执行高温运行寿命(HTOL,High Temperature Operating Life)测试,可确定长时间高温条件下SSD运行的可靠性。协议规定,如果没有特殊要求,SSD需在 125 °C 的结温压力下测试。但企业级SSD一般会设计高温保护逻辑,防止温度过高造成NAND数据保持力下降和元器件的损坏,所以SSD的实际工作温度不会达到125℃。

对于温度加速因子,计算方法如下:

其中:

Ea 为失效模型的活化能 ,一般为0.7 eV;

k 为玻尔兹曼常数,8.617 x 10-5 eV/°K;

T₁ 为工作温度 (标准取值为 55°C 或者 328°K);

T₂ 为测试加速温度。

MTTF计算示例

假设样本量为 400,测试时间为 1008 小时,加速因子Ai = A(TBW) * A(T) 为10,失败的数量为0,置信度为60%,则 MTTF = MTBF = 4,400,000小时。

d48aa190-29cf-11ec-82a8-dac502259ad0.png

注意,MTBF是和温度严格相关的。这一点在OCP Datacenter NVMe SSD Specification中也有提到:

MTBF 2,500,000小时(AFR≤0.35%),对应的SSD运行温度为0℃~50℃;

MTBF 2,000,000小时(AFR≤0.44%),对应的SSD运行温度为0℃~55℃。

但理论和现实总是有差距的。现实中产品意义上的MTBF测试,很难达到10倍的加速因子,TBW加速因子仅能用于测试NAND颗粒的寿命,实际测试中还需要考虑电路和物理接口硬件部分的可靠性。而这部分,只能靠温度来加速。实际操作中,MTBF=200万小时的测试,需要至少用2000片样品在加速因子作用下,跑满1000小时以上。

05

MTBF 和 AFR 又是什么关系?

除了MTBF指标,还有其他可靠性量化表征指标,如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互转化。

故障率λ:SSD关键元器件选型时,需要确保每个元器件的故障率 λ 达标。相比故障率指标,MTBF的定义更加直接,也更适用于表现系统级的可靠性;

AFR:年化故障率,可以更好地了解在任何一年中发生硬盘故障的几率。

MTBF 和 AFR转化公式如下:

MTBFhours = 1/λhours

MTBFyears = 1/(λhours*24*365)

AFR = 365*24hours*λhours = 8760hours/MTBFhours

MTBF 和 AFR 的数值对应关系如下:

d4f7e25a-29cf-11ec-82a8-dac502259ad0.png

企业级SSD产品可靠性MTBF ≥ 2,000,000小时(@55℃),换算为年化失效率AFR ≤ 0.44%,对应FFR(Functional Failure Requirement,SSD在整个磨损寿命时间范围内累积的功能失效率,以5年保修期为参考)≤2.2%。

Memblaze全系列企业级SSD均按照2,000,000小时MTBF @55℃ /2,500,000小时MTBF@50℃为标准,满足55℃/50℃环境下7×24小时稳定不间断运行要求、40℃环境下数据至少3个月断电保持能力以及低于1E-17的UBER不可修复错误率。

06

MTBF的验证

Memblaze自研测试平台Whale系统

在数据可靠性技术领域,Memblaze自研了MemSolid 技术集,以保证企业级数据的一致性和可靠性。通过全路径数据保护、LDPC软判决解码纠错技术、元数据跨Channel备份保护、Die间动态RAID5恢复坏块数据机制,以及重读保护和过温保护等技术,实现了PBlaze可持续的数据一致性保护,保障企业关键业务数据资产始终处于安全可靠的存储环境中。

为确保出厂的SSD产品能够满足MTBF的标准,Memblaze运用十余年在固态硬盘领域的经验积累,以及对用户实际应用的理解,自主研发出MTBF测试平台 —— Whale系统。

它参照JEDEC标准打造,适用于PCIe SSD的研发(DVT)、环境应力(EST,Environmental Stress Test)、数据保持力、生产(老化,ORT,Ongoing Reliability Testing)、RDT等测试。Whale系统预置了最接近客户真实使用场景的测试案例,采用合理的加速因子对RDT阶段产品进行长时间跑测,成为产品量产前的质量保障。

根据Memblaze的出货量和实际故障率统计,PBlaze系列SSD的实际累计产品失效率(CFR,Cumulative Failure Rate)远低于标称的年化故障率。

经过十几年在SSD行业的深耕打磨,Memblaze 已经形成从芯片、软件、硬件、生产、出货等各个环节的严密设计和严格的质量管控体系,能够保证PBlaze系列企业级固态硬盘为客户提供卓越的可靠性,也极大降低了客户系统运行开销(OPEX)和总体拥有成本(TCO),而Memblaze也将继续以匠心精神,不断打磨,不负所期!

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储器
    +关注

    关注

    38

    文章

    7448

    浏览量

    163589
  • SSD
    SSD
    +关注

    关注

    20

    文章

    2851

    浏览量

    117211

原文标题:揭秘:SSD的“可靠性”到底可不可靠

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    半导体封装的可靠性测试及标准

    产品可靠性是指产品在规定的使用条件下和一定时间内,能够正常运行而不发生故障的能力。它是衡量产品质量的重要指标,对提高客户满意度和复购率具有重要影响。金鉴实验室作为一家提供检测、鉴定、认证和研发服务
    的头像 发表于 11-21 14:36 74次阅读
    半导体封装的<b class='flag-5'>可靠性</b>测试及标准

    无铅焊接的可靠性

    电子发烧友网站提供《无铅焊接的可靠性.pdf》资料免费下载
    发表于 10-16 10:50 5次下载

    PCB高可靠性化要求与发展——PCB高可靠性的影响因素(上)

    在电子工业的快速发展中,印刷电路板(PCB)的可靠性始终是设计和制造的核心考量。随着集成电路(IC)的集成度不断提升,PCB不仅需要实现更高的组装密度,还要应对高频信号传输的挑战。这些趋势对PCB
    的头像 发表于 10-11 11:20 257次阅读
    PCB高<b class='flag-5'>可靠性</b>化要求与发展——PCB高<b class='flag-5'>可靠性</b>的影响因素(上)

    可靠性BAW振荡器MTBF和时基故障率计算

    电子发烧友网站提供《高可靠性BAW振荡器MTBF和时基故障率计算.pdf》资料免费下载
    发表于 08-29 11:52 0次下载
    高<b class='flag-5'>可靠性</b>BAW振荡器<b class='flag-5'>MTBF</b>和时基故障率计算

    汽车功能安全与可靠性的关系

    当前,随着汽车领域的飞速发展,汽车也被重新定义。在汽车电子电气系统设计时,离不开对功能安全和可靠性设计的考虑。正确理解两者之间的关系,有助于更好地分析问题和解决问题。什么是汽车可靠性汽车可靠性是指
    的头像 发表于 07-13 08:28 3162次阅读
    汽车功能安全与<b class='flag-5'>可靠性</b>的关系

    请问FATFS文件系统可靠性如何?

    ST官方固件库中使用了FATFS文件系统,想问下,这个文件系统可靠么? 我想了解一下,有哪位朋友真正产品上使用FATFS文件系统,可靠性有什么问题没有。
    发表于 05-16 06:35

    半导体可靠性手册

    电子发烧友网站提供《半导体可靠性手册.pdf》资料免费下载
    发表于 03-04 09:35 22次下载

    基于结构相似可靠性监测结果

    电子发烧友网站提供《基于结构相似可靠性监测结果.pdf》资料免费下载
    发表于 02-05 09:10 0次下载
    基于结构相似<b class='flag-5'>性</b><b class='flag-5'>可靠性</b>监测结果

    如何确保IGBT的产品可靠性

    在当今的半导体市场,公司成功的两个重要因素是产品质量和可靠性。而这两者是相互关联的,可靠性体现为在产品预期寿命内的长期质量表现。任何制造商要想维续经营,必须确保产品达到或超过基本的质量标准和可靠性
    的头像 发表于 01-25 10:21 1557次阅读
    如何确保IGBT的产品<b class='flag-5'>可靠性</b>

    IGBT的可靠性测试方案

    在当今的半导体市场,公司成功的两个重要因素是产品质量和可靠性。而这两者是相互关联的,可靠性体现为在产品预期寿命内的长期质量表现。任何制造商要想维续经营,必须确保产品达到或超过基本的质量标准和可靠性
    的头像 发表于 01-17 09:56 1336次阅读
    IGBT的<b class='flag-5'>可靠性</b>测试方案

    电子产品可靠性评价方法:MTBF可靠性评价介绍

    在推出新产品时,客户经常询问产品的可使用年限以及如何确保用户能够正常使用若干年(如三年以上)。以每天使用10小时为例,产品需要保证三年使用期间内11000小时无故障。特别是在产品设计、验证和推广阶段,产品设计方特别关注产品的可靠性期限问题。
    的头像 发表于 12-27 22:42 1083次阅读
    电子产品<b class='flag-5'>可靠性</b>评价方法:<b class='flag-5'>MTBF</b><b class='flag-5'>可靠性</b>评价介绍

    SD NAND 可靠性验证测试

    SDNAND可靠性验证测试的重要SDNAND可靠性验证测试至关重要。通过检验数据完整、设备寿命、性能稳定性,确保产品符合标准,可提高产品的可信度、提高品牌声誉,减少维修成本,确保
    的头像 发表于 12-14 14:29 653次阅读
    SD NAND <b class='flag-5'>可靠性</b>验证测试

    环境试验与可靠性试验的区别

    环境试验与可靠性试验的区别
    的头像 发表于 12-08 09:31 923次阅读
    环境试验与<b class='flag-5'>可靠性</b>试验的区别

    如何正确使用以确保舌簧继电器的可靠性

    然而,很难为舌簧继电器简单描述可靠性指标。虽然固态设备(例如数字 I/O 缓冲器等集成电路 (IC))的平均故障间隔时间 (MTBF) 表示为预计的故障间隔时间,但舌簧继电器的预期寿命很大程度上取决于它正在切换的能量和它正在传导
    的头像 发表于 12-06 16:38 1002次阅读
    如何正确使用以确保舌簧继电器的<b class='flag-5'>可靠性</b>?

    器件可靠性与温度的关系

    器件可靠性与温度的关系
    的头像 发表于 12-04 16:34 703次阅读
    器件<b class='flag-5'>可靠性</b>与温度的关系