0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何权衡可靠性和SSD使用寿命?

SSDFans 来源:SSDFans 2023-08-17 09:13 次阅读

01背景及动机

3D闪存架构中的制程差异增加了坏块管理的难度。由于不同块之间的错误特征不同,现有的基于P/E次数的坏块管理策略下,很难确定合适的P/E阈值。若P/E设置激进,则增加数据丢失的可能性;若P/E设置保守,则无法充分利用强可靠性闪存块的寿命,从而降低了SSD的整体使用寿命。本文探讨的坏块管理,本质是如何权衡可靠性和SSD使用寿命?

一个理想的坏块管理策略是在一个块失败之前立即退役,关键是能够准确地预测闪存块何时接近其生命周期的末端。

在本文中,利用闪存块之间的空间相关性划分集群,以集群为粒度进行坏块管理。如果在块级存在空间相关性,那么一个块的失效是其相邻块近期失效的有力指标。本文在海力士3D TLC闪存上进行可靠性实验,分析相邻闪存块之间的错误特征,并且表明存在集群相似性,即物理接近的闪存块具有相似的错误特征。

02集群相似性

实验设置:从10块海力士TLC闪存选取40个cluster,每个cluster的选取采用同个plane中的连续10个块。对这些块执行编程随机数据,然后执行擦除,循环直到报废。擦除之前数据的dwell time为10s。收集对应P/E下的比特错误率。

结论:1)对于不同集群中的块,在P/E周期中的比特错误率趋势可能非常不同;2)对于同一集群中的块,比特错误率趋势更加相似,即存在集群相似性。

118ae2d4-3c94-11ee-ac96-dac502259ad0.png

03基于集群的坏块管理

基于集群相似性,提出了一种基于集群的坏块管理策略。集群中的闪存块可靠性及在P/E影响下错误率趋势具有相似性。也就是说,在坏块管理时,当其中一个闪存块成为坏块时,整个集群中的闪存块全部标记为坏块。通过这种集群相似性特征来管理坏块,可以及时标记坏块,从而在确保可靠性的前提下,尽可能提升闪存寿命。

提出的基于集群的坏块管理策略有两个关键设计问题。

1) 集群大小的选择。集群大小决定了SSD寿命和可靠性之间的权衡。更大的集群大小会导致更低的故障率(更加保守,并不能完全耗尽每一个闪存块的寿命),但会以更短的SSD寿命为代价。如何选择集群相似度强的集群大小,在不牺牲SSD寿命的情况下保证可靠性,对于基于集群的坏块管理机制的有效性至关重要。为此,本文提出了一个度量标准来量化集群的相似性,并推导出闪存块故障率和集群大小之间的相关性。因此,给定集群大小的可靠性和SSD寿命之间的权衡可以被定量地评估。

2) 集群退役时对I/O性能的影响。集群退役的时候,该集群的所有有效数据需要拷贝到其他集群。由于集群退役而导致的读写突发可能会干扰用户的I/O请求。为了解决这一问题,本文提出了一种关键块优先调度策略,当集群中某个块标记为坏块时,该块的数据迁移优先级高于用户请求。集群中其余块在之后SSD空闲时,执行关联的读写操作。因此,可以尽量减少集群退役时的性能影响。

04实验测试

实验一:对比基于集群的管理方法和基于块的管理方法

权衡Block usage和Block failure rate。其中,‍Block‍ usage指的是被定义为在SSD不再可用之前所承受的平均P/E。Block failure rate定义为发生块故障的块的比例。

当P/E次数增加时,块的使用情况和块的故障率都会上升。基于集群的块管理方法中,可以实现23000P/E次数,并实现block failure rate为0.01。对于基于块的管理方法,当确保块失败率为0.01时,P/E仅为11000。如果要实现23000P/E,块失败率为0.09。这表明,所提出的基于集群相似性的方法在块使用和块故障率之间实现了更好的权衡。

11f09cb4-3c94-11ee-ac96-dac502259ad0.png

为了进行更详细的分析,从块管理策略中选择以下设置,以查看块退休率和块故障率如何随时间变化。

1210e730-3c94-11ee-ac96-dac502259ad0.png

不同的集群大小如何影响基于集群的管理策略?图8展示了块退休率和块故障率随时间变化趋势。评估了五种不同的集群大小,包括1、2、5、10,以及clusterAll表示同一芯片内的所有块视为单个集群。注意,cluster1相当于BlockNoLimit,clusterALL代表集群很大。

当集群大小增加时,寿命降低。然而,对于集群大小为1、2、5、10,差异不显著。这是因为当集群大小等于10时,集群相似性仍然很强。

随着集群大小的增加,块故障率减小。当集群大小等于10时,块故障率已经小于0.01。因此,没有必要选择一个更大的集群大小。

123cd9bc-3c94-11ee-ac96-dac502259ad0.png

实验二:测试数据重新分配的性能情况

比较了基于集群管理策略与基于块管理策略的I/O性能。该实验表明,通过关键块优先分配调度可以减轻基于集群管理策略的I/O影响。下图表示块退役前后的I/O延迟。x轴表示分析时间和块退役之间的时间差,从块退役前50秒到块退役后50秒。y轴表示每1000个请求的平均I/O延迟。可以看到,基于集群的方法会引入延迟尖峰。而关键块优先分配解决了此问题。

128300fe-3c94-11ee-ac96-dac502259ad0.png

05总结

本文发现物理接近的闪存块间存在相似的误差特征(集群相似性),提出一种基于集群的坏块管理方式,确保闪存可靠性的前提下,提升闪存寿命。考虑到基于集群的管理下,集群退役引起的I/O性能问题,本文还提供了一种针对坏块重新分配的关键块优先调度方法。实验表明所提出的方法可以延长闪存寿命2倍,而不会有任何I/O性能下降。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SSD
    SSD
    +关注

    关注

    21

    文章

    2860

    浏览量

    117391
  • TLC
    TLC
    +关注

    关注

    0

    文章

    136

    浏览量

    51516
  • 延迟器
    +关注

    关注

    0

    文章

    5

    浏览量

    6691

原文标题:如何解决闪存制程差异下的坏块管理问题?

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    深度解读企业级SSD可靠性意义

    本文主要简单介绍一下这些SSD可靠性指标的概念及其意义,方便大家更深入的了解和认识SSD可靠性
    发表于 08-18 11:16 6836次阅读
    深度解读企业级<b class='flag-5'>SSD</b>的<b class='flag-5'>可靠性</b>意义

    #硬声创作季 #可靠性 电子封装可靠性评价中的实验力学方法-3

    可靠性设计可靠性元器件可靠性
    水管工
    发布于 :2022年09月29日 22:10:30

    #硬声创作季 #可靠性 电子封装可靠性评价中的实验力学方法-5

    可靠性设计可靠性元器件可靠性
    水管工
    发布于 :2022年09月29日 22:11:21

    #硬声创作季 #可靠性 电子封装可靠性评价中的实验力学方法-6

    可靠性设计可靠性元器件可靠性
    水管工
    发布于 :2022年09月29日 22:11:46

    可靠性是什么?

    可靠性是什么?充实一下这方面的知识  产品、系统在规定的条件下,规定的时间内,完成规定功能的能力称为可靠性。  这里的产品可以泛指任何系统、设备和元器件。产品可靠性定义的要素是三个“规定”:“规定
    发表于 08-04 11:04

    LED加速寿命可靠性试验

    1、概述  随着近年来LED光效的不断提升,LED的寿命可靠性越来越受到业界的重视,它是LED产品最重要的性能之一。寿命可靠性的终极表现,然而LED的理论
    发表于 08-04 17:42

    可靠性设计分析系统

    (故障树分析)、容差分析(含最坏情况仿真分析,SPICE模型)、降额设计分析(兼容ECSS标准和GJB35)、可靠性分配、疲劳寿命分析(具备应力寿命分析、拉伸寿命分析、焊接结构疲劳分析
    发表于 12-08 10:47

    采用nvSRAM确保企业级SSD故障时电源可靠性

    能够显着提高能量密度的电容,并且可作为电池备份应用中可靠的电池替代产品。  但是,超级电容器存在可靠性问题,已知其在长期可靠性方面存在不足,这一点跟铝电解电容器比较相像。超级电容器的使用寿命
    发表于 09-26 09:44

    六类可靠性试验的异同,终于搞懂了!

    可靠性验收试验、寿命试验。可靠性六大实验的分工与职责不同,各有所能,为人们服务的目的、对象、适用时机都不同(见下表)。名字职责目的适用对象适用时机环境应力筛选ESS发现和排除不良元器件、制造工艺
    发表于 07-23 18:29

    什么是高可靠性

    ”的发展趋势,对可靠性的要求会越来越高。高可靠性PCB可以发挥稳健的载体作用,实现PCBA的长期、稳定运作,从而保证终端产品的安全、稳定性和使用寿命,企业进而得以增强竞争力、提升信誉
    发表于 07-03 11:18

    C&K高可靠性键盘开关 面向需要长使用寿命的应用

    智能卡互联器件和高可靠性连接器制造商C&K Components新型高可靠性工效学键盘开关,面向需要长使用寿命的应用,包括游戏、工业、专业和工作站键盘。KBD系列开关的使用寿命很长,达
    发表于 04-13 11:03 1278次阅读

    寿命试验的可靠性测试详解

    本文首先介绍了可靠性测试的概念与分类,其次介绍了寿命测试属于可靠性测试及其作用,最后介绍了有效的寿命测试项目及寿命试验相关标准。
    的头像 发表于 05-14 09:40 1.7w次阅读
    <b class='flag-5'>寿命</b>试验的<b class='flag-5'>可靠性</b>测试详解

    西数推出企业级TLC SSD 寿命可靠性都是顶级的存在

    西部数据今天发布了新款企业级SSD UltraStar DCSS540,虽然使用的是TLC NAND闪存,但是寿命可靠性都是顶级的存在,被外媒赞为“坦克级”。
    发表于 11-28 16:57 1779次阅读

    SSD可靠性可靠性量化指标MTBF

    企业环境复杂多变,快速增长的业务需求使得企业在数据存储规模、存储性能和可靠性等多方面提出了越来越高的要求。SSD固态硬盘凭借极高的读写性能、极低延迟成为越来越多企业的首选解决方案,并在数据库、虚拟化
    的头像 发表于 10-11 09:50 9894次阅读
    <b class='flag-5'>SSD</b>的<b class='flag-5'>可靠性</b><b class='flag-5'>可靠性</b>量化指标MTBF

    可靠性证明测试:高度加速寿命测试

    寿命测试是一种重要的可靠性测试方法,用于评估组件、子系统或系统在预期或指定的使用寿命条件下的性能和可靠性寿命测试旨在模拟实际应用环境中物品
    的头像 发表于 08-01 16:31 1013次阅读