为了在用户级别保持可接受的性能特征,固态驱动器 (SSD) 的存储系统设计人员必须开发复杂的架构和算法来解决 NAND 闪存的固有限制。这些变通办法促成了快速可靠的内存解决方案,这些解决方案已经成功地为存储系统提供了几十年的动力,但时间不长。这就是为什么。
除了与行业向更小和更简单技术发展的趋势背道而驰之外,复杂的变通方法系统还影响了整体性能和成本,同时也造成了主要的系统瓶颈,随着技术节点的不断缩小,预计只会恶化
例如,当缩小到 25nm 以下时,NAND 闪存的耐用性和可靠性会严重下降,以至于现在采用的解决方法几乎无济于事(图 1)。此类性能指标促使整个行业竞相开发更强大的非易失性存储器 (NVM) 解决方案,通过简化存储器的工作方式来满足下一代电子设备的容量、性能、功率和可靠性要求。
那么,是什么阻碍了 NAND 闪存呢?设计约束。固有的设计约束。本文将讨论 NAND 闪存面临的挑战,因为制造商试图缩小规模,特别是在固态驱动器方面,并涵盖将改变 NVM 市场格局的新兴内存技术。
图 1 NAND 耐用性和误码率 (BER) 趋势 — 随着技术节点的减少,NAND 耐用性周期减少并且 BER 增加。耐用性衡量一个存储单元在变得容易出错以至于无法使用之前可以承受多少个周期。BER 测量每个存储器阵列的误码率。
NAND 闪存设计约束
在最近开发的基于闪存的 SSD 中,内存访问由连接到 DRAM 缓冲区和多个原始 NAND 闪存组件的高端内存控制器芯片管理。尽管大多数精通技术的人都知道 NAND 闪存技术的局限性,但对现有解决方法的深入研究可以说明它们如何影响 SSD 和整个系统。这些特征总结在表 1 中。
表 1 NAND 特性和存储系统相关解决方法的总结。
Block Erasure
NAND Flash 技术只能擦除块并且只能编程页面。它无法在不擦除整个块的情况下以任何粒度(字节、页或块)修改完全编程的块,这是一种设计约束,它通过以下解决方法增加了整体复杂性:数据复制、逻辑到物理映射表(L2P )、缓冲和垃圾收集。
数据复制: 对于数据的修改,NAND系统控制器必须首先将数据读入一个临时内存位置(如DRAM),然后在需要时将读取的数据与修改后的数据合并,最后将修改后的数据重写到新的页面(图2)。
L2P 映射:因此,每次执行此过程时,控制器都必须更新和维护 L2P 映射表。L2P 保存原始和修改的数据位置,指导主机访问和执行数据管理过程。存储设备的容量越大,这些表就需要越大。因此,大多数控制器必须使用外部 DRAM 来维护这些较大的表。
垃圾收集:修订过时的页面,也称为陈旧数据,无法擦除或覆盖;相反,它们被另一种称为垃圾收集的控制器启动的解决方法释放。图 2 演示了垃圾收集过程之后的数据修订过程。
图 2垃圾收集过程 - 发生 24 个页面写入以重写 8 个页面,这意味着写入放大 (WA) 等于 3,是理想效率衡量标准的三倍。
对写放大的影响
重要的是要注意此示例中的控制器执行 24 页写入以完成 8 页的预期重写。
写放大 (WA) 通过定义控制器对 NAND 进行的每次来自主机的预期写入的写入次数来衡量控制器的效率。WA 表示理想的效率——每次主机写入一次写入 NAND 设备。大多数系统的 WA 通常在 3 到 4 之间。更高的 WA 直接影响存储设备的可靠性和性能,因为它会增加对设备的写入次数,从而更快地使单元达到其最大周期。这对于较小的技术节点尤其重要,其中存储单元的最大周期降至三千以下(参见图 1)。
在图 2 所示的示例中,可以通过获取块中的总页数 (24) 并将其除以释放的页数 (8) 来定义写入放大。因此,在这种情况下,WA 是 3。
低编程/擦除周期 – 低耐用
性 NAND 闪存的一个固有特性是其单元的低耐用性,由单元在变得不可靠之前可以经历的最大编程/擦除周期定义。尽管如此,NAND 闪存仍能够通过磨损均衡和坏块管理等变通办法来维持系统寿命,这两者都会增加控制器和性能开销以及成本。
磨损均衡: 磨损均衡算法使循环块的数量尽可能均匀,与主机操作系统和文件系统无关。如果没有磨损均衡,一些存储单元会累积高周期,如图 3 所示,从而缩短存储系统的寿命。系统控制器必须支持这一强制性流程以延长产品寿命,这会增加控制器的计算和管理开销。
图 3磨损平衡 — 实施磨损平衡算法以提高和最大化存储系统的耐用性和使用寿命。
坏块管理: 当一个块达到其周期最大值时,数据可能由于“浮栅到浮栅耦合”的电荷泄漏或读/写干扰而损坏。坏块管理执行写入验证以查找故障扇区。如果发现任何错误,坏块管理会映射它们以防止更多数据存储在这些块中——实质上是淘汰这些块。在较小的节点上,当最大周期已经以惊人的速度减少时,块将需要尽快退出,同时消耗宝贵的内存空间来存储跟踪这些块的映射。
来自低保留 NAND 闪存的高误码率 (BER)
有出现错误的趋势,这是通过 BER 来衡量的。为了监控和纠正错误,NAND 闪存使用纠错码 (ECC)。但是在较小的节点上,随着 BER 的不断增加,ECC 的复杂性也必须增加。图 4 说明了 20nm NAND 闪存需要对 1KB 数据进行超过 40 次 ECC 校正,从而以指数方式增加 ECC 算法的复杂性、存储 ECC 字所需的分配空间以及处理相关复杂性所需的控制器开销。
图 4 ECC 和 BER — 20nm 闪存需要对 1KB 数据进行超过 40 次 ECC 校正。
更大的 ECC: 在 20nm NAND 闪存阵列中,用于存储 ECC 奇偶校验位的硅存储器的开销区域使总阵列大小增加了 10%。这种阵列尺寸的增加与下一代存储系统的要求特别相关,因为它表明 NAND 在适应未来在更小技术节点上实现更大内存密度的趋势的能力有限。
更强大的 ECC: 此外,随着 NAND 闪存容量的不断增加,其可靠性不断下降,传统的 ECC,例如常用的 BCH 代码,已经越来越不适合 SSD。为了有效提高 SSD 的可靠性,需要更强大的 ECC,例如 LDPC 码。
然而,与 BCH 处理相比,LDPC 实现需要更强大和更复杂的处理以及更多的晶体管数量,如图 5 所示。虽然使用硬判决的 LDPC 码解码可以实现比传统 BCH 码显着的编码增益,但软判决可以显着提高LDPC码解码纠错强度。从 NAND 读取和处理软信息会导致存储系统的读取响应时间不可预测,这是企业应用程序中不希望出现的副作用。
图 5门数——低密度奇偶校验码需要比传统 BCH 更多的晶体管门数。
页面读取
速度慢 基于 NAND 闪存的存储系统的另一个固有问题是页面读取速度慢 50μs。这种延迟不足以支持企业存储系统和实时嵌入式内存应用程序。诸如此类的系统需要低于 100ns 的读取访问时间。迄今为止,NAND Flash还没有解决办法。NAND存储单元的读取电流非常低,不到300nA,目前的存储架构设计无法提供快速的随机读取操作。
NAND Flash 对存储控制器的影响
由于这些设计复杂性,基于 NAND 的存储控制器不仅体积更大,而且必须使用更多的幕后内存,而牺牲实际的“工作内存”或最终用户记忆。原因如下:
ECC: ECC 块必须大得多,因为在较小的技术节点上 NAND 的 BER 较高。
缓冲: 需要增加缓冲来维护 L2P 表和增加数据复制过程。
DRAM: 外部 DRAM 通常用于维护较大的 L2P 表。
多核中央处理器单元 (CPU): 大多数高性能存储控制器使用多核 CPU 来处理垃圾收集和磨损均衡算法,并跨多个通道管理 L2P 表和 NAND 设备。
增加 CPU 带宽: CPU 的大部分带宽用于定期将表存储在 NAND 中,以防意外电源中断。这些表必须在断电后完全恢复……否则数据将丢失。
压缩引擎: 压缩引擎用于通过减少写入 NAND 的实际主机数据来降低写入放大。
由于这些衰退趋势以及 NAND 闪存所面临的障碍,存储系统制造商已经意识到通过不受闪存技术的可扩展性问题和设计限制的新技术突破来解决存储系统问题的重要性。
经过多年的深入研究和开发,最有希望的候选者之一通常被认为是电阻式 RAM (RRAM)。
表 2当前技术与新兴技术的比较,包括称为 a-Si RRAM 的高性能 RRAM 类型。
RRAM 的工作原理
一个典型的设备由两个金属电极组成,它们夹在一个薄的介电层中,作为离子传输和存储介质(图 6)。
所使用的不同材料之间的确切机制存在显着差异,但所有 RRAM 器件之间的共同联系是电场或热量会导致离子运动和存储介质中的局部结构变化,进而导致器件电阻发生可测量的变化。
图 6交叉开关架构中的典型 RRAM 单元
图 7工作原理 - 在开关介质中,纳米颗粒在顶部和底部电极之间形成传导路径。
尽管有几种类型的 RRAM 技术正在开发中(见边栏),但 RRAM 技术面临的最常见挑战是温度敏感性和 CMOS 不兼容。
一种类型是 a-Si RRAM,它采用常用的非晶膜,例如非晶硅 (a-Si),作为形成灯丝的主体材料。在电阻切换期间产生的导电“细丝”由离散的金属颗粒组成,而不是在其他 RRAM 方法中发现的连续金属塞。这些特性带来了许多性能优势,有望消除 Flash 面临的许多问题。Crossbar, Inc. 是一家总部位于加利福尼亚的公司,已成功开发出使用该技术的演示产品(图 8)。
图 8 Crossbar 的集成器件 RRAM 产品
表3常用RRAM类型比较
a-Si RRAM 技术展示的主要特性 是
什么让 a-Si RRAM 成为如此有前途的候选者?与 NAND Flash 无法跟上技术节点减少的原因相同,a-Si RRAM 可以。它固有的简单、兼容的元素使 a-Si RRAM 成为支持下一代技术的精确设计。
可扩展性: a-Si RRAM 能够缩小到 5nm 节点,将能够跟上未来几十年存储系统的发展。
3D 可堆叠和 MLC 能力: 非常大的 R off /R on比率 (》1000) 可提供较大的传感余量并支持 MLC(多层单元)操作。与基于 NAND 的存储器技术相比,可堆叠存储器与 MLC 存储器单元相结合可提高存储器密度并降低每比特成本。
耐用性: 具有高耐用性(》10E10),a-Si RRAM 的循环特性明显优于 NAND。这大大减少了对磨损均衡的需求,并降低了主机控制器的 ECC 要求,从而提高了整体系统性能和功耗。
保留: Crossbar, Inc. 对 a-Si RRAM 进行并成功通过了 85°C 十年保留测试。预计与 NAND 相比,该技术将具有出色的保留率和 BER。
高速: 因为 a-Si RRAM 单元的单元电流比 NAND 高几个数量级,所以存储器阵列提供更快的页面读取。快速页面读取可实现更快的随机访问,非常适合企业存储内存和实时内存系统。
字节和页面可更改性: 此特性通过消除写入放大和垃圾收集所需的系统开销,大大提高了性能和可靠性。
突破性的基于 RRAM 的存储解决方案
基于 RRAM 的 SSD 控制器不受 NAND Flash 给存储系统带来的诸多负担。
在基于 RRAM 的存储控制器中,CPU 不需要管理 L2P 表或处理相同级别的垃圾收集和磨损均衡。有了这些较低的需求,基于 RRAM 的存储控制器将得到简化,并且成本将低于基于 NAND 的存储控制器。
下表 4 列出了比较 NAND 和 RRAM 技术的不同单元级和产品级特性。这些特性表明,基于 a-Si RRAM 的存储系统将在需要高性能、功率或耐用性以实现高容量、高速和低成本的新兴应用中提供卓越的性能和可靠性。
表 4在单元和产品级别上基于 NAND 和基于 RRAM 的性能概览比较。
关于设计和 CMOS 兼容性的一句话
使 a-Si RRAM 从其他新兴技术中脱颖而出的原因在于它非常易于集成。与许多新技术中使用的材料不同,a-Si RRAM 中使用的非晶硅薄膜具有良好的特性和坚固性,并且已经在 CMOS 晶圆厂中使用。例如,Crossbar, Inc. 开发的内存可以是一个独立的阵列,也可以嵌入到 CMOS 顶部的后端中,形成多个 3D 堆叠层。
目前,RRAM 可以在后端 (BEOL) 工艺中制造,因为大多数 RRAM 单元的操作不依赖于晶体管。在典型的工艺基础中,晶圆制造(包括地址和传感电路)将在 CMOS 代工厂中制造,然后在同一工厂或单独的 BEOL 存储器工厂中制造 RRAM 存储器。Crossbar Inc. 进行了多项测试,以确保他们的产品与 CMOS 兼容,并且已经使用不同的工具集在多种集成方案上展示了他们的内存阵列。
集成: 集成 a-Si RRAM 涉及图案化和减材蚀刻工艺。该工艺流程具有重复的块以实现存储元件的堆叠。a-Si RRAM 集成使用各种晶圆厂常用的标准工艺步骤和工具。
在过去的几十年里,NAND 对固态存储设备中的系统控制器提出了苛刻的任务。这些管理任务增加了系统复杂性、功耗、晶体管门数和整体存储系统开发成本。
a-Si RRAM 技术的突破性特性,例如 Crossbar Memory,为存储设备提供了高性能规格和灵活的功能,例如无需擦除块即可重写到存储位置的能力。简化的设备可简化存储系统并显着降低系统控制器开销,从而为后代创造新兴技术提供支持。
作者Hagop Nazarian和Sylvain Dubois
-
CMOS
+关注
关注
58文章
5680浏览量
235140 -
NAND
+关注
关注
16文章
1677浏览量
136019 -
RRAM
+关注
关注
0文章
28浏览量
21333
发布评论请先 登录
相关推荐
评论