数据完整性是数据存储系统中关键的元素之一,对于企业而言,不一致的数据可能导致错误的业务决策,因此保障数据的完整性与一致性至关重要。
一、静默数据错误
在数据存储系统中,数据从主机端生成直至写入SSD NAND中,会经过多个部件、多种传输通道和复杂的软件处理过程,其中任意一个环节发生错误都可能会导致数据错误。但是这种错误一般无法被立即检测出来,而是后续通过应用在访问数据过程中才会发现,这种情况被称为静默数据破坏(Silent Data Corruption)。
静默数据错误问题是存在存储系统中最难解决的数据一致性问题之一。在数据通路传输过程中,每百万亿(10^13)比特中就会有概率出现bit错误,而链路传输大多采用CRC进行检错,CRC存在碰撞概率导致bit错误无法发现;在SSD内部数据传递过程中,大部分路径会经过SRAM,SRAM存在bit翻转概率,控制器一般采用ECC+CRC对路径保护,但仍然无法避免bit静默错误(极低概率)。
对于数据中心而言,维护数据安全至关重要。发生静默错误对应用层有很高的风险,如果应用系统可靠性设计不完善,一旦出现静默错误,会存在数据损坏且不可恢复的可能,因此支持DIF/DIX特性端到端的数据链路保护对SSD部件及系统层都十分重要。
二、NVMe SSD端到端保护
为确保主机与闪存之间数据的完整性,NVMe SSD提供了一个端到端的功能,即主机写入闪存的数据与最初主机写的数据必须一致,以及主机读到的数据与最初从闪存上读上来的数据也一致。
在OCP Clould Spec对端到端的需求定义中,要求每一段传输路径都应有纠/检错算法,降低数据传输过程中每一个环节出错的可能,规避静默错误的发生。如PCIe 每个TLP会通过ECRC(End-to-end CRC)进行校验、RAM有ECC保护、Flash接口有 RAID 保护,Scrambler 增加扰码以及CRC编解码保护和LDPC重读保护。
NVMe则是在控制器内添加保护信息(PI)来检验数据一致性,这部分数据一般存放在DDR中(DDR有ECC保护)。具体则是给用户逻辑块(Logical Block)通过增加额外的8字节保护信息(PI),或者由主机软件添加≥8字节的元数据(Metadata),支持DIF/DIX模式,使得控制器和/或主机软件可以校验用户数据逻辑块的数据完整性和一致性。
三、什么是PI?
在端到端数据保护中,PI的使用尤为重要。PI全称Protection Information,即保护信息,是元数据的一种。
NVMe协议里定义SSD控制器可以支持给每个逻辑块(也就是用户数据)增加额外的元数据,以及主机如何使用元数据区域自定义(如分布式文件系统的元数据),元数据最常见的用途之一是传递PI端到端保护信息(end-to-end protection information)。
PI相当于逻辑块数据的保镖,有DIF和DIX两种数据保护机制,两者主要区别是 PI 信息的位置不同。具体选择哪种格式,要根据应用场景的具体需求。
DIF( Data Integrity Field ):保证HBA 、阵列和硬盘的数据完整性。
DIF实现的PI
DIX( Data Integrity Extensions ): 保证应用、HBA卡的数据完整性。
DIX实现的PI
·PI信息的处理
Protection Information Field(PRINFO) 包括PRACT(Protection Information Action)和PRCHK(Protection Information Check) 字段。PRACT指明了PI信息生成的机制,PRCHK指明了controller收到包时检查的PI信息。
PRACT
=1时,
MD = 8B, SSD controller生成新的PI替代host传入的PI,并将其写入NAND;
MD>8B,host生成的PI直接传入SSD,替换MD的前8或者后8字节(这里还需要注意kernel是否支持)。
=0时, controller获取上层应用下发的PI信息,将检查PI信息并写入NAND。
PRCHK
Bit2=1,SSD在收到packet时,检查CRC;
Bit1=1,SSD在收到packet时,检查App Tag;
Bit0=1,SSD在收到packet时,检查Reference Tag。
四、忆联SSD端到端保护方案
作为一家领先的存储厂商,忆联长期以保障用户数据安全作为产品的核心基础,旗下企业级固态硬盘(ESSD)与数据中心级固态硬盘(DSSD)均支持DIF/DIX特性,以此提升硬盘的全链路数据保护能力。
·延伸至主机系统、应用的端到端保护
忆联SSD支持多种DIF配置,满足512+8、4K+8、4K+64字节多种情况的数据和元数据(含PI)的存储要求,支持从应用到Flash的端到端数据保护,并能有效杜绝data replacement故障发生的可能。
·端到端冗余校验,提升数据可靠
忆联SSD通过保护整个传输路径中的数据来保障数据的完整性。在DDR内存上,采用ECC和CRC来防止DDR内存异常导致的数据错误和篡改;在NAND flash上,采用LDPC和CRC来防止由于NAND flash上的异常而导致的数据丢失;在DIE内,采用 XOR 算法来防止由于 DIE 或随机故障造成的数据丢失。
·应用级数据冗余校验 ,且业务性能不受影响
忆联SSD还通过支持DIF、DIX两种传输方式,不仅在盘内提供DPP数据路径保护,更能够与系统配合,实现端到端的保护,确保从系统到盘片整个通路的数据安全,从而为多种极端场景下系统的正常运维提供双重保护。
数据安全一直是信息技术中的一个重要问题。伴随着数字化转型进程的不断深入,风险也随之而来,企业数据的存储安全问题也越来越突出。忆联凭借在存储领域多年的积累,为用户提供极致体验的同时,更能为企业数据存储做好坚实的保障。
审核编辑:汤梓红
-
控制器
+关注
关注
112文章
16308浏览量
177783 -
SSD
+关注
关注
21文章
2856浏览量
117350 -
数据存储
+关注
关注
5文章
970浏览量
50890 -
存储系统
+关注
关注
2文章
409浏览量
40849 -
nvme
+关注
关注
0文章
219浏览量
22618
原文标题:忆联SSD端到端数据保护技术——企业关键业务的“守护者”
文章出处:【微信号:UnionMemory忆联,微信公众号:UnionMemory忆联】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论