0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

服务器数据恢复—从数据恢复的角度讨论RAID磁盘阵列的存储安全问题

Frombyte 来源:Frombyte 作者:Frombyte 2024-09-07 10:21 次阅读

出于尽可能避免数据灾难的设计初衷,RAID解决了3个问题:容量问题、IO性能问题、存储安全(冗余)问题。从数据恢复的角度讨论RAID的存储安全问题。

常见的起到存储安全作用的RAID方案有RAID1、RAID5及其变形。基本设计思路是相似的:当部分数据异常时,可通过特定算法将数据还原出来。以RAID5为例:如果要记录两个数字,可以通过再多记录这两个数字的和来达到记录冗余性的目的。例如记录3和5,同时再记录这2个数字的和8。在不记得到底是几和5的情况下,只需要用8-5就可以算出这个丢失的数字了,其余情况依此类推。

在RAID里同样是以某种算法来达到保全数据的目的,当一组RAID5阵列正常工作时,所有写入RAID里的数据都正确地写到特定磁盘地址,同时再生成一个特定的计算值(通常称为校验和)。当其中一块盘出现故障时,存储在这块故障盘上的原有数据就要通过其他硬盘的数据恢复出来。由控制器(硬RAID为RAID卡,软RAID实际上是个驱动)负责这个工作。为了不宕机,控制器也会保证存储的正常化,不会让操作系统认为硬盘系统出了问题。

RAID在存储安全上还有一些不太容易避免的漏洞。虽然由于这些漏洞出现问题的可能性不大,但是存储在RAID上的数据价值无法评估。

RAID常见故障:

1、处于降级状态时,未及时rebuild。RAID是通过空余的部分存储空间来提供算法上的数据安全冗余的。当某些盘出现故障下线后,RAID便不能再提供这种存储冗余。如果不及时更换盘&REBUILD,如果其他硬盘再出现故障,RAID便无法正常工作了。

2、RAID控制器故障:控制器是连接物理硬盘与操作系统之间的纽带。硬盘容量、硬盘数量,RAID级别、逻辑磁盘分割方式、块大小、校验方式等组合成不同的RAID信息(RAID元数据),这些RAID信息有时候会写在阵列卡上,有时候会写在硬盘上,还有的时候两者皆有。如果RAID控制器出现故障,即使更换新的控制器一般也不能将RAID信息还原。中低端的RAID控制器出于成本考虑,漏洞更多。

3、固件算法缺陷:RAID的创建、重建、降级、保护等功能的实现需要非常复杂的算法。尽管厂商不会承认生产的RAID控制器的BUG,但算法漏洞在任何一款控制器上都无法避免。固件算法BUG可能会导致很多无法解释的故障。

4、IO通道受阻导致RAID掉盘:RAID控制器在设计时为了数据的绝对安全,会尽可能避免写数据到不稳定的存储介质上。这样,当控制器与物理硬盘进行IO时,如果时间超过某个阈值,或不满足校验关系,控制器便会认为对应的存储设备已不具备持续工作的能力,会让其强制下线,通知管理员尽快解决问题。这种设计的初衷很好,但对于像物理链接线路松动、硬盘完好情况下机械工作时反应超时等随机因素,RAID控制器无法分辨设备是否具备和之前一样的稳定状态,通常会让其强制下线,便会导致RAID卷出现故障,此类故障的发生概率极大且无法避免。

5、RAID控制器的稳定性:RAID控制器在ONLINE状态下(无离线盘)工作是最稳定的。当部分硬盘损坏(可能是逻辑故障)后离线,RAID控制器便会工作在一个“亚健康”的状态。这也是好多中低端的RAID控制器在一块盘离线后读写性能急速下降的原因。控制器负载太重便会极大地增加数据吞吐时出现IO滞留的可能性,从而导致RAID离线。一个不具备高速硬件处理芯片,不具备高速缓冲的控制器发生这类故障的概率要高得多。

6、坏硬盘:很多人认为只要硬盘一坏,RAID就会让这块坏硬盘脱机,更换新硬盘后REBUILD就恢复如初了。实际情况是一组RAID在工作很长时间以后也很少会读到物理硬盘的所有磁盘空间,同一时间更是不可能。部分情况下会在没有读到的区域或者以前读取良好的区域出现坏道。这类坏道因为没有读写过,所以控制器是没有识别出来的。当一块物理硬盘离线后,通常技术人员及官方资料都会建议尽快做REBUILD。如果其他硬盘存在这类坏道,当REBUILD(对全盘做全面同步)过程中读到那些坏道,这时候REBUILD没完成,新盘还无法上线,旧盘里又发现了坏道,然后又有硬盘下线,导致RAID出现故障,无法自行恢复数据。

7、人为误操作:误拔RAID硬盘、没准备备件盘、不及时换盘、给RAID除尘时忘了原来的顺序、不小心删除了原RAID配置等。

8、其他原因。

上述的这些故障原因除人为因素外,大多数很难直接避免,只能结合备份,构建整体存储安全方案来解决。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    12

    文章

    8680

    浏览量

    84504
  • RAID
    +关注

    关注

    0

    文章

    263

    浏览量

    34979
  • 数据恢复
    +关注

    关注

    10

    文章

    504

    浏览量

    17181
收藏 人收藏

    评论

    相关推荐

    服务器数据恢复】nas存储服务器磁盘阵列崩溃的数据恢复案例

    服务器数据恢复环境: nas存储服务器,14块硬盘组建raid6
    的头像 发表于 11-30 10:56 1218次阅读

    服务器数据恢复服务器误删除卷的raid5数据恢复案例

    经过检测发现服务器不存在物理故障,可以raid5磁盘阵列层面进行数据恢复
    的头像 发表于 01-11 14:34 1031次阅读
    【<b class='flag-5'>服务器</b><b class='flag-5'>数据</b><b class='flag-5'>恢复</b>】<b class='flag-5'>服务器</b>误删除卷的<b class='flag-5'>raid</b>5<b class='flag-5'>数据</b><b class='flag-5'>恢复</b>案例

    raid5磁盘阵列数据恢复案例

    某公司一台服务器组建了一组raid5磁盘阵列,作为共享存储池使用。该服务器存储
    的头像 发表于 02-21 13:30 842次阅读

    服务器数据恢复存储设备中raid5磁盘阵列数据恢复案例

    某企业一台存储设备,一组由16块硬盘组建的raid5磁盘阵列。管理员在巡检过程中发现该存储的卷无法挂载,经过检查发现存储设备的
    的头像 发表于 04-04 14:07 733次阅读

    服务器数据恢复存储raid6磁盘阵列数据恢复案例

    某品牌存储,12块SAS硬盘组建RAID6磁盘阵列,划分一个卷,分配给几台Vmware ESXI主机做共享存储
    的头像 发表于 05-23 15:44 871次阅读
    【<b class='flag-5'>服务器</b><b class='flag-5'>数据</b><b class='flag-5'>恢复</b>】<b class='flag-5'>存储</b>中<b class='flag-5'>raid</b>6<b class='flag-5'>磁盘阵列</b><b class='flag-5'>数据</b><b class='flag-5'>恢复</b>案例

    IBM服务器RAID5阵列数据恢复案例

    服务器数据恢复环境: IBM某型号服务器服务器中5块SAS磁盘组建了一组
    的头像 发表于 07-05 16:03 593次阅读

    IBM服务器RAID5磁盘阵列数据恢复案例

    服务器数据恢复环境: 一台IBM某型号服务器,4块SAS磁盘组建了一组RAID5
    的头像 发表于 07-07 14:45 619次阅读

    服务器数据恢复-服务器RAID6三块磁盘离线的数据恢复案例

    服务器中有一组由6块磁盘组建的RAID6磁盘阵列服务器作为WEB服务器使用,上面运行了MYSQ
    的头像 发表于 08-25 14:18 468次阅读
    <b class='flag-5'>服务器</b><b class='flag-5'>数据</b><b class='flag-5'>恢复</b>-<b class='flag-5'>服务器</b><b class='flag-5'>RAID</b>6三块<b class='flag-5'>磁盘</b>离线的<b class='flag-5'>数据</b><b class='flag-5'>恢复</b>案例

    服务器数据恢复-2盘raid0磁盘阵列数据恢复案例

    某公司一台服务器,共2块磁盘组建了一组raid0磁盘阵列RAID0阵列中有1块硬盘出现故障离线
    的头像 发表于 10-23 15:45 497次阅读

    服务器数据恢复—EMC存储raid5故障的数据恢复案例

    服务器存储数据恢复环境: EMC某型号存储,8块组建一组raid5
    的头像 发表于 11-30 11:59 467次阅读

    服务器数据恢复raid5崩溃导致同友存储无法启动的数据恢复案例

    服务器数据恢复环境: 一台同友存储存储上有一组raid5
    的头像 发表于 01-02 13:28 254次阅读
    【<b class='flag-5'>服务器</b><b class='flag-5'>数据</b><b class='flag-5'>恢复</b>】<b class='flag-5'>raid</b>5崩溃导致同友<b class='flag-5'>存储</b>无法启动的<b class='flag-5'>数据</b><b class='flag-5'>恢复</b>案例

    服务器数据恢复—X3650服务器raid5磁盘阵列数据恢复案例

    内的数据丢失。 数据恢复工程师在现场对故障服务器raid5阵列中的
    的头像 发表于 06-04 11:08 334次阅读

    服务器数据恢复磁盘不稳定被踢导致raid5阵列崩溃的数据恢复案例

    服务器存储数据恢复环境: 某品牌MSA2000服务器存储中有一组由8块SAS硬盘组建的
    的头像 发表于 06-12 11:30 204次阅读
    <b class='flag-5'>服务器</b><b class='flag-5'>数据</b><b class='flag-5'>恢复</b>—<b class='flag-5'>磁盘</b>不稳定被踢导致<b class='flag-5'>raid</b>5<b class='flag-5'>阵列</b>崩溃的<b class='flag-5'>数据</b><b class='flag-5'>恢复</b>案例

    服务器数据恢复—EMC存储中双循环riad5阵列数据恢复案例

    服务器存储数据恢复环境: EMC CX4-480存储,该存储中有10块硬盘,其中有3块
    的头像 发表于 06-18 11:10 307次阅读

    服务器数据恢复—EMC存储raid5阵列多块硬盘离线的数据恢复案例

    服务器存储数据恢复环境: 一台EMC存储中有一组raid5
    的头像 发表于 07-09 11:58 133次阅读