0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能运维第一步:HDD磁盘故障预测

浪潮存储 来源:未知 2023-10-27 19:55 次阅读

当今数字化时代,信息技术扮演着企业和组织运营的关键角色。然而,随着IT环境不断复杂化和数据量激增,传统的运维管理方法已经无法满足日益增长的需求。为应对这一挑战,智能运维(Artificial intelligence for IT operations,简称AIOPS)应运而生。

AIOPS融合了人工智能、自动化和数据分析等技术,旨在优化IT运维的效率、可靠性和可用性。在AIOPS的范畴内,硬盘驱动器(HDD)故障预测是其中一个至关重要的组成部分。在数字化时代,数据被誉为"新时代的石油",HDD作为数据存储的基础设备,在数据中心、服务器和个人计算机中广泛使用,扮演着关键角色。然而其敏感、精确、结构复杂的特性往往也使得某些故障难以避免。因此,通过AIOPS来实现HDD故障预测,避免数据丢失、业务中断、维护成本上升,从而保障数据可用性和系统稳定性,逐渐成为保障业务正常运转的重要手段。

为什么硬盘会出现故障?

wKgZomU7pkOAJU_PAAAGvXnJwAk578.png

由旋转磁盘和漂浮在其上方的读/写头组合而成的硬盘驱动器尽管结构复杂,但它们已经证明了自己作为数据载体的价值。然而,引起机械硬盘发生故障的原因有多种:首先,如高温、湿度、机械磨损、读写操作频率等,这些因素之间的相互作用使得故障模式变得更为复杂,大大提高了预测难度。其次,温度、振动、读写速度、错误率等多样性HDD性能数据在规模庞大的数据存储环境中对进行有效利用和分析,无疑也是一个挑战。

传统的故障预测方法主要基于固定的阈值和经验判断,存在明显的限制:传统方法只能在故障已经发生或接近发生时才采取行动,无法预测性地防止故障;基于阈值的警报往往容易误报,因为某些参数可能因正常使用而产生波动;传统方法通常需要大量的人工干预,增加管理成本。相比之下,智能算法的引入为HDD故障预测带来诸多可能性,利用大数据和机器学习技术,其强大的学习和自适应能力可以更好地利用和分析这些多样化的数据,从海量的硬盘驱动器数据中提取有价值的信息,进而更加准确地进行故障预测。

HDD故障预测解决方案

wKgZomU7pkOAJU_PAAAGvXnJwAk578.png

方案主要包含两部分:模型离线训练以及实时监测和警报。首先通过离线训练得到可用的预测模型,然后将模型运用到实际生产环境中进行实时故障预测。

Ø 模型离线训练

模型离线训练整体流程如图1所示。模型所需数据为S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology,自我监测、分析及报告技术,即一种自动的硬盘状态检测与预警系统和规范)数据,主要指硬盘运行过程中的指标值。在数据预处理阶段,由于并非所有原始属性都是机器学习模型的可用特征,因此需要先去除冗余和不相关的特征并选择与预测结果相关的特征,然后对于空缺的数据进行向前补全。同时,故障盘最后两周的样本均为潜在故障样本(预示着该硬盘可能随时会发生故障),即需要将最后两周的样本设置为故障盘样本标签。最后,二维数据类图构建则是将时间作为第二维度(SMART属性作为第一维度),使用滑动窗口的方式,构建出二维数据图,如图2所示。经过此阶段处理能够保持SMART数据的时间局部性,有利于磁盘故障预测。最后将得到的数据进行数据划分,分别组成训练集、验证集和测试集用于模型训练和评估。

wKgZomU7pkOAG_HlAAEAIgtwnGA841.png

图1 模型离线训练

wKgZomU7pkOAF8zHAAAyiXXqqb0455.png

图2 滑动窗口构建数据类图

在故障预测模型训练过程中(图3中虚线框所示),只使用健康硬盘的样本。编码器GE用来对原始输入图片x进行编码,得到图片特征z,解码器GD对编码后的图片特征z`进行解码。得到重构图片x`。为检测异常,添加一个编码器E来学习重构样本x`的特征表示z`。对于原始样本x和生成图片x`,交由判别网络D来判别真伪,这样,在判别网络进行更新时,判别网络的判别能力会得到提升。

wKgZomU7pkOAMA8bAADDnIL74D4946.png

图3 故障预测模型

在模型预测过程中(图3中实线框所示),无判别网络,只利用生成网络。将硬盘当前的二维SMART数据类图作为输入,经过模型中生成网络的处理,得到输入类图的特征表示z和生成网络的特征表示z`。其预测原理是,利用z和z`之间的差异来衡量样本生成的有效性,且两者差异越小,样本生成越好。因此,两者的L2范式 A(X)=||z-z`||2用于衡量样本的异常度,即当值大于某一阈值时,表示样本异常,即该硬盘将发生故障其背后原因是,在训练过程中只利用和学习健康硬盘样本的分布,则使得健康硬盘样本的差异更小,即zz`的差距更小。在预测时,如果输入样本来自故障硬盘,则会因为故障样本偏离健康样本的分布,导致zz`差异更显著。

模型每次迭代训练使用AUC(Area Under Curve,接受者操作特征曲线下面积)区域预测效果最好的模型参数进行保存并供后续预测使用。模型训练完成后使用准确率对模型的性能进行评估,经评估模型的预测准确性可达99%。

Ø 实时监测和警报

当模型训练完成后将HDD故障预测引擎顺利整合到多设备管理软件InView端,允许实时采集硬盘SMART数据,并利用模型进行在线推理预测未来两周内硬盘发生故障可能性(如图4所示)。当系统检测到硬盘出现故障风险立即触发告警机制,及时通知用户进行换盘处理。此机制不仅能够确保数据的安全可靠性,还提高了硬盘驱动器的整体性能和维护效率,强力保障了业务的连续性和数据管理的稳定性。

wKgZomU7pkOAKqtTAAI_iEdZrYQ599.png

图4 InView端HDD故障预测

通过AIOPS技术,浪潮信息HDD磁盘故障预测解决方案不仅实现了业界领先的预测准确性,还成功整合预测引擎和实时监测系统,能够在故障风险出现时采取及时的措施,保护数据的安全和业务的连续性。

未来,将继续优化和拓展HDD磁盘故障预测能力:

  • 除SMART数据外拓展更多类型数据,全方位多角度评估硬盘健康状况;

  • 通过机器学习和深度学习技术的发展为识别和预测复杂的故障模式提供更多工具;

  • 进一步改进实时监测和警报系统,提高智能化和自适应性,使系统学习并适应不断变化的硬盘性能和环境条件;

  • 研究自动化响应机制,实现更快速的故障处理,进一步降低业务中断的风险。

面对生成式AI掀起的变革浪潮,5G、AI大语言模型、自动驾驶等各类新技术融合,大容量HDD依然是企业级数据中心、云服务提供商以及超大规模云业务领域的首选,浪潮信息将继续秉承“极致存储,智慧有数”的理念,基于自身技术优势不断创新,持续推动该领域的技术发展,以高效可靠的一体式解决方案守护企业数据安全,助力千行百业数字化转型。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4136

    浏览量

    85335
  • 浪潮
    +关注

    关注

    1

    文章

    443

    浏览量

    23722

原文标题:智能运维第一步:HDD磁盘故障预测

文章出处:【微信号:inspurstorage,微信公众号:浪潮存储】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    郭光灿院士:迈出中国量子计算“软实力”第一步

    ,是中国量子计算“软实力”迈出的第一步。量子计算是国际前沿科技,也是中国未来产业之。当前,中国量子计算科技“硬实力”已居全球第一方阵,中国是世界上第三个具备超导量
    的头像 发表于 09-12 08:07 131次阅读
    郭光灿院士:迈出中国量子计算“软实力”<b class='flag-5'>第一步</b>

    光伏电站管理系统实现电站智能与管理

    光伏电站管理系统实现电站智能与管理 光伏电站作为潜力巨大的新能源发电方式之正在迅速发展
    的头像 发表于 08-16 16:48 261次阅读
    光伏电站<b class='flag-5'>运</b><b class='flag-5'>维</b>管理系统实现电站<b class='flag-5'>智能</b><b class='flag-5'>运</b><b class='flag-5'>维</b>与管理

    散热第一步是导热

    一步提高产品的使用寿命。 产品型号有多种规格可选择(导热系数1.0~5.0W/m.K)。 合肥傲琪电子的导热硅脂、导热硅胶片还应用于对芯片、主板、功率管(MOS)、变压器、模块、PCB板、铝基板
    发表于 08-06 08:52

    光伏电站智能管理系统的三大核心功能

    光伏电站智能管理系统的三大核心功能 光伏电站智能管理系统利用物联网、大数据、人工
    的头像 发表于 07-24 16:29 360次阅读
    光伏电站<b class='flag-5'>智能</b><b class='flag-5'>运</b><b class='flag-5'>维</b>管理系统的三大核心功能

    无人机光伏智能管理系统

           无人机光伏智能管理系统        无人机光伏智能管理系统为光伏电站提供
    的头像 发表于 06-20 16:38 300次阅读

    设备管理:讯智能维系统实现设备智能化管理与维护

    了全新的解决方案。 讯智能维系统拥有强大的数据采集与分析能力,能够实时监控设备的运行状态和性能参数。通过收集并分析各类数据,系统能够
    的头像 发表于 04-28 15:59 557次阅读

    管理平台:从基础智能的飞跃

    管理平台为企业提供了从基础智能
    的头像 发表于 04-16 16:26 303次阅读

    智能维新标杆:讯管理平台深度解读

    的功能和性能,为企业提供了全新的解决方案,成为了行业的新标杆。 、强大的智能功能 讯
    的头像 发表于 04-16 16:24 385次阅读

    基于分布式管理平台的智能电网案例

    、引言 随着智能电网的快速发展,电网系统的复杂性和难度也在不断增加。传统的方式已难以满
    的头像 发表于 03-26 16:24 418次阅读

    AI智能管理平台助力指挥中心,实现高效智能管理!

    ,进一步助力公安工作实现信息化、智能化。 该指挥控制中心是某市公安局的重要职能部门,负责全市的治安指挥、调度和管理工作。随着信息化建设的不断深入,指挥中心对IT及AV系统的依赖程度越来越高,传统的IT及AV系统
    的头像 发表于 12-29 15:32 1176次阅读
    AI<b class='flag-5'>智能</b><b class='flag-5'>运</b><b class='flag-5'>维</b>管理平台助力指挥中心,实现高效<b class='flag-5'>智能</b><b class='flag-5'>运</b><b class='flag-5'>维</b>管理!

    配网故障定位|智能的新篇章

    随着电力系统的不断发展,配网故障定位已经成为了电力工作中的大难题。为了提高配网故障定位的效率和准确性,本文将介绍
    的头像 发表于 12-04 10:47 541次阅读
    配网<b class='flag-5'>故障</b>定位|<b class='flag-5'>智能</b><b class='flag-5'>运</b><b class='flag-5'>维</b>的新篇章

    探头选型第一步-了解信号源

    在选择探头时要考虑四个基本信号源问题,即信号类型、信号频率成分、信号源阻抗和测试点的物理属性。 信号类型 探头选择的第一步是评估要探测的信号类型。为此,可以把信号划分为:电压信号,电流信号,逻辑信号
    的头像 发表于 11-17 11:13 434次阅读
    探头选型<b class='flag-5'>第一步</b>-了解信号源

    智能第一步HDD磁盘故障预测

    当今数字化时代,信息技术扮演着企业和组织运营的关键角色。然而,随着IT环境不断复杂化和数据量激增,传统的管理方法已经无法满足日益增长的需求。为应对这挑战,智能
    的头像 发表于 10-31 13:39 386次阅读
    <b class='flag-5'>智能</b><b class='flag-5'>运</b><b class='flag-5'>维</b><b class='flag-5'>第一步</b>:<b class='flag-5'>HDD</b><b class='flag-5'>磁盘</b><b class='flag-5'>故障</b><b class='flag-5'>预测</b>

    电力智能管理系统

    传统的电力工作往往存在效率低下、人力资源投入大等问题,而随着信息化技术的不断发展,电力智能管理系统应运而生。力安科技电力
    的头像 发表于 10-23 14:32 1514次阅读
    电力<b class='flag-5'>智能</b><b class='flag-5'>运</b><b class='flag-5'>维</b>管理系统

    设备智能管理系统解决方案

    ​为解决设备制造商售后管理成本高、故障维护不及时、出差花销大等问题,数之能提供设备智能管理系统,围绕设备联网监控、设备
    的头像 发表于 10-13 14:13 1756次阅读
    设备<b class='flag-5'>智能</b><b class='flag-5'>运</b><b class='flag-5'>维</b>管理系统解决方案