0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

实现故障自愈要攻克的3个问题以及开箱即用的方案

马哥Linux运维 来源:未知 作者:易水寒 2018-05-19 10:59 次阅读

产品设计理念剖析企业建设故障自动化处理方案的思路

人工处理告警,一直是运维心中的痛。大年初一拜年、结婚、和老婆孩子外出过周末等美好时光,作为运维的你,好像一直心系IT系统,保持与笔记本的安全距离。

为什么这么多年过去了,还是这么苦逼,不是说运维行业转 AIOps了,我竟然还在手工处理告警,我该怎么办?

今天就和大家聊聊实现故障自愈要攻克的3个问题,以及献上开箱即用的方案。

1. 故障自愈的基本流程

自动化的要点是什么?把人的经验抽象、固化为程序处理,工业(第3次工业革命)或互联网都是如此。

举个例子,磁盘出现告警,运维首先想到的是登陆服务器清理磁盘。

实现故障自愈要攻克的3个问题以及开箱即用的方案

(人工处理告警的流程)

接下来,我们拆解背后的逻辑。

1.1 抽象告警处理流程

1)拉取磁盘告警

2) 编写磁盘清理的脚本或作业任务

3) 设计模块:把拉取到的磁盘告警,与调用脚本的模块串起来

实现故障自愈要攻克的3个问题以及开箱即用的方案

(故障自愈流程 简化版V1)

1.2 通过CMDB做资源清洗

不同模块的磁盘清理方案不一样,如何解决呢?

这时需要引入CMDB(设备、人、业务的映射关系),通过CMDB把IP清洗为模块,这样就解决了接入层 和 逻辑层、存储层的告警使用对应的磁盘清理方案。

实现故障自愈要攻克的3个问题以及开箱即用的方案

(故障自愈流程 简化版V2)

1.3 对接企业内部网关

故障自愈可能会处理失败,这时需要通知用户。故障自愈的处理方式除了调用作业外,还可能需要调用企业内部的网关,比如服务器重启、申请服务器等。

使用PaaS层的ESB是一种解决思路,通过ESB封装企业内部网关,解决权限校验、频率控制、访问统计、路由分发以及自助接入等功能,不要直接调用裸接口了。

实现故障自愈要攻克的3个问题以及开箱即用的方案

(故障自愈的通知方案)

经过这一轮的探索,故障自愈的架构就是下面这个样子。

实现故障自愈要攻克的3个问题以及开箱即用的方案

(故障自愈的流程)

1.4 对接企业内部监控产品

等等,好像还没说如何对接企业内部的监控产品,以Zabbix、Open-Falcon为例。

1.4.1 对接Zabbix

《当Zabbix遇见故障自愈》介绍了拉取Zabbix告警的方案,通过 ActionScript 调用脚本,把 Zabbix 告警推送至自愈的告警拉取模块。

推送(或叫回调)可以保证告警拉取的实时性。

实现故障自愈要攻克的3个问题以及开箱即用的方案

(Zabbix推送告警示例)

实现故障自愈要攻克的3个问题以及开箱即用的方案

(Zabbix调用推送告警的脚本)

对接Zabbix 的落地案例可以参考陈亮撰写的那些年我们想做的无人值守。

除Zabbix外,Open-Falcon在国内的社区热度也不错,所以也介绍拉取其告警的方案。

1.4.2 对接Open-falcon

方案类似Zabbix,不过Open-falcon 直接提供了callback功能,简化了流程。

实现故障自愈要攻克的3个问题以及开箱即用的方案

(Open-Falcon配置Callback地址)

收到了Open-Falcon 推送的告警后,解析对应的字段即可。

如果企业内部的CMDB以IP来标识主机,需要再做一层转换,因为Open-Falcon 的资源标识endpoint默认是主机名,那么就需要使用CMDB的自动发现功能自动上报主机名,同时提供把主机名清洗为IP的功能。

下面是Nginx模块磁盘告警的自愈示例,匹配Nginx模块的磁盘清理套餐,清理Nginx模块的日志文件,整个过程不到30秒。

实现故障自愈要攻克的3个问题以及开箱即用的方案

(磁盘告警的自愈示例)

2. 故障自愈的两面性

故障自动处理就像一把刀,有其两面性。

因为要确保告警的真实性,一旦把假告警也自动处理了,就很悲催了…

举个例子。网络波动,批量出现PING告警。实际上服务器运行正常,这时你把服务器都重启了,那就GG了。

如何解决呢?分析事物的规律。

批量出现告警,那可以在告警拉取模块后面,增加一个收敛模块。

比如,在X时间内出现Y个告警,打电话给运维审批。

X时间内同一主机出现使用相同套餐的告警,则收敛时间窗口中后面的告警则跳过,比如同时收到进程告警 和 端口告警,就不用拉2次进程了。

还有就是,原有监控系统没有收敛能力,那么可以借用这个功能来做告警汇总,因为收敛逻辑一样,只是收敛的处理方式有差异。

实现故障自愈要攻克的3个问题以及开箱即用的方案

3. 复杂告警的处理方案 - 组合套餐

上面提到的技术方案是用来处理逻辑简单的告警,那么故障替换这种复杂的场景如何解决呢?

举个例子,A模块是重要模块,出现PING不可达告警,首先要校验A模块是否真的故障,如果真的故障,接下来是从资源池中获取备机 … 故障替换等等,期间每个环节都有可能出错,那就要考虑异常分支的场景。

树结构可以解决该问题,二叉树足以满足大部分场景(成功、失败两种分支)。

实现故障自愈要攻克的3个问题以及开箱即用的方案

( 组合套餐的示例)

上面这张图,是一个自愈处理方案,可以称之为组合套餐。

这里同时引入了原子的概念,通过组装原子来满足各种需求场景, 和资源编排说的是同一个理儿。

注:如果你想使用三叉树,其实可以把组合套餐也作为一个原子套餐(节点)。

4. 故障自愈的技术架构

经过前面对故障自愈的基本流程、故障自愈的两面性、复杂的故障处理方案的层层梳理,我们有了一张故障自愈的技术架构图。

实现故障自愈要攻克的3个问题以及开箱即用的方案

相信这次以经行业验证的故障自愈做技术剖析,能对大家建设企业内部的故障自动处理方案提供参考思路。

5. 收尾

当 AIOps大行其道的时候,我们需要克制,优先解决主要矛盾,而不是构建高大上的空中楼阁。

如同产品路线图,优先解决可用性,接下来是体验,最后才是可扩展性和生态,依次落地。

实现故障自愈要攻克的3个问题以及开箱即用的方案

最后,希望广大的运维兄弟姐妹能尽早脱离原始运维的苦海,抓住行业发展趋势,掌握核心技术,在变革中实现自身价值!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 故障处理
    +关注

    关注

    2

    文章

    21

    浏览量

    9485
  • CMDB
    +关注

    关注

    0

    文章

    7

    浏览量

    6738

原文标题:故障自愈:解决运维的主要矛盾才能AIOps

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    快速开箱即用体验 AMD / Xilinx Kria™ KD240驱动器入门套件

    快速开箱即用体验 AMD / Xilinx Kria™ KD240驱动器入门套件
    的头像 发表于 06-22 10:26 8014次阅读
    快速<b class='flag-5'>开箱</b><b class='flag-5'>即用</b>体验 AMD / Xilinx Kria™ KD240驱动器入门套件

    简单便捷、开箱即用的IoT连接方案——意法半导体STM32蜂窝-云端探索套件经销商到货

    套件开箱即用,简单便捷,包含可按照个人应用需求灵活自定义的示例脚本。脚本运行在Espruino JavaScript引擎环境中(已移植到STM32微控制器上)。为了帮助简化向纯C代码编程过渡,实现最佳
    发表于 07-09 10:17

    自愈式电容器的使用误区总结

    次谐波等,在实际选型时必须根据谐波类型选择相应的电容电抗。  3. 没有鼓包漏油就是无故障  不少客户认为自愈式电容器没有鼓包、漏油就是没有故障,这种认知是不准确的。鼓肚、渗漏油属于电
    发表于 03-09 11:49

    计算机网络E1链路接口自愈保护解决方案

    根据商用等专用网络存在的问题,提出一种智能网络自愈解决方案,在不改变现有网络结构的情况下,通过在内外网之间加入自行研发的智能网络自愈装置实现网络故障
    发表于 04-17 09:10 14次下载

    SDH自愈环比较

    5种自愈环的比较 自愈环的应用
    发表于 08-25 16:25 0次下载

    当智能配电网发生故障时是如何进行自愈控制的?

    实现对智能配电网的自愈控制,单单靠电力技术本身是无法完成的,必须研究和运用各种技术手段来支撑自愈控制技术,使其组成一强大的智能化体系框架
    发表于 07-16 11:08 1w次阅读

    ABC一体机3.0:AI开箱即用即开发

    ABC一体机3.0在大数据一体机、训练一体机之上,集成了更多的AI能力,包括人脸、语音、视频、NLP等通用AI和面向工业质检、金融风控的专用AI,实现开箱即用。更重要的是,ABC一体机3.0
    的头像 发表于 09-06 15:00 4423次阅读

    阿里如何做到百万量级硬件故障自愈

    自愈以及集群的自平衡重建,真正在影响业务之前实现硬件故障自动闭环策略,对于常见的硬件故障无需人工干预即可自动闭环解决。1.背景1.1.面临挑
    发表于 11-30 15:55 182次阅读
    阿里如何做到百万量级硬件<b class='flag-5'>故障</b><b class='flag-5'>自愈</b>?

    华为开发者大会2021智能硬件开发—开箱即用的解决方案

    大咖、全球开发者一起探讨全场景智慧体验的未来。 开箱即用行业解决方案 智能家居(贴心管家)   智能出行(出行助理)   影音娱乐(娱乐伙伴)   运动健康(私人教练)   教育关怀(智慧学伴
    的头像 发表于 10-23 10:10 1399次阅读
    华为开发者大会2021智能硬件开发—<b class='flag-5'>开箱</b><b class='flag-5'>即用</b>的解决<b class='flag-5'>方案</b>

    开箱即用的物联网:构建一无缝、安全的智能家庭网络

    开箱即用的物联网:构建一无缝、安全的智能家庭网络
    发表于 11-01 08:26 1次下载
    <b class='flag-5'>开箱</b><b class='flag-5'>即用</b>的物联网:构建一<b class='flag-5'>个</b>无缝、安全的智能家庭网络

    开箱即用!教你如何正确使用华为云CodeArts IDE Online!

    华为云CodeArts IDE Online服务 ,提供了可随时随地编码的云上开发环境,同时具备开放的生态和独立插件市场,旨在为开发者提供环境快速获取、功能开箱即用、跨越计算架构、随时随地访问、横向
    的头像 发表于 07-06 11:45 555次阅读
    <b class='flag-5'>开箱</b><b class='flag-5'>即用</b>!教你如何正确使用华为云CodeArts IDE Online!

    配网调度自动化自愈系统的设计与实现

    针对配网调度现状进行相应需求分析并提出配置方案,着重研究和设计了配网自愈系统。使用配网自愈系统可以减少故障处理时调度员等候操作人员到达现场浪费的时间,由主站控制分段开关及环网联络开关,
    的头像 发表于 01-16 14:08 923次阅读
    配网调度自动化<b class='flag-5'>自愈</b>系统的设计与<b class='flag-5'>实现</b>

    [技术干货] AI 助手全套开源解决方案,自带运营管理后台,开箱即用

    方案介绍 随着人工智能技术的不断发展和普及,越来越多的企业和个人开始关注和使用 AI 助手来提高工作效率和生活便利性。该解决方案基于 AI 大语言模型 API 实现的 AI 助手全套开源解决
    的头像 发表于 04-05 23:23 1178次阅读
    [技术干货] AI 助手全套开源解决<b class='flag-5'>方案</b>,自带运营管理后台,<b class='flag-5'>开箱</b><b class='flag-5'>即用</b>

    自愈式电容器型号含义

    自愈式电容器是一种具有自愈功能的电容器,它能够在电容器内部出现故障时自动修复,从而延长电容器的使用寿命。这种电容器广泛应用于电力系统、电子设备、家用电器等领域。 一、自愈式电容器的基本
    的头像 发表于 09-26 11:08 264次阅读

    自愈式电容器容易坏是不是容量小的问题

    自愈式电容器的容易损坏问题,并不完全是由容量小导致的,而是与其工作原理、使用环境以及电气特性有关。自愈式电容器(如用于高压应用中的聚丙烯电容器)通常具有自愈特性,这意味着当电容器内部发
    的头像 发表于 11-11 14:07 160次阅读
    <b class='flag-5'>自愈</b>式电容器容易坏是不是容量小的问题