11月19日,为期两天的2021 GOPS全球运维大会完美落幕。大会由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)、RPA时代社区联合主办,于上海举行。七牛云受邀出席了此次大会,七牛云运维架构师敖文武在会中为大家分享了七牛云关于AIOps的探索与实践经验。
2021 GOPS全球运维大会,主要面向运维行业的中高端技术人员,目的在于帮助运维人员系统学习了解相关知识体系,让创新技术推动社会进步。七牛云成立至今始终坚定不移地推动开发者生态的建设。七牛云团队运营着数十个面向开发者的社群,主张技术共享并发起各类技术传播的活动,如架构师实践日、Niu Talk 数据科学系列论坛等,在全球开发者社区有着深远的影响力和领导力,对AIOps也进行了探索、实践与思考,拥有着丰富的行业经验。
七牛云敖文武分别从 AI 和运维 OPS 的关系、七牛云内部AIOps探索和实践、七牛云对AIOps的思考与总结分三个方面进行了讲解与分享。敖文武指出,运维在故障处理流程中的各个环节,如问题发现、检测、分析、根因定位和响应处理等,其中在整个流程中根因定位分析所占时间长达 60%,严重依赖运维专家的知识和经验。而七牛云「PISA」产品,能够进行梳理数据建模分析,构建出关键业务调用链路,并通过动态阈值计算,预测未来服务分数等算法能力。实现快速根因定位,有效缩短MTTR 40%,并逐步在运维内部落地,进一步优化了根因定位分析占时长的问题。
从运维角度,为什么需要 AIOps?
整个故障处理过程中,问题定位所需要的时间占比达到 60%。
在实践中,MTTK (Mean Time to Know) 环节严重依赖运维专家的知识和经验,且难以口口相传,这也从一定程度上影响了实践的效果与人才的培养。
所以,我们需要一种方法将专家知识和经验沉淀下来,实现更加高效的定位和决策。
七牛云内部的探索和实践
内部在 AIOPS 上针对如何快速定位问题上做了一些探索和落地实践:
系统可观测性
依托“PISA”智能服务分析,构建系统可观测性。SRE 专家经验知识沉淀,加速问题定位。
业务健康评分
多维度 KPI 指标占比评分计算,主动综合预测业务健康和趋势预测。
告警智能降噪
针对不同告警规则做指标数据分类,降低告警风暴,提升告警准确度。
动态阈值
静态指标弊端很多,无法适应流量峰值周期,集群规模一直在变化。静态的阈值要么是设置过低、要么是过高。所以我们采用时序检测算法、训练指标历史数据,有效识别周期性异常波动。
可观测性核心要素:1、Metrics 指标性统计
度量应用某一类信息的正确率、成功率、流量等,这是我们常见的应用单个统计聚合。2、Tracing 分布式追踪
一次请求的范围,服务于服务,服务于组件之间的依赖追踪。3、Logging 日志记录
程序在执行的过程中间发生了一些日志,会包含报错信息、堆栈信息等详细日志内容。
基于七牛云 Pandora 平台,构建智能运维分析工具「PISA」。「PISA」针对企业在数字信息化过程中,业务系统与 IT 系统割裂,面对IT 人员分析问题难,解决问题耗时长,各类监控软件数量繁多但无法协同等问题现状,需要有效连接企业的业务系统和 IT 系统,通过提升整体的可观测性、实时洞察隐患、快速根因定位、提前预知故障等手段,才能帮助企业提高系统稳定和减少损失。将传统的被动式运维变成主动式运营,让数据产生更高价值。
除此之外,在平台机器学习工具包上,还集成了大量的算法、能够进行管理模型和快速验证。虽然工程师直接做算法存在门槛,但却可以参与模型的训练,也能通过不同条件组合进行参数调整,特征优化以追求更好的效果表达。关于我们自己的思考和总结
数据维度越全面越好。
所有数据标准化越规范统一越好。
第三,场景(知识)越深入越好。如果本身对运维场景理解不是特别深,不理解场景当成产品功能去做的话,只能做出一个完整的产品功能,但很大概率上无法直接落地。因为线上环境复杂多元,而且非常依赖运维专家的能力和经验。AIOps 能够顺利落地,一定是在 SRE 或 DevOps 最佳实践中升华而来。
如何借助AI能力与运维场景进行一个数据维度全面、数据标准规范统一、场景知识深入的深度结合并顺利落地实现,是七牛云对AIOps的深刻思考与理解。
审核编辑:符乾江
-
AI
+关注
关注
87文章
30665浏览量
268830 -
机器学习
+关注
关注
66文章
8401浏览量
132535
发布评论请先 登录
相关推荐
评论