0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

测试右移之——监控告警中心优化与建设策略

京东云 来源:京东保险 郑飞 作者:京东保险 郑飞 2024-11-26 11:11 次阅读

作者:京东保险 郑飞

前言

在11.11大促中,质量保障成为了确保大促顺利进行的坚固防线。其中,测试右移作为一种前瞻性的质量策略,正日益彰显其不可或缺的价值。而监控,作为测试右移战略中的核心环节,不仅承担着全面、精准捕捉系统运行动态的重任,更需在问题初露端倪时,迅速吹响警报,引领团队实施有效干预。然而,当前大部分关于测试右移中监控部分的讨论,多聚焦于监控技术的选择与实现,以及如何构建全面的监控体系,而对于监控告警这一核心功能的深度剖析却相对较少。

告警,作为监控体系中的“哨兵”,其重要性不言而喻。一个高效、精准的告警机制,能够第一时间将潜在问题反馈给相关人员,为快速定位、解决问题赢得宝贵时间。但现实中,告警机制的设计与实施往往面临着诸多挑战,如告警信息的泛滥、感知度不足、准确性不高等,这些问题都严重制约了监控体系效能的发挥。

因此,本文特从告警视角出发,探讨当前监控告警机制存在的问题与挑战,并提出针对性的优化与建设策略。希望通过本文的阐述,能够为读者在构建和优化监控告警体系时提供有益的参考与启示。

一、背景概述与当前状况

在构建业务监控体系的过程中,我们通常采用多元化的告警通知手段,涵盖邮件、即时通讯消息等多种形式。当前,团队中大部分业务监控主要依赖邮件和即时通讯消息(京ME)作为告警传递的两大渠道。

然而,随着监控范围的不断扩大和业务应用场景的日益丰富,现有的报警通知机制正面临一系列严峻挑战。

二、面临的主要挑战

1.报警感知度不足:单一的报警模式或当前报警功能的感知能力存在明显短板。例如,由于每日接收的邮件数量庞大,邮件通知方式往往容易被忽视;相较于邮件,京me消息通知的感知度虽有所提升,但仍存在遗漏关键报警信息的风险。

2.报警信息泛滥:无效或冗余的报警信息会严重干扰正常报警的传递,增加值班人员的工作负担,降低其处理效率。更为严重的是,这些无效信息会将紧急报警淹没在海量报警信息之中,导致关键信息被忽视。

3.报警不准确:不合理的阈值设置可能引发漏报或误报现象,进而对系统的稳定性和安全性构成潜在威胁。

三、告警中心建设目标

告警中心的建设旨在全面攻克上述存在的痛点问题,并在此基础上拓展更为全面且强大的功能体系。以下是该建设的核心目标:

1.构建统一报警平台:旨在提供一个集成化的报警通知中心,确保各业务监控模块能够专注于其核心功能的实现,而无需为报警通知的多样化与整合性担忧。

2.实现多通道告警:通过集成邮件、即时通讯、短信等多种报警通知渠道,构建一个具备多维度告警感知能力的系统,确保报警信息能够精准触达目标接收者。

3.引入优先级设定机制:为报警信息提供分级与优先级设定的能力,使接收者能够迅速识别并优先处理高优先级报警,确保紧急问题得到及时响应。

4.实现自动升级与抑制:针对有效报警项,当出现严重批量报警时,系统将自动提升其感知能力,确保关键信息不被遗漏;同时,对于冗余或无效报警,系统将自动进行降级处理,抑制其通知频率,避免造成不必要的干扰。

5.实施报警合并策略:对于相同类型的报警信息,系统将进行智能合并,以减少报警数量。在设定的时间窗口内,将同一监控对象的多次报警合并为一次,提高报警信息的可读性和处理效率。

6.打造自适应报警系统:依托实时数据和历史数据,结合先进的统计分布算法,系统将自动调整报警阈值,以适应系统环境的不断变化,确保报警信息的准确性和有效性。

7.构建问题闭环处理流程:通过与问题处理平台无缝对接,形成从报警触发到问题解决的完整闭环流程,确保每一个报警都能得到及时、有效的处理,从而提升系统的稳定性和可靠性。

四、技术设计方案

4.1 告警设置使用原则

•【建议】控制告警数量,避免引发“狼来了”效应。

•【强制】当告警触发时,必须附带明确的操作指南。

•【建议】对于无需人工干预的告警规则,建议直接予以移除。

•【强制】告告警信息中必须包含告警级别、影响范围及应对措施等关键信息。

4.2 告警渠道集成策略

告警中心致力于构建一个全面而灵活的报警感知网络,集成了多种高效、便捷的告警渠道,包括但不限于:

邮件通知:利用邮件系统的广泛覆盖性和可靠性,确保告警信息能够准确无误地送达至指定接收者。

京me消息:依托京me平台的即时通讯能力,实现告警信息的快速传递,确保相关人员能够第一时间接收到报警通知。

京me群通知:还有另外一种情况,就是负责人不能立马看到告警,针对这种情况我们可以提前准备告警群,把告警投入小组的群里,这样群里的其他同学也能看到告警,帮负责人处理告警或者提醒负责人处理告警。

京me日历提醒:结合京me日历的日程管理功能,将告警信息以日程提醒的方式呈现,为相关人员提供更为直观的告警感知体验。

电话告警:在紧急情况下,通过电话直接拨打相关人员手机,确保告警信息能够以最快速度传递至目标接收者,实现即时响应。

4.3 故障等级与告警设置策略

在故障管理体系中,明确定义故障的等级至关重要。除了传统的基于受损PV/UV、收入等维度来划分故障等级外,故障的持续时间同样是一个不可忽视的关键指标。对于一个核心服务而言,故障的持续时长将直接影响其最终的影响级别。例如,短时间的瞬时故障可能仅造成轻微影响,而长时间的持续故障则可能引发重大业务中断,带来严重后果。

因此,如何迅速解决故障,实际上也在一定程度上考验着我们的告警设置能力。在事故的全生命周期管理中,从发现到定位,告警都扮演着至关重要的角色,尤其是故障的初步发现阶段。为了优化告警设置,提升故障处理效率,以下几点策略可供参考:

告警分级管理:根据故障的严重性,将告警划分为不同的等级,如提示级、预警级、严重级和灾难级。这种分级管理有助于相关人员根据告警级别快速判断故障的紧急程度,并采取相应的应对措施。

告警原因分类:对告警进行细致的原因分类,如网络故障、硬件故障、软件错误等,有助于快速定位故障源头,减少排查时间。同时,原因分类也为后续的故障预防和改进提供了有力支持。

提供解决方案:每条告警信息中应包含初步的解决方案或处理建议,以便相关人员能够在接收到告警后,迅速采取行动,遏制故障扩散,降低损失。解决方案可以包括紧急操作步骤、备用系统切换方案、联系技术支持人员等。

4.4 告警收敛抑制与自动升降级策略

告警中心不仅承担着即时发送告警信息的重任,还需对告警记录进行精细化管理和分析。告警中心会保留每一次告警的通知记录,并根据后续的验证结果,对告警进行精准分类,如有效报警、无效报警、偶发性报警以及常规报警等。

为了提升告警管理的效率和准确性,告警中心会根据历史告警的最终处理结果,智能识别出冗余或无效的告警。对于这些告警,系统将自动采取降级处理措施,有效抑制其通知频率,从而避免对相关人员造成不必要的干扰和负担。这种智能收敛抑制机制,有助于减少无效告警的噪音,让相关人员能够更加专注于处理真正重要的告警。

同时,对于历史上曾经出现过的重要或严重报警,告警中心在提供正常通知的基础上,还具备智能升级的能力。例如,当某个告警配置原本使用较为普通的通知方式(如京me通知),但在出现批量恶劣报警且接收人未能及时跟进处理的情况下,系统会自动将该告警升级为更高级别的通知方式,如电话告警(同时可以支持升级为通知相关上级人员)。这种智能升级策略,能够确保在紧急情况下,相关人员能够迅速接收到告警信息,并采取相应的应对措施,从而有效遏制故障的扩散和升级。

4.5 告警合并策略

对相同类型的报警信息进行智能识别与合并。在设定的时间窗口内,对于同一监控对象触发的多次报警,系统将自动进行合并处理,将多条相似的告警信息整合为一条综合告警。这种合并方式不仅显著减少了报警数量,降低了告警信息的冗余度,还使得告警信息更加简洁明了,易于阅读和理解。

4.6 自适应阈值策略

在监控告警领域,阈值设定一直是一个棘手的问题。传统的固定阈值方法,虽然简单易行,但往往难以兼顾精准告警与减少误报之间的平衡。阈值设定过于宽泛,可能遗漏真正的故障问题,导致漏报;而设定过于保守,则可能引发大量无效误报,干扰正常工作。更为复杂的是,随着业务的不断发展,监控对象的数据波动也会发生变化,阈值也需要相应地进行调整。

为了解决这一难题,引入了自适应阈值策略优化方案。该方案的核心在于利用统计分布学算法,根据历史数据走向,动态计算出合理的告警阈值。具体而言,我们可以采用正态分布或均匀分布等统计模型,对历史监控数据进行拟合和分析,从而得出一个能够反映数据波动特性的动态阈值。

自适应阈值策略的优势在于其灵活性和准确性。由于阈值是根据历史数据动态计算得出的,因此能够随着业务的发展和数据的变化而自动调整,始终保持对监控对象的敏感度和准确性。同时,该策略还能够有效减少误报和漏报的情况,提高告警信息的可靠性和实用性。

在实施自适应阈值策略时,我们还需要注意以下几点:

1.数据质量:确保历史数据的准确性和完整性,避免数据异常对阈值计算造成干扰。

2.模型选择:根据监控对象的特性和数据分布特点,选择合适的统计模型进行拟合和分析。

3.阈值调整:定期对自适应阈值进行验证和调整,确保其始终符合业务需求和运维实际情况。

4.7 告警问题追踪与闭环

告警中心通过与问题跟踪系统的集成,实现了告警从触发到解决的全程跟踪。当告警触发时,系统会自动将告警信息发送至问题跟踪系统,并生成相应的问题记录。值班人员可以在问题跟踪系统中查看告警详情、处理进度和解决方案等信息,确保每一个告警都能得到及时、有效的处理。这种告警问题追踪与闭环流程,有助于提升系统的稳定性和可靠性。

五、优秀文献推荐

关于线上稳定性的构建与监控报警机制的完善,特此推荐以下几篇卓越的文献资料

外部文献精选:

1.《vivo 服务端监控体系建设实践》

2.《我在服务监控方面的实践》

神灯社区佳作:

1.《系统稳定性之-监控报警》

这些文献资源将为在构建与优化线上稳定性及监控报警体系方面提供宝贵的参考与启示。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 测试
    +关注

    关注

    8

    文章

    5303

    浏览量

    126660
  • 监控
    +关注

    关注

    6

    文章

    2208

    浏览量

    55203
收藏 人收藏

    评论

    相关推荐

    如何优化EEPROM的数据存储策略

    。它广泛应用于需要存储少量数据的场合,如微控制器、传感器和嵌入式系统中。优化EEPROM的数据存储策略可以提高数据的可靠性、延长存储器的使用寿命,并提高数据访问效率。以下是一些优化EEPROM数据存储
    的头像 发表于 12-16 17:21 397次阅读

    商场泵站交替补水监控告警物联网解决方案

    满足不同时段的用水水压安全稳定。 对此,通过接入控制器PLC,物联网云平台能够实时采集水泵运行参数、变频器频率、水压、流量等数据,并实现可视化的数据展示、监控告警、管理、控制等功能,为管理人员提供灵活调整供水策略
    的头像 发表于 11-20 13:54 104次阅读

    什么是回归测试_回归测试测试策略

    是否在新软件版本上再次出现。 2、测试策略 回归测试策略一般由测试经理或测试组长制定,初级软件
    的头像 发表于 11-14 16:44 256次阅读

    TI Wi-Fi测试策略概述

    电子发烧友网站提供《TI Wi-Fi测试策略概述.pdf》资料免费下载
    发表于 09-20 10:46 1次下载
    TI Wi-Fi<b class='flag-5'>测试</b><b class='flag-5'>策略</b>概述

    天车监控告警物联网系统方案

    。为了提升天车管理的智能化水平,数之能提供高效可靠的物联网解决方案。 现场天车用于吊架重型设备进行喷漆作业,收到粉料及碎屑等影响,设备长期使用的风险直线上升,因此要求实现与设备运行状态与工艺参数的实时监控,同时对
    的头像 发表于 09-10 15:21 238次阅读
    天车<b class='flag-5'>监控告警</b>物联网系统方案

    食品冷库远程监控自动告警系统方案

    内,就需要对制冷机组进行全天候的监测,建设一套高效的食品冷库远程监控自动告警系统,以进一步提升食品储存的安全性、降低运营成本并增强管理效率。对此,数之能提供高效可靠的解决方案。 通过接入制冷机组PLC,数之能设备运维管
    的头像 发表于 08-30 15:35 259次阅读

    电动汽车有序充电优化策略

    优化问题。无序充电不仅可能导致电网负荷高峰,影响电网稳定,还可能增加充电成本,降低用户体验。因此,探索电动汽车有序充电优化策略,对于推动电动汽车产业的可持续发展具有重要意义。 1电动汽车充电现状与挑战 1.1 电动汽车充
    的头像 发表于 08-24 12:25 2624次阅读
    电动汽车有序充电<b class='flag-5'>优化</b><b class='flag-5'>策略</b>

    高速分切机数据采集监控告警系统解决方案

    的问题。对此,物通博联提供基于工业智能网关的数据采集监控告警系统解决方案,旨在提升生产设备的智能化管理水平。 1、数据采集 高效的数据采集是实现全面监控的基础。传统的数据采集方式往往依赖人工记录或简单的传感器,不
    的头像 发表于 08-13 15:23 398次阅读
    高速分切机数据采集<b class='flag-5'>监控告警</b>系统解决方案

    IR615配置流量告警方法

    1.登录路由器,服务流量管理中设置流量使用阀值. 2.添加告警设置,在服务&gt;告警设置中勾选告警输入和告警输出. 3.登录DM平台添加
    发表于 07-25 07:59

    无缝拼接矩阵在监控中心的应用案例

    讯维无缝拼接矩阵在监控中心的应用案例相当广泛,其高效的拼接技术和出色的显示效果为监控工作提供了极大的便利。以下是一些具体的应用案例: 城市交通监控
    的头像 发表于 03-22 15:04 372次阅读

    数据中心配电能效精细化建设策略研究与趋势分析

    数据中心配电能效精细化建设策略研究与趋势分析 张颖姣 安科瑞电气股份有限公司  上海嘉定  201801 摘要:通过分析用户需求、建设和运维等多方对数据
    的头像 发表于 03-11 17:00 374次阅读
    数据<b class='flag-5'>中心</b>配电能效精细化<b class='flag-5'>建设</b><b class='flag-5'>策略</b>研究与趋势分析

    是德科技推出AI数据中心测试平台旨在加速AI/ML网络验证和优化的创新

    2024年2月29日,是德科技(Keysight Technologies,Inc.)宣布,针对人工智能(AI)和机器学习(ML)基础设施生态系统,推出了 AI数据中心测试平台,旨在加速AI / ML网络验证和优化的创新。
    的头像 发表于 02-29 09:32 638次阅读
    是德科技推出AI数据<b class='flag-5'>中心</b><b class='flag-5'>测试</b>平台旨在加速AI/ML网络验证和<b class='flag-5'>优化</b>的创新

    浅谈新能源汽车充电桩建设优化

    浅谈新能源汽车充电桩建设优化 张颖姣 安科瑞电气股份有限公司 上海嘉定 201801 摘要:本文针对新能源汽车充电桩建设工作进行探究,采用案例分析法、文献查阅法,指出了新能源汽车充电桩建设
    的头像 发表于 02-26 10:54 591次阅读
    浅谈新能源汽车充电桩<b class='flag-5'>建设</b>及<b class='flag-5'>优化</b>

    某市配网配电室环境智能监控系统建设探索与实践分析

    环境温度、环境湿度等所有环境数据实时远程监控功能。 系统可以实现灯光、水泵、空调等设备的开关状态监控。 环境参量超标自动告警及自动排障功能。在监控
    发表于 01-09 16:30

    数据中心智能母线监测系统及产品监控选型

    数据中心末端智能母线通过现代通信网络监控技术,实时监控母线的温升、电能运行参数等数据,并对采集的实时数据进行分析处理和存储,上传至数据中心ECC监控
    的头像 发表于 01-08 16:56 538次阅读