0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

中兴文档 来源:中兴文档 2023-06-07 09:49 次阅读

某资源池TECS上报BFD会话DOWN告警和网络流量异常告警,持续时间1秒至6分钟不等,如下图所示。

4feac93c-0485-11ee-90ce-dac502259ad0.png

同时,业务侧反馈,该资源池ISBG业务网元产生指标下降等异常情况,但已快速恢复。

物理节点上的虚拟机都通过业务面网卡和节点外部通信。当流量异常时,业务网卡上会出现很多丢弃包。

系统周期性采样网卡所有收发包总数和丢弃包总数,当丢弃包占比数连续多次超过门限时,则上报告警;当连续几个采样周期的丢弃包占比数低于门限,则恢复告警。

虚拟网络上出现较重负荷,造成报文丢弃率超过给定阈值。短暂的指标下降异常情况可能和资源相关,例如CPU、内存、网络资源不足,或者硬盘的IO读写过低导致延迟。

问题分析过程如下:

1.观察到异常情况后,对告警内容展开分析。执行dvs show-dpifstats命令,找到对应端口,查看overrun和drop统计项是否在增加。

2.观察到计算服务器NFV-D-XXX-SRV-15业务bond子接口均上报了网络流量异常告警,分析可能是端口丢包。

3.登录服务器查看DVS日志,端口丢包量在告警时刻出现上涨,如下图所示。

500e8836-0485-11ee-90ce-dac502259ad0.png

4.登录云平台查看NFV-D-XXX-SRV-15承载业务,该主机承载虚机四台,其中包含ISBG的XX-isbg-OMPIPI_2_L虚机。分析可能为DVS接收丢包影响到虚机业务。

5.分析SAR日志,确认DVS的绑定核在故障期间出现被占用的情况,时间点与网卡丢包基本一致,认定为DVS核占用导致的DVS物理网卡丢包,如下图所示。

5030ab3c-0485-11ee-90ce-dac502259ad0.png

6.分析BMC黑盒子日志,该时间(+8)在日志中大量出现ECC内存错误,内存定位DIMM11,如下图所示。

504fd5ac-0485-11ee-90ce-dac502259ad0.png

7.ECC错包出现的时间点与DVS网卡丢包时间点(DVS转发核被占用的时间点)基本重合,认定内存ECC错误与DVS的丢包强相关。

8.根据日志显示报错信息,ECC内存错误触发的内存槽位为DIMM11。

1.登录管理页面,选择“云平台管理-计算-实例”,选中该台主机上虚拟机,完成主机上虚拟机的热迁移,如下图所示。

507207b2-0485-11ee-90ce-dac502259ad0.png

2.完成迁移后,选择“云平台管理-计算-主机”,选中这台主机,设置维护模式,如下图所示。

5093f0d4-0485-11ee-90ce-dac502259ad0.png

3.下电服务器完成内存更换,完成后上电,取消“设置维护模式”。

4.迁移回虚拟机,测试正常。

5.内存ECC错误为此次异常故障根因。内存ECC错误影响DVS转发分析:

l在内存ECC错误故障期间,现有的BIOS配置会为每一个内存ECC错误产生一个SMI中断。

如果产生ECC风暴,那么影响CPU处理性能。

SMI中断在内核感知为NMI,不受内核控制,从硬件描述看内核是无法屏蔽此类中断的。内存ECC默认不告警。

SMI中断导致CPU进入SMM模式,该模式对于OS是透明的。

因此SMI中断是硬件和固件(BIOS)共同处理的,其对于CPU处理流程的打断,对OS而言是不可感知的,不会出现在OS的统计项里面。

只有当BIOS处理SMI后,并以SCI中断通知OS时,OS才能感知到SCI中断。但是BIOS是否触发SCI中断也不是OS所能控制的。

总之,SMI中断对于DVS处理核的影响是硬件和固件的行为。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAR
    SAR
    +关注

    关注

    3

    文章

    409

    浏览量

    45850
  • BIOS
    +关注

    关注

    5

    文章

    468

    浏览量

    45561
  • ECC
    ECC
    +关注

    关注

    0

    文章

    96

    浏览量

    20518
  • 虚拟机
    +关注

    关注

    1

    文章

    902

    浏览量

    28009
  • SCI
    SCI
    +关注

    关注

    1

    文章

    55

    浏览量

    20082

原文标题:TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    华纳云:如何理解软件定义网络?和传统网络相比有哪些优势?

    就是说将控制平面与数据平面分离。SDN 允许 IT 运维团队通过集中面板来控制复杂网络拓扑中的网络流量,而无需手动处理每个网络设备。 软件定义网络
    的头像 发表于 09-26 16:03 367次阅读
    华纳云:如何理解软件定义<b class='flag-5'>网络</b>?和传统<b class='flag-5'>网络</b>相比有哪些优势?

    IDS、IPS与网安防御

    检测到异常网络流量模式时,这可能意味着有潜在的恶意攻击正在进行。可能来自一些不明来源的IP地址发送大量异常的数据请求,超出了正常业务的流量范围。通过对这些可疑IP地址的监测和分析,管
    的头像 发表于 09-18 10:42 281次阅读

    IP地址如何进行网络监测? » 立即查看

    ​一、异常检测的方法和技术有哪些? 目前常用的异常检测方法技术主要有基于统计分析的方法、基于机器学习的方法、基于规则的方法。 1.基于统计分析的方法也就是通过对网络流量、设备性能等数据进行统计分析
    的头像 发表于 09-14 15:15 195次阅读

    IR615配置流量告警方法

    1.登录路由器,服务流量管理中设置流量使用阀值. 2.添加告警设置,在服务&gt;告警设置中勾选告警输入和
    发表于 07-25 07:59

    艾体宝干货 IOTA流量分析秘籍第一招:网络基线管理

    网络基线管理是一项关键的网络安全实践,它有助于识别网络中的异常活动并及时采取措施。本文将探讨如何利用IOTA这一强大的工具来捕获和分析网络流量
    的头像 发表于 07-02 14:53 285次阅读
    艾体宝干货  IOTA<b class='flag-5'>流量</b>分析秘籍第一招:<b class='flag-5'>网络</b>基线管理

    艾体宝干货 | 教程:使用ntopng和nProbe监控网络流量

    本文是关于使用 ntopng 和 nProbe 监控网络流量的教程。文章详细介绍了如何配置和使用这两个工具来监控和分析网络流量。内容涉及硬件和软件的安装、配置端口镜像、静态IP地址设置、SSH服务器
    的头像 发表于 05-29 15:35 774次阅读
    艾体宝干货 | 教程:使用ntopng和nProbe监控<b class='flag-5'>网络流量</b>

    TSN抓包工具解密:数据包捕获,为什么选Profishark?

    网络管理中,网络流量分析和故障排查是重要环节,如何高效精准地进行网络流量分析和故障排查?来看看利用ProfiShark数据包捕获,让我们一起探索其中的优势和特点。一、捕获网络流量的重
    的头像 发表于 04-29 08:04 497次阅读
    TSN抓包工具解密:数据包捕获,为什么选Profishark?

    艾体宝产品 | Allegro网络流量分析仪

    艾体宝产品 | Allegro网络流量分析仪
    的头像 发表于 04-29 08:04 425次阅读
    艾体宝产品 | Allegro<b class='flag-5'>网络流量</b>分析仪

    维谛嵌入式开关电源常见告警处理方法

    维谛嵌入式开关电源常见告警处理方法
    的头像 发表于 04-09 17:15 1095次阅读
    维谛嵌入式开关电源常见<b class='flag-5'>告警</b><b class='flag-5'>处理</b>方法

    利用DOCA构建数据中心流量管理解决方案

    胡凌翔创建的项目名称为 “TC-HTB-DPU”,该项目着眼于现代网络环境中的一大挑战-网络流量处理能力问题。
    的头像 发表于 03-20 14:08 249次阅读

    网络监控工具有哪些 网络监控用几芯网线

    网络监控工具有很多种,根据不同的监控目标和需求,可以选择适合的监控工具。下面将介绍一些常见的网络监控工具,并对其功能和特点进行详细的介绍。 网络流量监控工具 网络流量监控工具可以实时监
    的头像 发表于 01-24 10:00 961次阅读

    虹科分享 | 实现网络流量的全面访问和可视性——Profitap和Ntop联合解决方案

    这次和大家分享如何捕捉、分析和解读网络数据,从而更有效地监控网络流量,实现网络性能的最大化。首先来看一个实际的问题——“网速太慢”。
    的头像 发表于 01-18 10:40 375次阅读
    虹科分享 | 实现<b class='flag-5'>网络流量</b>的全面访问和可视性——Profitap和Ntop联合解决方案

    实现网络流量的全面访问和可视性——Profitap和Ntop联合解决方案

    这次和大家分享如何捕捉、分析和解读网络数据,从而更有效地监控网络流量,实现网络性能的最大化。首先来看一个实际的问题——“网速太慢”。一为什么客户抱怨“网速太慢”?互联网服务提供商面临着客户增长
    的头像 发表于 01-13 08:04 705次阅读
    实现<b class='flag-5'>网络流量</b>的全面访问和可视性——Profitap和Ntop联合解决方案

    网络流量对PLC控制过程的影响测试内容

    在测试中,我们令所有的PLC在其最大性能下运行(最短循环时间)并输出周期信号。测试以PLC正常状况下的输出作为参考信号,如果网络流量对PLC的电气输出造成影响,则实际输出信号相对参考信号将会产生偏移。
    发表于 12-27 14:12 581次阅读
    <b class='flag-5'>网络流量</b>对PLC控制过程的影响测试内容

    AWTK 串口屏开发(3) - 告警信息

    告警信息是一个常用的功能。在AWTK开源串口屏中,内置告警信息模型,只需设计用户界面即可实现告警信息的显示和管理。1.功能告警信息是一个常用的功能,MCU在设备
    的头像 发表于 12-23 08:24 402次阅读
    AWTK 串口屏开发(3) - <b class='flag-5'>告警</b>信息