0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

中兴文档 来源:中兴文档 2023-06-07 09:49 次阅读

某资源池TECS上报BFD会话DOWN告警和网络流量异常告警,持续时间1秒至6分钟不等,如下图所示。

4feac93c-0485-11ee-90ce-dac502259ad0.png

同时,业务侧反馈,该资源池ISBG业务网元产生指标下降等异常情况,但已快速恢复。

物理节点上的虚拟机都通过业务面网卡和节点外部通信。当流量异常时,业务网卡上会出现很多丢弃包。

系统周期性采样网卡所有收发包总数和丢弃包总数,当丢弃包占比数连续多次超过门限时,则上报告警;当连续几个采样周期的丢弃包占比数低于门限,则恢复告警。

虚拟网络上出现较重负荷,造成报文丢弃率超过给定阈值。短暂的指标下降异常情况可能和资源相关,例如CPU、内存、网络资源不足,或者硬盘的IO读写过低导致延迟。

问题分析过程如下:

1.观察到异常情况后,对告警内容展开分析。执行dvs show-dpifstats命令,找到对应端口,查看overrun和drop统计项是否在增加。

2.观察到计算服务器NFV-D-XXX-SRV-15业务bond子接口均上报了网络流量异常告警,分析可能是端口丢包。

3.登录服务器查看DVS日志,端口丢包量在告警时刻出现上涨,如下图所示。

500e8836-0485-11ee-90ce-dac502259ad0.png

4.登录云平台查看NFV-D-XXX-SRV-15承载业务,该主机承载虚机四台,其中包含ISBG的XX-isbg-OMPIPI_2_L虚机。分析可能为DVS接收丢包影响到虚机业务。

5.分析SAR日志,确认DVS的绑定核在故障期间出现被占用的情况,时间点与网卡丢包基本一致,认定为DVS核占用导致的DVS物理网卡丢包,如下图所示。

5030ab3c-0485-11ee-90ce-dac502259ad0.png

6.分析BMC黑盒子日志,该时间(+8)在日志中大量出现ECC内存错误,内存定位DIMM11,如下图所示。

504fd5ac-0485-11ee-90ce-dac502259ad0.png

7.ECC错包出现的时间点与DVS网卡丢包时间点(DVS转发核被占用的时间点)基本重合,认定内存ECC错误与DVS的丢包强相关。

8.根据日志显示报错信息,ECC内存错误触发的内存槽位为DIMM11。

1.登录管理页面,选择“云平台管理-计算-实例”,选中该台主机上虚拟机,完成主机上虚拟机的热迁移,如下图所示。

507207b2-0485-11ee-90ce-dac502259ad0.png

2.完成迁移后,选择“云平台管理-计算-主机”,选中这台主机,设置维护模式,如下图所示。

5093f0d4-0485-11ee-90ce-dac502259ad0.png

3.下电服务器完成内存更换,完成后上电,取消“设置维护模式”。

4.迁移回虚拟机,测试正常。

5.内存ECC错误为此次异常故障根因。内存ECC错误影响DVS转发分析:

l在内存ECC错误故障期间,现有的BIOS配置会为每一个内存ECC错误产生一个SMI中断。

如果产生ECC风暴,那么影响CPU处理性能。

SMI中断在内核感知为NMI,不受内核控制,从硬件描述看内核是无法屏蔽此类中断的。内存ECC默认不告警。

SMI中断导致CPU进入SMM模式,该模式对于OS是透明的。

因此SMI中断是硬件和固件(BIOS)共同处理的,其对于CPU处理流程的打断,对OS而言是不可感知的,不会出现在OS的统计项里面。

只有当BIOS处理SMI后,并以SCI中断通知OS时,OS才能感知到SCI中断。但是BIOS是否触发SCI中断也不是OS所能控制的。

总之,SMI中断对于DVS处理核的影响是硬件和固件的行为。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAR
    SAR
    +关注

    关注

    3

    文章

    419

    浏览量

    46068
  • BIOS
    +关注

    关注

    5

    文章

    470

    浏览量

    45909
  • ECC
    ECC
    +关注

    关注

    0

    文章

    97

    浏览量

    20635
  • 虚拟机
    +关注

    关注

    1

    文章

    931

    浏览量

    28408
  • SCI
    SCI
    +关注

    关注

    1

    文章

    56

    浏览量

    20169

原文标题:TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    排查并处理共享站点S1用户面路径不可用告警

    增多,如图1所示。 图 1  电信4G基站告警 1. 通过对基站告警进行分析后发现,出现告警的S1用户面路径不可用告警,对端IP地址为10.100.33.X,如图2所示。 图2 对端I
    的头像 发表于 01-23 11:08 116次阅读
    排查并<b class='flag-5'>处理</b>共享站点S1用户面路径不可用<b class='flag-5'>告警</b>

    交换机MC-LAG场景下单臂BFD无法UP问题

    作为源IP地址做BFD,VEG上配置静态路由打通loopback连通性(注:直连地址在MC-LAG场景只有一边互通)。 版本:9900X V1.00.20.02P16   图1 MC-LAG单臂BFD场景组网示意图 单臂BFD
    的头像 发表于 01-17 11:43 106次阅读
    交换机MC-LAG场景下单臂<b class='flag-5'>BFD</b>无法UP问题

    网络流量监控与网关优化

    在当今数字化时代,网络流量的监控和管理对于任何组织来说都是至关重要的。随着数据量的激增和网络攻击的日益复杂,有效的网络流量监控和网关优化变得尤为重要。 网络流量监控的重要性 1. 识别
    的头像 发表于 01-02 16:14 249次阅读

    VLAN 实施对网络性能的影响

    的广播域和冲突域。这样,网络中的广播流量和冲突就被限制在每个VLAN内部,减少了网络拥塞,提高了网络的整体性能。 优化网络流量 VLAN允许
    的头像 发表于 11-19 09:35 645次阅读

    华纳云:如何理解软件定义网络?和传统网络相比有哪些优势?

    就是说将控制平面与数据平面分离。SDN 允许 IT 运维团队通过集中面板来控制复杂网络拓扑中的网络流量,而无需手动处理每个网络设备。 软件定义网络
    的头像 发表于 09-26 16:03 600次阅读
    华纳云:如何理解软件定义<b class='flag-5'>网络</b>?和传统<b class='flag-5'>网络</b>相比有哪些优势?

    IDS、IPS与网安防御

    检测到异常网络流量模式时,这可能意味着有潜在的恶意攻击正在进行。可能来自一些不明来源的IP地址发送大量异常的数据请求,超出了正常业务的流量范围。通过对这些可疑IP地址的监测和分析,管
    的头像 发表于 09-18 10:42 451次阅读

    IP地址如何进行网络监测? » 立即查看

    ​一、异常检测的方法和技术有哪些? 目前常用的异常检测方法技术主要有基于统计分析的方法、基于机器学习的方法、基于规则的方法。 1.基于统计分析的方法也就是通过对网络流量、设备性能等数据进行统计分析
    的头像 发表于 09-14 15:15 340次阅读

    自动化生产车间异常告警运维管理系统解决方案

    管理等系统提出了更高的要求。 面向自动化生产车间,物通博联提供基于工业智能网关的异常告警运维管理系统解决方案。通过将工业智能网关部署在车间现场并接入控制系统PLC、DCS、SCADA等,进行数据采集与网络传输工作,将设备数
    的头像 发表于 07-27 10:36 414次阅读
    自动化生产车间<b class='flag-5'>异常</b><b class='flag-5'>告警</b>运维管理系统解决方案

    IR615配置流量告警方法

    1.登录路由器,服务流量管理中设置流量使用阀值. 2.添加告警设置,在服务&gt;告警设置中勾选告警输入和
    发表于 07-25 07:59

    艾体宝干货 IOTA流量分析秘籍第一招:网络基线管理

    网络基线管理是一项关键的网络安全实践,它有助于识别网络中的异常活动并及时采取措施。本文将探讨如何利用IOTA这一强大的工具来捕获和分析网络流量
    的头像 发表于 07-02 14:53 412次阅读
    艾体宝干货  IOTA<b class='flag-5'>流量</b>分析秘籍第一招:<b class='flag-5'>网络</b>基线管理

    艾体宝干货 | 教程:使用ntopng和nProbe监控网络流量

    本文是关于使用 ntopng 和 nProbe 监控网络流量的教程。文章详细介绍了如何配置和使用这两个工具来监控和分析网络流量。内容涉及硬件和软件的安装、配置端口镜像、静态IP地址设置、SSH服务器
    的头像 发表于 05-29 15:35 970次阅读
    艾体宝干货 | 教程:使用ntopng和nProbe监控<b class='flag-5'>网络流量</b>

    TSN抓包工具解密:数据包捕获,为什么选Profishark?

    网络管理中,网络流量分析和故障排查是重要环节,如何高效精准地进行网络流量分析和故障排查?来看看利用ProfiShark数据包捕获,让我们一起探索其中的优势和特点。一、捕获网络流量的重
    的头像 发表于 04-29 08:04 698次阅读
    TSN抓包工具解密:数据包捕获,为什么选Profishark?

    艾体宝产品 | Allegro网络流量分析仪

    艾体宝产品 | Allegro网络流量分析仪
    的头像 发表于 04-29 08:04 532次阅读
    艾体宝产品 | Allegro<b class='flag-5'>网络流量</b>分析仪

    维谛嵌入式开关电源常见告警处理方法

    维谛嵌入式开关电源常见告警处理方法
    的头像 发表于 04-09 17:15 1521次阅读
    维谛嵌入式开关电源常见<b class='flag-5'>告警</b><b class='flag-5'>处理</b>方法

    利用DOCA构建数据中心流量管理解决方案

    胡凌翔创建的项目名称为 “TC-HTB-DPU”,该项目着眼于现代网络环境中的一大挑战-网络流量处理能力问题。
    的头像 发表于 03-20 14:08 323次阅读