TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理-电子发烧友网

某资源池TECS上报BFD会话DOWN告警和网络流量异常告警，持续时间1秒至6分钟不等，如下图所示。

同时，业务侧反馈，该资源池ISBG业务网元产生指标下降等异常情况，但已快速恢复。

物理节点上的虚拟机都通过业务面网卡和节点外部通信。当流量异常时，业务网卡上会出现很多丢弃包。

系统周期性采样网卡所有收发包总数和丢弃包总数，当丢弃包占比数连续多次超过门限时，则上报告警；当连续几个采样周期的丢弃包占比数低于门限，则恢复告警。

虚拟网络上出现较重负荷，造成报文丢弃率超过给定阈值。短暂的指标下降异常情况可能和资源相关，例如CPU、内存、网络资源不足，或者硬盘的IO读写过低导致延迟。

问题分析过程如下：

1.观察到异常情况后，对告警内容展开分析。执行dvs show-dpifstats命令，找到对应端口，查看overrun和drop统计项是否在增加。

2.观察到计算服务器NFV-D-XXX-SRV-15业务bond子接口均上报了网络流量异常告警，分析可能是端口丢包。

3.登录服务器查看DVS日志，端口丢包量在告警时刻出现上涨，如下图所示。

4.登录云平台查看NFV-D-XXX-SRV-15承载业务，该主机承载虚机四台，其中包含ISBG的XX-isbg-OMPIPI_2_L虚机。分析可能为DVS接收丢包影响到虚机业务。

5.分析SAR日志，确认DVS的绑定核在故障期间出现被占用的情况，时间点与网卡丢包基本一致，认定为DVS核占用导致的DVS物理网卡丢包，如下图所示。

6.分析BMC黑盒子日志，该时间（+8）在日志中大量出现ECC内存错误，内存定位DIMM11，如下图所示。

7.ECC错包出现的时间点与DVS网卡丢包时间点（DVS转发核被占用的时间点）基本重合，认定内存ECC错误与DVS的丢包强相关。

8.根据日志显示报错信息，ECC内存错误触发的内存槽位为DIMM11。

1.登录管理页面，选择“云平台管理-计算-实例”，选中该台主机上虚拟机，完成主机上虚拟机的热迁移，如下图所示。

2.完成迁移后，选择“云平台管理-计算-主机”，选中这台主机，设置维护模式，如下图所示。

3.下电服务器完成内存更换，完成后上电，取消“设置维护模式”。

4.迁移回虚拟机，测试正常。

5.内存ECC错误为此次异常故障根因。内存ECC错误影响DVS转发分析：

l在内存ECC错误故障期间，现有的BIOS配置会为每一个内存ECC错误产生一个SMI中断。

如果产生ECC风暴，那么影响CPU处理性能。

SMI中断在内核感知为NMI，不受内核控制，从硬件描述看内核是无法屏蔽此类中断的。内存ECC默认不告警。

SMI中断导致CPU进入SMM模式，该模式对于OS是透明的。

因此SMI中断是硬件和固件（BIOS）共同处理的，其对于CPU处理流程的打断，对OS而言是不可感知的，不会出现在OS的统计项里面。

只有当BIOS处理SMI后，并以SCI中断通知OS时，OS才能感知到SCI中断。但是BIOS是否触发SCI中断也不是OS所能控制的。

总之，SMI中断对于DVS处理核的影响是硬件和固件的行为。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SAR

SAR

+关注

关注
3

文章
420

浏览量
46296
BIOS

BIOS

+关注

关注
5

文章
470

浏览量
46130
ECC

ECC

+关注

关注
0

文章
97

浏览量
20735
虚拟机

虚拟机

+关注

关注
1

文章
954

浏览量
28631
SCI

SCI

+关注

关注
1

文章
57

浏览量
20224

原文标题：TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

文章出处：【微信号：ztedoc，微信公众号：中兴文档】欢迎添加关注！文章转载请注明出处。

能源管理移动革命：异常告警秒级响应+能效报告自动生成

新一代能源管理系统通过移动化革命和异常告警秒级响应机制，实现能源管理实时化、智能化新纪元。它通过物联网设备采集数据，边缘计算节点进行分析，管理人员移动终端获取预警信息。通过故障预测模型，系统提前预警，避免生产事故。

发表于 03-11 09:46 •27次阅读

能源管理移动革命：<b class='flag-5'>异常</b><b class='flag-5'>告警</b>秒级响应+能效报告自动生成

高效流量复制汇聚，构建自主可控的网络安全环境

随着大数据监测、流量分析以及网络安全监管等核心业务需求的日益增长，网络环境对高性能、高可靠性的流量监控和分析提出了更高的要求。流量复制汇聚平

发表于 03-10 14:29 •178次阅读

高效<b class='flag-5'>流量</b>复制汇聚，构建自主可控的<b class='flag-5'>网络</b>安全环境

TECS OpenStack资源池时间同步失败的故障分析

某运营商TECS OpenStack资源池，在当前告警中显示“时钟同步失败”，以10分钟整数倍为间隔上报“时间同步失败”告警，持续时间30秒

发表于 03-03 10:09 •115次阅读

<b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池时间同步失败的故障分析

TECS OpenStack资源池虚机残留导致网元异常的问题处理

某运营商TECS资源池的一台主机内存故障，进行关机、内存更换操作，虚机自动迁移到其他主机上，同时做了其他虚拟机的手动迁移操作。后续在TECS上出现虚机内核异常

发表于 03-03 09:42 •97次阅读

<b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚机残留导致网元<b class='flag-5'>异常</b>的问题<b class='flag-5'>处理</b>

排查并处理共享站点S1用户面路径不可用告警

增多，如图1所示。图 1 电信4G基站告警 1. 通过对基站告警进行分析后发现，出现告警的S1用户面路径不可用告警，对端IP地址为10.100.33.X，如图2所示。图2 对端I

发表于 01-23 11:08 •300次阅读

排查并<b class='flag-5'>处理</b>共享站点S1用户面路径不可用<b class='flag-5'>告警</b>

交换机MC-LAG场景下单臂BFD无法UP问题

作为源IP地址做BFD，VEG上配置静态路由打通loopback连通性（注：直连地址在MC-LAG场景只有一边互通）。版本：9900X V1.00.20.02P16 图1 MC-LAG单臂BFD场景组网示意图单臂BFD单

发表于 01-17 11:43 •208次阅读

交换机MC-LAG场景下单臂<b class='flag-5'>BFD</b>无法UP问题

网络流量监控与网关优化

在当今数字化时代，网络流量的监控和管理对于任何组织来说都是至关重要的。随着数据量的激增和网络攻击的日益复杂，有效的网络流量监控和网关优化变得尤为重要。 网络流量监控的重要性 1. 识别

发表于 01-02 16:14 •356次阅读

VLAN 实施对网络性能的影响

的广播域和冲突域。这样，网络中的广播流量和冲突就被限制在每个VLAN内部，减少了网络拥塞，提高了网络的整体性能。优化网络流量 VLAN允许

发表于 11-19 09:35 •871次阅读

IP地址如何进行网络监测? » 立即查看

一、异常检测的方法和技术有哪些？目前常用的异常检测方法技术主要有基于统计分析的方法、基于机器学习的方法、基于规则的方法。 1.基于统计分析的方法也就是通过对网络流量、设备性能等数据进行统计分析

发表于 09-14 15:15 •397次阅读

IR615配置流量告警方法

1.登录路由器,服务流量管理中设置流量使用阀值. 2.添加告警设置,在服务>告警设置中勾选告警输入和

发表于 07-25 07:59

艾体宝干货 IOTA流量分析秘籍第一招：网络基线管理

网络基线管理是一项关键的网络安全实践，它有助于识别网络中的异常活动并及时采取措施。本文将探讨如何利用IOTA这一强大的工具来捕获和分析网络流量

发表于 07-02 14:53 •475次阅读

艾体宝干货 | 教程：使用ntopng和nProbe监控网络流量

本文是关于使用 ntopng 和 nProbe 监控网络流量的教程。文章详细介绍了如何配置和使用这两个工具来监控和分析网络流量。内容涉及硬件和软件的安装、配置端口镜像、静态IP地址设置、SSH服务器

发表于 05-29 15:35 •1084次阅读

TSN抓包工具解密：数据包捕获，为什么选Profishark？

在网络管理中，网络流量分析和故障排查是重要环节，如何高效精准地进行网络流量分析和故障排查？来看看利用ProfiShark数据包捕获，让我们一起探索其中的优势和特点。一、捕获网络流量的重

发表于 04-29 08:04 •791次阅读

艾体宝产品 | Allegro网络流量分析仪

艾体宝产品 | Allegro网络流量分析仪

发表于 04-29 08:04 •591次阅读

利用DOCA构建数据中心流量管理解决方案

胡凌翔创建的项目名称为 “TC-HTB-DPU”，该项目着眼于现代网络环境中的一大挑战-网络流量处理能力问题。

发表于 03-20 14:08 •349次阅读

搜索历史

TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

评论