0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用数据包分析驱动的故障域隔离方法解决网络性能问题

电子设计 来源:电子工程网 作者:电子工程网 2021-06-29 16:00 次阅读

作者:Emulex公司Endace业务全球培训总监Jeff Brown

网络问题并不复杂,并且当大家都来自同一个组织的时候,专家团队方法能够有效地对事故作出响应。但近年来,随着基础架构云端化,相关利益主体分布在不同的部门、公司和地理区域,针对网络事故和业务应用性能问题的根本原因分析(RCA)变得越发困难。

为满足服务水平协议(SLA)要求并防止客户流失,快速查明根本原因已成为许多企业的首要任务。但是,据《Emulex可视性调查》表明,79%的企业曾经将事故发生的原因错误地归咎于某个IT部门,这不仅增添了混乱程度,还推迟了解决问题的时间。

针对以上问题,本文将介绍一个由数据包分析驱动的故障域隔离(FDI)方法,帮助企业进行故障检修并解决网络和应用性能问题。

外包成为主流

即使整个基础架构由一家企业所有,要充分了解整个基础架构的实际状态也会非常困难。更何况,当外包业务迅速扩张时,端到端业务应用就会逐渐出现许多盲点。如果整个技术层都被外包出去,就会出现一个巨大的盲点,导致您无法在该技术域内进行RCA。为了顺应技术外包的趋势,企业必须清楚地区别事故响应工作流程中FDI阶段与RCA阶段的目的和要求。

什么是FDI?

FDI的理念很简单,任何看过病的人都不难理解,它跟医疗保健领域的“事故调查”流程在本质上相似。首先,一名全科医生会进行初步评估、安排诊断测试并评估结果。然后,患者将接受专科医生的检查,而且只有在证据充分、可以确定病情时才会进行其他诊断和治疗。诊断过程以事实而不是以猜测作为依据。

部署FDI的企业希望最大限度地减少参与每次事故调查的技术专家的人数和类型,这就是FDI需要在RCA之前进行的原因。这样做的目的是为了在开始深入分析根本原因之前找到一个可疑的技术层。为什么要按技术进行隔离呢?一是因为IT部门和外包业务通常是按技术划分的,二是因为这样有助于快速减少参与人员的数量。由于只会牵涉到一个故障域,技术隔离可以避免整个部门及外部企业由于接受调查而导致业务停顿。这就好比您不会让一名神经外科医生来检查脚趾骨折一样。

FDI的一个主要目的是防止调查过程中“相互推诿”的现象。要使FDI更为有效,必须提供确凿的证据,证实某个“可疑”子系统或技术层是导致问题的根本原因。同时,还需要确认任何其他子系统或技术层不可能是问题的根源所在。当故障域位于外包技术中时,这一点尤为重要。

在将问题移交给负责的团队或服务提供商处理的时候,有效的FDI还有助于提供与特定技术相关、可付诸行动的数据,这将为技术团队提供相关情景、症状和信息,以便他们立即针对其所负责的系统进行深入的根本原因分析。

图1: 事故响应流程

只需要一组事实

为保证其效率及有效性,FDI需要根据在技术层之间交换的实际数据包进行分析。数据包不会“撒谎”,它们也不会掩盖平均值或统计数据中的关键细节。以基本数据包作为证据可以确保FDI流程找到对于事故具有不可推卸责任的故障技术层。

“首要FDI”指的是将事故交予特定技术团队或外包服务提供商。它的目标相对简单,即在少数部门、团队以及外包服务商中分配事故,因而是一种极为经济的实施方法。在实际操作中,它涉及的技术层、网络中的分路点以及在每个技术层之间进行监控的网络记录器均相对较少。

什么原因导致了延迟?

当人们认真地进行RCA并且有自信确定问题所在的时候,人们就可以降低成本并缩短解决问题的时间。当负责处理问题的人员拥有正确评估原因及解决问题的专业技能时,RCA就能达到最佳效果。

在前文,我们提到以数据包为导向的FDI流程能够有效加快事故调查并减少参与人员数量。此外,FDI不需要很多分路器和设备即可对主要技术层进行隔离,从而实现其首要目标——仅指派相关的人员参与事故调查。那么,为什么很多重大事故调查仍然需要召开专家小组会议呢?

问题在于,有的人认为,仅仅依靠若干分路器和网络记录器不足以完全解决复杂的事故。您知道吗?他们的看法是正确的。但是,这并不是事故调查流程FDI阶段的目标,该阶段的目标是隔离故障。通过基本数据包以及数据包分析的流程,您可以简单有效地实现这一目标。

分而治之

首要/一级FDI流程会将事故隔离到由企业内部结构和外包安排所定义的单一技术层。要达到首要FDI的最佳效果,我们需要:1) 使用网络记录工具监控和储存技术层之间产生的网络流量;2) 通过应用事务分析(Application Transaction Analysis)来进行故障隔离。数据包存储对于高效的FDI所依赖的回顾性分析(Back-in-time Analysis)至关重要。

您可能已经猜到,FDI是一个可以分层部署的“分治”流程。您还可以在每个技术层次中进行FDI,从而进一步隔离问题,直到高效完成RCA。这个过程可以称为“层内FDI”或“辅助FDI”。

辅助FDI工作流程尤其适用于网络事故调查。同理,为达到FDI的最佳效果,我们需要监控并储存关键网络组件之间的实际数据包流,从而进行有效的回顾性分析。

如果以网络内FDI作为目标,则需要了解应在哪些位置部署网络分路器和网络记录工具。首要FDI与网络内FDI之间的主要区别在于观察点的位置更多与物理位置、技术、员工专业技能以及外包程度和外部提供商有关,与组织问题关系不大。但是,FDI流程较为类似:执行基于数据包的分析以提供确凿证据,从而确定哪些技术或服务提供商存在问题、哪些不存在问题。

始终运行还是始终可用?

我们不希望等到发生重大事故时才开始部署执行FDI所需的分路器和监控工具,这将与FDI的初衷背道而驰。因此,我们应部署并始终运行执行主要/一级FDI所需的分路器和网络记录工具。

但是,如何执行辅助/技术内FDI呢?如何处理远程站点、地区性数据中心和非关键性应用呢?您不可能四处进行分路,也无法储存一切内容。

幸运的是,人们开发了许多网络记录工具,以满足主要技术层之间的“始终运行”记录需求,以及通过网络数据包代理连接到众多二级分路点的“始终可用”记录需求。始终可用的设备不一定能够保证长期的回顾可视性,但您可以在需要时快速配置这些设备,根据当前事故调查的特定可视性需求进行监控。

如此简单?

那么,FDI真的像我们所说的那么简单吗?我们需要辩证地回答这个问题。很显然,在现代企业联网业务应用基础架构这样复杂的动态系统中,可能会出现各种反常、复杂甚至是匪夷所思的问题。您始终需要对这些类型的问题进行深入调查,并利用专家的技能和知识来加以解决。但这并不能说明FDI与有效解决这些负载问题无关。事实上,这些问题使一个严格、可重复、由数据驱动的FDI流程更为重要了。要解决复杂问题,为什么不采用FDI这种久经考验的“分治”方法呢?

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 监控
    +关注

    关注

    6

    文章

    2212

    浏览量

    55242
  • 数据包
    +关注

    关注

    0

    文章

    262

    浏览量

    24406
收藏 人收藏

    评论

    相关推荐

    EtherCAT抓分析故障排除示例

    在EtherCAT网络通讯过程中,网络分析故障排除是开发中必要的一环,但EthaerCAT网络数据包十分复杂,且
    发表于 11-16 09:59 7102次阅读

    网络常见故障分析及处理方式

    速度明显变慢或者掉线,在禁用网卡或者中断网络后恢复正常。  故障分析:  首先,在一台用户终端上ping网关测试,结果可以ping通网关,但是数据包发送超时现象严重,丢
    发表于 12-01 16:04

    介绍一种由数据包分析驱动故障隔离(FDI)方法

    什么是故障隔离(FDI)?什么原因导致了延迟?如何执行辅助/技术内FDI呢?
    发表于 05-21 06:58

    具有数据包丢失的NCS反馈调度研究

    网络化控制系统数据包丢失会导致控制系统性能下降与网络资源利用率降低。该文分析
    发表于 05-28 11:12 9次下载

    网络数据包捕获机制研究

    网络数据包捕获技术,是实现入侵检测、网络安全审计的关键技术。本文改进了国外传统的数据包捕获函数库Libpcap 捕获数据包的方案。原方案在网
    发表于 09-01 10:09 9次下载

    高速数据包处理硬件加速技术

    链路带宽的剧增给高速网络数据包处理带来了极大的挑战。传统的纯软件网络数据包处理在性能上已不能满足需要。当前
    发表于 05-28 16:24 0次下载
    高速<b class='flag-5'>数据包</b>处理硬件加速技术

    移动IPV6在改进数据包发送路径模型下性能分析

    针对现有移动IPV6中数据包发送代价较高的问题,对现有移动IPV6协议性能分析模型中数据包发送路径进行了改进,将访问路由发送至移动节点的数据包
    发表于 01-12 10:32 35次下载
    移动IPV6在改进<b class='flag-5'>数据包</b>发送路径模型下<b class='flag-5'>性能</b><b class='flag-5'>分析</b>

    基于数据包长度的网络隐蔽通道

    在传统隐蔽通道模型的基础上,利用数据包的长度,设计一种基于数据包长度的网络隐蔽通道模型(LAWB模型),给出其形式化描述。对该模型进行了
    发表于 02-23 15:18 23次下载
    基于<b class='flag-5'>数据包</b>长度的<b class='flag-5'>网络</b>隐蔽通道

    虹科便携式网络TAP提供完整数据包可见性

    数据包网络中传输的最小数据单位。网络管理员需要这个粒度单元来收集全面的网络分析,但当信息系统被信息淹没时,丢
    的头像 发表于 08-10 09:55 1688次阅读

    数据包丢失或损坏可能会使任何网络发生故障

    丢失或损坏可能会使任何网络发生故障,但对工业总线来讲,这更成问题。这些总线具备一些同步水平,以保持严格控制和精度。大多数工业总线使用特定的时间同步数据包通过连续和不间断的通信实现同步。当数据包
    的头像 发表于 01-21 17:36 2030次阅读
    <b class='flag-5'>数据包</b>丢失或损坏可能会使任何<b class='flag-5'>网络</b>发生<b class='flag-5'>故障</b>

    网络数据包分析软件wireshark的基本使用

    Wireshark(前称Ethereal)是一个网络数据包分析软件。网络数据包分析软件的功能是截
    的头像 发表于 09-29 14:48 3041次阅读

    wireshark导入数据包进行分析

    linux的tcpdump命令主要用于网络问题的调试中,通过抓取传输过程的数据包进行分析和调试。而wireshark则是一款功能强大,使用方便的数据包
    的头像 发表于 12-27 09:37 2136次阅读

    Wireshark网络数据包分析软件简介

    wireshark是一个免费开源的网络数据包分析软件,功能十分强大。可以截取各种网络数据包,显示网络
    的头像 发表于 04-26 09:52 2836次阅读
    Wireshark<b class='flag-5'>网络</b><b class='flag-5'>数据包</b><b class='flag-5'>分析</b>软件简介

    【虹科】使用流和网络数据包数据进行故障排除

    畅通无阻的网络性能是许多NetOps活动的核心目标,其中之一是通过使用数据包数据网络流来解决网络
    的头像 发表于 09-23 18:53 677次阅读
    【虹科】使用流和<b class='flag-5'>网络</b><b class='flag-5'>数据包</b><b class='flag-5'>数据</b>进行<b class='flag-5'>故障</b>排除

    艾体宝干货 OIDA之四:掌握数据包分析-分析的艺术

    本文是OIDA方法系列的最后一部分,重点介绍了数据包分析的“分析”阶段。这一最后阶段将剖析阶段的精炼数据转化为可操作的见解,使
    的头像 发表于 09-24 11:47 202次阅读
    艾体宝干货 OIDA之四:掌握<b class='flag-5'>数据包</b><b class='flag-5'>分析</b>-<b class='flag-5'>分析</b>的艺术