SDH传输故障处理分析
传输系统的日常维护工作经常要求我们对各类故障进行定位并及时排除。故障定位最关键的是将故障点准确地定位到单板,然后排除故障。这就需要对故障产生的原因、处理的思路及方法有一个清晰的认识,这样才能够达到事半功倍的效果。
传输故障定位的基本原则
众所周知,传输故障定位一般应遵循“先抢通后修复、先外部后传输、先单站后单板、先线路后支路、先高级后低级”的原则。
1.先抢通后修复
在出现故障时,系统维护者要首先抢通业务然后进行故障修复。如果存在影响业务情况下的传输网络告警故障,如在2Mbit/s业务通道出现 LOS(信号丢失)告警,因外线原因导致的收无光告警,单元盘故障产生的UnitFailure(单元失效)告警等情况下产生的故障,必须首先抢通业务。
不过要想先抢通业务需要一个先决条件,那就是网络中有与故障通道相同起始点的可用通道资源或与故障板件相同的可用备板。
2.先外部后传输
在处理故障时应先排除外部的可能因素,如断纤、终端设备故障、电源或机房环境配套故障等,而后进行传输系统原因查找。当可能存在外界因素影响而产生传输网络告警故障时,如设备温度告警、光路告警、网元失效告警,也需照此原则处理。
3.先单站后单板
指在查找传输设备故障原因时,需要先定位到站点再定位到板件。
一般设备故障时,不会只是一个站点出现告警,而是在很多站点同时上报告警。这时就需要通过分析和判断缩小范围,快速、准确地定位是哪个单站的问题,而后尽可能准确地将故障定位到单站后再具体定位到单板。如处理光路误码、光功率异常等告警处理时,需要结合业务信号流,对告警与性能事件一起进行分析。可采用环回法、替代法、数据分析法、仪表测试法来判断告警及故障产生的原因,将其定位到单板。
4.先线路后支路
在处理故障时,如果支路出现了大量AIS告警,这时需要先排除线路板故障再查看支路板故障。
由于传输系统线路板的故障常常会引起支路板的异常告警,在处理告警时,应按“先线路后支路”的顺序,排除网管告警;如支路出现大量AIS则首先查看线路板是否出现LOS告警或其他异常告警,再查看支路板告警。
5.先高级后低级
在进行告警分析时,先分析高级别告警再分析低级别告警。
特别是当高、低级别告警同时存在时,应首先分析级别高的告警,如紧急告警、主要告警,然后再分析低级别的告警,如次要告警、一般告警。处理告警时,系统维护者先处理影响业务的告警。如果这些告警是由更高一级的告警引起的,则先处理更高一级的告警,如AIS、LOP等。如果是由LOS引发的,要先处理LOS告警。
传输故障形成原因
导致传输故障的原因很多,按照故障的来源,大体上可分为工程施工缺陷、日常维护操作不当、设备对接失败、设备外部原因及设备本身原因等。
1.工程施工不规范、质量差
此类故障有的在施工期间就能暴露出来,有的可能在设备运行一段时间或某些外因作用下,才暴露出来,从而为设备的稳定运行埋下隐患。为了杜绝此类故障,施工人员需要严格按工程规范施工安装,认真细致地按规范要求进行单点和全网的调试和测试。
2.日常维护操作不当
维护人员由于对系统了解不够深入细致,对具体设备的细节、性能特点和注意事项以及新老设备和新旧版本的特点和差别不清楚,就贸然开通而容易导致故障。此类故障最容易在升级扩容、新老设备及版本混用、使用新版的备板和使用未经系统联调的板件的情况下出现。
3.设备对接失败
由于传送业务的多样性和业务对传输通道性能需求的复杂性,传输设备的对接十分复杂,这时容易出现系列问题,比如线缆连接错误,设备接地不符合要求,传输、交换网络之间时钟同步异常,SDH帧结构中开销字节的定义差别等,都会导致故障的产生。
4.设备外部原因
设备外部故障也将导致传输故障。导致传输故障的外部原因很多,包括:一、电源系统及配套故障。如交流停电、直流掉电、熔断器故障、供电电压过低、接地不良、环境劣化等;二、光纤光缆故障。如光缆线路中断,光缆线路衰耗过大、尾纤断,尾纤弯曲半径过小,法兰盘接头有灰尘及尾纤头脏等;三、电缆故障。如2Mbit/s电缆中断,2Mbit/s接口输入输出端口脱落、松动而造成的接触不良等;四、交换机故障。
5.设备本身原因
这指的是设备本身损坏或板件配合存在着问题。常见的现象有:一、单盘故障。如线路板、2Mbit/s板、时钟板、交叉板、主控板等器件损坏;二、网管系统故障。包括网管与设备之间的网线故障或系统异常而造成的ECC通道中断、死机等情况。
需要提醒的是,设备在运行较长时间后,板件会自然老化,这种由于设备老化而产生的故障也属于此类。设备老化故障有一个共同特点:设备已使用较长时间,故障之前设 备基本正常,故障只是在个别点、个别板件出现,或在一些外因作用下出现。
故障处理思路
在遇到故障时,系统维护者应该不慌不乱,仔细查看故障现象并分析可能原因,从而做到有的放矢,迅速处理。故障处理一般应遵循“先看,再问,然后思考,最后动手”的思路。
系统维护者到达现场后首先查看故障的现象,包括故障出现的位置,有哪些告警,故障的严重程度,造成的危害等,这样才能够明白故障的本质。
查看完现象后,系统维护者应询问各阶段现场人员,该现象是由何种原因造成,比如是否有人修改了数据,删除了文件,更换了电路板;是否遭遇停电或雷击,是否存在操作不当现象。
根据以上结果,系统维护者再结合自己的知识思考、分析,判断何种原因可能引起该种故障等,做出较为正确的判断。最后根据故障定位原则找出故障点,通过修改数据、更换单板等方法排除故障。
常见传输故障处理方法
常见的传输故障处理方法包括观察分析法、环回测试法、插拔法、替换法、配置数据分析法、更改配置法、仪表测试法和经验处理法。
1.观察分析法
系统故障时一般会伴有相应的告警信息。通过观察告警灯运行情况,可以及时发现故障。故障发生时,网管上也会记录非常丰富的告警事件和性能数据信息,通过分析这些信息,并结合SDH帧结构中的开销字节和SDH告警原理机制,初步判断故障类型和故障点的位置。
2.环回测试法
有时观察分析法不能解决问题,如组网、业务以及故障信息相当复杂的情况和无明显告警和性能信息上报的特殊故障情况。系统维护者可以利用网管提供的维护功能进行测试,判断故障点和类型。最常见的方法是环回。
环回是定位故障点最有效和常用的方法,它不需要对告警和性能做太深入的分析,缺点是会影响业务,一般在业务量小的时候使用。
3.插拔法
当发现某种电路板有故障时,系统维护者可以通过插拔一下电路板和外部接口插头的方法,排除因接触不良或处理机异常产生的故障。在插拔时,系统维护者要注意遵循单板插拔的操作规范,以免导致其它问题甚至损坏板件。
4.替换法
当用插拔法不能解决问题时,可以考虑替换法。替换法就是使用一个正常的备件去替换一个被怀疑工作不正常的元件,从而实现故障的定位和排除。
替换法适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等。或故障定位到单站后,用于排除单站内单板的问题。如某站光板有告警,我们怀疑收发光纤接反,则可将收、发两根光纤互换。若互换后,光板告警消失,就说明确实光纤接反。
替换法的优点在于方法简单,对维护人员要求不高,比较实用,但对备件有要求。另外替换插拔电路板时,需要按照操作规范执行。
5.配置数据分析法
配置数据分析法是指通过开销字节配置及状态分析、更改交叉连接等手段对告警进行辅助判断和处理的故障排除方法。
配置数据分析法的优点是不影响业务,不需要仪表,能够正确识别硬件连接错位,处理效率高。但是故障定位的时间相对较长,且对维护人员的要求非常高。一般只有对设备非常熟悉且经验非常丰富的维护人员才能使用。在使用该方法时,应尽量选择J0/J1/V3等不影响业务的踪迹字节和其他状态字节。
6.更改配置法
更改配置法是对时隙、板位、单板参数重新进行配置。故适用于故障定位到单个站点后,排除由于配置错误而导致的故障。
当通过更改时隙配置不能将故障确切地定位到是哪块单板的问题时,需进一步通过替换法进行故障定位。因此该方法适用于没有备板的情况下,初步定位故障类型,并使用其他业务通道或板位暂时恢复业务。
该方法操作起来比较复杂,对维护人员的水平要求较高。因此,除非在没有备板的情况下用于临时恢复业务,或用于定位指针调整问题,一般情况不推荐使用。
7.仪表测试法
仪表测试法一般用于排除传输设备外部问题以及与其它设备的对接问题。传输设备常用测试仪表包括2Mbit/s误码测试仪、SDH测试仪、光谱分析仪等。
通过仪表测试法分析定位故障比较准确。缺点是对仪表有需求,同时对维护人员的要求也较高。
8.经验处理法
在一些特殊的情况下,如由于瞬间供电异常,低压或外部强烈的电磁干扰,致使传输设备某些单板进入异常工作状态。此时的故障现象,如业务中断、 ECC通信中断等,可能伴随相应的告警,也可能没有任何告警,检查各单板的配置数据可能也是完全正常的。经验证明,在这种情况下,系统维护者通过复位单板,网元掉电重启,重新下发配置或将业务倒换到备用通道等手段,可有效地及时排除故障、恢复业务。
建议系统维护者尽量少使用该方法来处理,因为该方法不利于故障原因的彻底查清。遇到这种情况,除非情况紧急,一般还是应尽量使用前面介绍的几种方法,或通过正确渠道请求技术支援,尽可能地将故 障定位出来,以消除设备内外的隐患。
典型案例分析
为了更深入地理解传输故障的处理思路和方法,现对几个典型的案例进行分析。
1.传输2Mbit/s线故障引起业务中断
故障现象:某网元2Mbit/s业务中断,传输设备为华为155/622H,传输设备上有T-LOS告警。
故障分析:由于传输设备上有T-LOS告警,系统维护者可以肯定传输设备光路没有任何问题。因为在传输设备到网元的2Mbit/s电路上有故障,所以问题可能出在传输设备电接口板SP1D或是2Mbit/s线故障。
故障定位和解决步骤:到站先用环回的方式判断故障点,在DDF架上做远端环回时,传输设备仍有T-LOS告警,做近端环回时通路正常,说明是 DDF架到SP1D板的2Mbit/s线有问题,且是SP1D板到DDF架上的发支路故障,与开始的分析吻合。由于SP1D板到DDF架上的2Mbit /s线是成品线,无法修复,只有将SP1D板上未用的2Mbit/s成品线与故障线成功对换后,告警消除,放通2Mbit/s,业务才恢复正常。为保证以后业务的正常开通,系统维护者最后将坏的那根2Mbit/s成品线换下,以保证所有2Mbit/s线是正常的。
结论:此故障是一个典型的2Mbit/s线故障引起业务中断案例,在这个案例中,我们根据故障现象,预先分析出故障属于2Mbit/s电路故障,并由最常规的环回方式来判断故障点,找到故障点后迅速地恢复业务。
2.电压异常导致业务中断
故障现象:某局传输组网为4个OptiX2500设备组成双向复用段保护环,1号网元为业务中心点,接有网管计算机。某日,该局3号网元业务中断,从网管无法登录该网元,且2、4号网元对应3号网元光板报“R-LOS”告警。
故障分析及排除:从故障现象分析,应该是3号网元掉电;当系统维护者赶到3号网元,发现3号网元机架告警灯及单板指示灯全灭。测量-48V与BGND接线柱之间的电压为0V;测量电源设备输出电压,为-53.7V,但电源设备有输出电压不正常告警。
此时系统维护者怀疑传输设备内部短路。关闭3号网元机柜子架电源开关,重新测量-48V与BGND接线柱之间的电压,为-20.39V,可能是机柜电源盒局部短路将电位拉低。
关闭电源设备给传输设备供电的一路电源(拔下电源保险),断开传输设备电源输入电缆,在子架电源开关关闭的情况下测量-48V与BGND之间的电阻,为几千欧姆,正常。
系统维护者怀疑电源电缆压降过大,测量-48V、BGND电缆的电阻,均为零点几欧姆,正常。进一步测量拔下的电源保险,发现其电阻已达到十千欧级,故障原因就出在电源保险上。
换上正常的保险,重新给3号网元加电,一切正常。
结论:电源保险损坏,但并未开路,由于其电阻值变得很大,因此虽然输出电压正常,但实际并无带负载的能力。因此,在遇到传输设备输出电压不正常的时候,系统维护者除了考虑传输设备的故障因素,还要同时对电源设备进行检查。
3.线路人为盗割中断引起业务中断
故障现象:某传输网XXX01网元~XXX网元,两传输网元互报R-LOS告警,在该环上部分网元上报PS告警,所有网元均能登录,该环上及环到链间的业务均得到保护,无业务中断。告警信息有R-LOS、PS、部分备用通道TU-AIS。
原因分析:由于无业务中断,表明环倒换正常,且两网元互保R-LOS告警且均能登录,初步断定为该中继段的光缆断或设备尾纤故障。
该环为PP环,其保护属性为支路板倒换,当主用通道发生故障时,支路板会倒换到另一个方向进行选收业务,同时上报PS告警和备用通道TU-AIS告警,属正常告警。
处理过程:检查设备尾纤、连接件、光板等,一切正常,断定为光缆故障。经OTDR测试,发现XXX01网元出局1.2km处光缆断,巡线至XXX01网元出局1.2km处,发现该处被人为盗割。修复光缆,故障解决。
结束语
在SDH传输网络的日常维护过程中,我们经常会遇到各种故障现象并伴随着不同的告警指示,有时甚至出现一样的告警指示,貌似同一故障,却由不同的原因导致。只有透过故障的表象找到其本质,才能实现故障的准确定位并迅速排除。这就需要我们了解故障定位的基本原则,明确故障处理的思路,掌握常见的故障处理方法,从而从容应对各种异常现象,提高日常维护的效果。
评论
查看更多