华为PTN故障处理手册v10版.docx
《华为PTN故障处理手册v10版.docx》由会员分享,可在线阅读,更多相关《华为PTN故障处理手册v10版.docx(63页珍藏版)》请在冰点文库上搜索。
华为PTN故障处理手册v10版
华为PTN故障处理手册v1.0
公司网络维护中心
2010年12月
一、
概述
PTN网络故障处理在日常维护中显得至关重要,为了更好的开展PTN网络的日常维护,特编制PTN网络故障处理手册。
本手册PTN设备故障处理主要涉及故障分析定位、业务中断故障应急恢复、常见故障处理方法等三个部分。
下面将对这三个部分进行详细说明。
二、网络故障分析定位方法
根据现网中处理网元脱管或业务中断等故障的经验,一般遵循“一分析,二倒换/复位,三换板”的处理方案。
保证PTN网络的稳定运行,尽量减少突发事故。
处理故障时,应从分析故障现象开始,尽快定位到故障的原因。
本节介绍各类分析和定位故障的方法、应用场景和应用示例。
二.1告警分析法
告警分析法是定位故障的常用方法之一。
当设备发生故障时,一般会伴随大量的告警。
通过对告警的分析,可大概判断出发生故障的类型和位置。
通过U2000查询告警:
只要在U2000主拓扑的网元图标上点击右键,就可以查询以下告警信息:
✧当前告警
✧网元侧历史告警
✧网管侧历史告警
通过分析、定位告警产生的原因,清除告警,并排除故障。
通过U2000获取告警信息时,应注意保证网络中各网元的当前时间与网管时间同步。
倘若网元当前时间与网管时间不同步,将导致信息上报错误。
在维护过程中,对某网元重下配置后,应特别注意将该网元的当前时间与网管时间同步。
否则网元会工作在缺省时间里,而缺省时间并不是当前时间。
示例一:
简单组网中,一般情况下清除告警的同时,故障也随之排除。
如下图所示的链路图中,网管计算机连接到NE2。
故障现象:
NE1和NE2之间的E-Line业务中断,NE2上报ETH_LOS告警。
故障分析定位:
排查ETH_LOS告警产生的可能原因,最终定位出业务中断故障的原因。
清除告警后,业务恢复正常,故障排除。
示例二:
复杂组网中,通过分析新增告警和已清除的历史告警,可以找出排除故障的关键所在。
某复杂环型拓扑组网突发广播风暴,各网元均出现大量FLOW_OVER告警,业务中断。
虽然通过断开环路光纤等方法恢复了业务,清除了FLOW_OVER告警,但无法定位出故障原因。
分析全网告警,发现某个UNI端口在上报FLOW_OVER告警的同时,该端口的历史告警ETH_LOS自动清除。
沿此线索,发现与该UNI端口对接的第三方设备上出现了远端环回,导致网络上出现环路。
解除该环回后,故障彻底排除。
二.2性能统计分析法
性能统计分析法通过统计“当前性能”和“RMON性能”来分析和定位故障。
判断单板、端口、Tunnel、PW的性能统计数据是否正常,可以判断是否存在故障。
当前性能:
下表区分不同的“对象”,列出当前性能统计的判断标准。
表 当前性能统计表
对象
判断标准
物理单板/端口
∙对于单板,其光功率、工作温度、CPU/存占用率应在正常围之。
∙对于端口,应没有误码。
MPLSTunnel
Tunnel没有丢包。
IP/GRETunnel
Tunnel没有丢包。
以太网业务OAM
没有丢包。
✧开启网元当前性能统计功能。
✧网元支持的当前性能的具体含义和解释。
RMON性能:
下表区分不同的“对象”,列出RMON性能统计的判断标准。
表 RMON性能统计表
对象
判断标准
物理单板/端口
∙对于主控板,CPU占用率不应过高。
∙对于端口,发送/接收方向有计数。
MPLSTunnel
∙发送/接收方向有计数。
∙没有丢包。
IP/GRETunnel
∙发送/接收方向有计数。
∙没有丢包。
业务PW
∙PW的发送/接收方向有计数。
∙没有丢包、乱序包、误码等异常统计。
✧Tunnel是双向的,可以在“对象”中选择正向Tunnel或反向Tunnel。
✧网元支持的RMON性能的具体含义和解释。
示例:
两个网元之前配置了两条Tunnel,但仅在一端网元上配置了APS保护组,导致ATM业务质量很差。
在网管上查询该ATM业务的RMON性能,发现存在乱序包计数,且乱序包计数值约为接收信元计数的50%,由此判断业务出现双收,并找到问题的原因所在。
二.3OAM分析法
OAM机制可以有效地检测、确认并定位出源于MPLS层网络部的缺陷和网络性能的监控。
设备可以利用OAM的检测状态来触发保护倒换,实现快速故障检测和业务保护。
A、OAM简介
OAM主要应用于PTN设备组网的网络侧(NNI侧),该区域具有以下特点:
●网元多。
一条MPLSLSP往往经过多个网元。
●组网复杂。
可能需要穿通第三方网络,存在很多导致故障的不确定因素。
●规划整改,扩容变化多。
B、OAM分类
分析定位故障时常用的OAM功能主要是TunnelOAM和PWOAM两种。
对Tunnel和PW执行Ping测试,通过计算OAM报文丢包率,判断Tunnel和PW的连通性。
C、执行LSPPing测试
1)进入“网元管理器”,在功能树中选择“配置>MPLS管理>单播Tunnel管理”。
2)在“OAM参数”选项卡中,使能Tunnel的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。
在弹出的“操作结果”对话框中单击“关闭”。
3)重复步骤1和步骤2,在Tunnel另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。
4)右键单击“节点类型”为“Ingress”的Tunnel,在弹出的下拉菜单中选择“Ping测试”。
在弹出的“Ping测试”对话框中设置相应的参数,单击“启动测试”。
5)在“测试结果”区域分析Ping测试结果。
如果发送报文数量等于接收报文数量,且丢包率为0,则该Tunnel的连通性正常。
D、执行PWPing测试
1)进入“网元管理器”,在功能树中选择“配置>MPLS管理>PW管理”。
2)在“PWOAM参数”选项卡中,使能PW的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。
在弹出的“操作结果”对话框中单击“关闭”。
3)重复步骤1和步骤2,在PW另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。
4)右键单击PW,在弹出的下拉菜单中选择“Ping测试”,在弹出的“Ping测试”对话框中设置相应的参数,单击“启动测试”。
5)在“测试结果”区域分析PWPing测试结果。
如果发送报文数量等于接收报文数量,且丢包率为0,则该PW的连通性正常。
E、OAM应用
业务中断或业务出现丢包、误码时,可按照所示的流程运用OAM功能,定位故障。
F、OAM分析业务故障流程图
图OAM分析业务故障流程图
G、OAM定位故障
通过在Tunnel的两端网元上使能OAM并查看LSP状态,可以轻易定位到存在故障的网元。
1)进入“网元管理器”,在功能树中选择“配置>MPLS管理>单播Tunnel管理”。
2)在“OAM参数”选项卡中,为Tunnel设置合适的“检测报文类型”和“检测报文周期”,使能“OAM状态”,单击“应用”。
在弹出的“操作结果”对话框中单击“关闭”。
3)选中一条或多条Tunnel,右键点击,在弹出的下拉菜单中选择“查询LSP状态”。
4)查看“LSP状态”,正常情况如下表所示。
Tunnel节点类型
LSP状态
Ingress
远端可用状态
Egress
近端可用状态
若出现其它状态时,根据“LSP缺陷位置”可定位到出现故障的网元。
5)根据相应的“LSP缺陷类型”,选择清除告警,检查光纤连接或确认端口、Tunnel、业务的配置参数等方法,排除故障。
二.4配置数据分析法
配置数据分析法通过在网管上分析业务的参数配置,找到配置错误的参数,从而定位故障。
当Tunnel或业务创建后不通,或在网管上修改部分参数后业务突然中断时,可以使用配置数据分析法来定位故障。
一般情况下,对照网元规划表即可找出网元上配置错误的参数。
当PTN设备与第三方设备对接时,由于两端的某些参数默认取值不一致,要特别注意两端参数的匹配问题。
采用配置数据分析法时,一般可遵循以下步骤。
1.检查网元的网元ID、网元IP、LSRID等参数是否配置正确。
2.对照网元规划表,检查端口状态和参数配置。
端口参数配置错误是现网中导致故障最常见的原因之一。
Ø对于以太网端口,确认端口是否已使能。
检查“端口模式”、“封装类型”、“工作模式”、“TAG标识”、“缺省VLANID”、“Tunnel使能状态”、“IP地址”等参数是否配置正确。
Ø对于SDH端口,检查“端口模式”、“封装类型”、“通道化”、“端口类型”、“Tunnel使能状态”、“时钟模式”等参数是否配置正确。
Ø对于PDH端口,检查“端口模式”、“封装类型”、“帧格式”、“阻抗”、“帧模式”等参数是否配置正确。
Ø对于IMA组,检查“协议版本”、“最小激活链路数”、“协议使能状态”、“时钟模式”、“E1帧模式”、“E1时隙数”、“ATM信元载荷加扰”、“VPI”、“VCI”等相关参数是否配置正确。
Ø对于第三方设备的端口,需要确认以太网端口工作模式、VC12线序模式或时钟模式是否与PTN设备匹配。
3.检查Tunnel两端网元上的参数配置是否匹配,是否选择了正确的端口。
4.检查以下PW参数配置。
ØPWID是否正确。
ØPW是否已使能。
ØPW的出入标签是否一致。
ØPW是否选择了正确的端口或Tunnel。
Ø对于CES业务,确认“报文装载时间”和“抖动缓冲时间”是否配置正确。
二.5仪表测试分析法
仪表测试分析法一般用于定位设备的外部问题及其它设备的对接问题。
定位故障的常用仪表主要有以下几种:
A.万用表:
根据不同需要可以将万用表调制电压档或电阻档,对怀疑的故障点进行电压或电阻测试。
如设备接地电压、电源电压等。
B.误码仪:
用于测试传输通道中存在的误码情况,如误码数、误码率、误码秒等。
一般是将需要测试的通道进行环回,通过误码仪发送伪随机码,并在误码仪上查看所测试到的通道误码情况。
C.光功率计:
用于测试单板的接收和发送光功率。
D.电缆测试仪:
用于测试电缆的端子对在最大额定电流下的电压降,从而可推断电缆的连通情况和传输质量。
E.网络分析仪:
用于网络性能的测试和分析,测试容较丰富。
如最大线速、数据流量、帧长、吞吐量、丢包率及网络延时等。
示例:
以网络分析仪定位故障为例说明仪表测试法的思路。
某网络的业务中断,需要对设备故障进行逐一排查。
按下图所示,将网络分析仪与设备正确连接,同时在NE上进行环回,对NE进行丢包率的测试。
图 网络分析仪和设备的连接
对网络分析仪进行正确的设置,向NE发送数据包。
根据网络分析仪上显示的丢包率结果,可判定是否由于NE的丢包过多导致业务中断。
如果数据正常,可确定NE工作正常。
可再对其它网元进行测试。
二.6环回法
环回法是定位故障时常用而且行之有效的一种方法,可以将故障尽可能准确地定位到单站。
设备维护人员应熟练掌握。
环回操作分为软件环回和硬件环回,这两种方式各有所长:
A.软件环回即在U2000上配置环回,操作方便,但定位故障的围和位置不够准确。
比如在单站测试时,配置光口为环回,即使业务测试正常,也不能确定该单板的接口模块没有问题。
B.硬件环回即使用光纤或者电缆环回端口,相对于软件环回而言环回更为彻底。
若通过尾纤将光口自环后,业务测试正常,则可确定该单板是好的。
但硬件环回需要到设备现场才能进行操作。
另外,光接口在硬件环回时要避免接收光功率过载。
环回操作会中断端口上其它正常运行的业务,在使用前请务必做好确认。
二.7排除法
在处理业务故障时,可以首先检查与其它业务的共用路由部分是否存在故障。
排除运行正常的部分,以缩小故障定位的围。
示例:
以下面的示例说明排除法的思路。
如下图所示。
NE01与NE02之间的Tunnel创建失败,但NE03与NE02之间可以正常创建Tunnel,因此可以判断故障发生在DSLAM或与及对接的链路上。
图 组网图
三、业务中断故障和业务恢复
下面介绍业务中断故障的应急处理流程。
三.1流程图
下面首先通过下图对OptiXPTN3900设备的应急处理流程进行说明。
了解故障原因之前不要轻易尝试操作,不正确的操作会导致问题扩大。
说明:
在处理故障前,要进行业务调离。
就是通过网管配置,将故障路由的业务倒换到可用路由中。
图 应急处理流程图
三.2查询误操作
查询故障发生前是否有误操作,如添加或删除业务、更改配置等。
如果存在误操作,要根据故障发生前的操作情况进行逆向操作恢复业务。
三.3检查告警
发生业务中断时,需要检查设备是否存在如下表所示的告警。
如果存在,应先排除告警指示的故障。
表 告警说明
告警类型
告警名称
告警说明
设备类告警
POWER_ABNORMAL
电源失效
FAN_FAIL
风扇故障会导致设备温度增高,影响正常运行
BD_STATUS
单板不在位
HARD_BAD
单板硬件错误报告
SYN_BAD
时钟同步源劣化
NESTATE_INSTALL
网元处于安装态
信号丢失告警
ETH_LOS
以太网口连接丢失
低阶业务失效告警
TU_AIS_VC12
VC12级别的TU告警指示
TU_LOP_VC12
VC12级别的TU指针丢失
线路告警
R_LOS
接收线路侧信号丢失
R_LOF
接收线路侧帧丢失
R_LOC
接受线路侧无时钟
R_OOF
接收线路侧帧失步
其他高低阶告警
HP_TIM
高阶通道追踪识别符失配
HP_SLM
高阶通道信号标记失配
HP_UNEQ
高阶通道未装载
LP_UNEQ_VC12
VC12级别低阶通道信号未装载
说明:
上表所列告警是可能引起业务中断,需要优先处理的重要告警。
三.4检查环回和装载
检查业务路由上是否设置了环回或通道未装载。
三.5检查业务配置
按照业务路由,逐段检查业务配置正确性。
三.6应急恢复方案
如果无法快速找到故障原因,进而排除故障,一定要先将业务倒换到正常的路径上,或者复位相关的网元或单板,以恢复已中断的业务或已脱管的网元。
如果故障定位为某个单板有问题,则更换相应单板来解除故障。
三.6.1倒换
倒换可分为单板级倒换和业务级倒换。
OptiXPTN3900支持的单板级倒换类型有:
单板1+1保护倒换和TPS保护倒换。
当保护板在位且工作正常时,可以执行保护倒换,尝试恢复业务。
若设备没有保护板,可以使用备件创建临时的保护组,再执行保护倒换。
OptiXPTN3900支持的业务级倒换类型有:
APS保护倒换线性复用段(LMSP)保护倒换
如果由于保护倒换失败导致业务中断,可以删除已失效的保护组,另行创建可正常运行的新保护组,并将业务倒换到新的路径上。
三.6.2复位
复位可分为网元级复位和单板级复位。
当网元被攻击,并出现以下故障时,可考虑复位网元:
DCN风暴/DCN通信中断/网元脱管CPU占用率达到100%。
单板复位又分为软复位和硬复位。
单板复位后可以恢复正确的程序和数据。
若单板配置了1+1保护组,硬复位会触发保护倒换。
在正常情况下,单板的软复位不影响正在运行的业务。
硬复位会影响正在运行的业务,请慎重使用。
三.6.3通过更换单板恢复业务
如果一时无法定位到故障原因,又没有备用路由用于业务倒换,而且复位单板无效时,需要考虑更换单板。
事实上,很多故障的最终处理方案就是更换单板。
在复杂的组网环境中,尤其当PTN设备与第三方设备对接时,一些故障很难通过常用的分析方法定位出原因。
为了尽快恢复业务,可以采用替换法,用工作正常的部件去更换被怀疑故障的部件。
替换法不仅仅适用于单板,也适用于光纤、电缆和供电设备等,但要求备件必须是完好的。
替换时需要注意的操作的规性,防止部件损坏或有其它问题发生。
采用替换法定位故障时,应注意以下情况:
✧确认不会影响被替换部件上承载的正常业务。
✧替换部件可能会导致产生故障的原始数据丢失。
为避免对故障的分析造成影响,建议在用替换法定位故障前就采集可能的故障数据。
示例:
以单板故障的示例说明用替换法定位故障的思路。
如下图所示,如果怀疑NE1和NE2之间的E-Line业务中断是由于单板故障导致,可用正常的备件替换怀疑故障的单板进行工作。
如果业务恢复,说明是由于单板故障引起业务中断。
图 链形组网图
四、常见故障处理方法
下面介绍设备支持的各业务或特性出现故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。
四.1带DCN故障处理
本节介绍带DCN出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。
A、前提条件:
查看工程文档,确认网元各个单板均使用配套版本。
B、故障现象:
处理带DCN的故障时,通常会遇到以下故障现象。
✧网管与网元通信中断,网管上网元图标变灰色,网元脱管。
✧网管操作命令没有响应。
若响应中断时间持续超过2分钟,网管与网元通信中断。
✧网管查询信息部分丢失。
C、故障处理流程图:
带DCN故障处理流程图如下图所示。
图 带DCN故障处理流程图
D、对系统的影响
✧网元和网管通信中断后,通过该网元来保持与网管通信的网元,若无其它方法连接网管,也将处于脱管状态。
其它网元则无影响。
✧若承载带DCN的物理通道故障,则会影响该物理通道上承载的其它业务。
E、可能原因:
对应故障处理流程图,带DCN故障原因如下
✧全网的网元ID、网元IP或者子网掩码存在冲突。
✧故障网元的带DCN端口未使能,或对接端口参数配置不一致。
✧故障网元与网管之间的物理连接中断。
✧接收信号丢失或接收光功率过低,无法提取DCN报文。
✧单板故障。
✧DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断。
✧带DCN通道带宽配置过低。
✧故障网元主控板正在复位或发生了主备倒换,带DCN报文得不到响应。
a)处理带DCN故障时
✧如果网元通信中断,先处理网关网元的故障,再处理非网关网元的故障。
✧如果网元通信未中断,先处理非网关网元的故障,再处理网关网元的故障,避免造成非网关网元脱管。
b)当网元脱管时,可以使用其它工具尝试登录故障网元
✧如果可以正常登录,说明设备的通信正常,问题可能由网管引入,联系负责网管维护的工程师处理。
✧如果不能登录,可以采用PC机直连设备的ETH端口。
如果可以通信,说明是线路问题,否则是设备问题。
H、操作步骤
✧全网的网元ID、网元IP或者子网掩码存在冲突
✓此原因一般由全网中新添加的网元引入。
对照网元规划表,检查新网元的网元ID、网元IP、子网掩码的配置是否正确。
✓若配置错误,或与现有网元存在冲突,请正确配置新网元的参数。
✧故障网元的带DCN端口未使能,或对接端口参数配置不一致
✓检查是否存在光纤或电缆连接到默认使能DCN的端口。
如果没有,换用默认使能DCN的端口。
✓检查链路两端的端口是否已使能DNC。
如果没有,使能端口的带DCN。
✓检查两端端口的参数配置是否一致,例如以太网端口的工作模式。
如果不一致,修改参数配置使两端一致。
✧故障网元与网管之间的物理连接中断
✓检查故障网元的网线或光纤是否从端口中脱落。
如果是,重新插上网线或光纤。
✧接收信号丢失或接收光功率过低,无法提取DCN报文
✓检查网元的历史告警中是否存在R_LOS、ETH_LOS或IN_PWR_ABN等告警。
✧单板故障
✓查询单板的历史告警中是否存在HARD_BAD或TEMP_OVER告警。
✓若存在,更换上报告警的单板。
✧DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断
✓若带DCN通信穿越了第三方网络,需要检查第三方网络中是否存在端口环回、物理通道中断等故障。
✓如果存在,需要立即排除第三方网络中的故障。
✧带DCN通道带宽配置过低
✓当端口配置的业务数量超过某一数目时,可能造成部分查询信息丢失,此时需要适当增大带DCN通道的带宽配置。
✧故障网元主控板正在复位或发生了主备倒换,带DCN报文得不到响应
✓观察主控板的PROG指示灯是否处于绿灯闪烁状态,若是,则主控板正处于复位状态。
等PROG指示灯常亮绿色时,主控板完成复位,DCN将自动恢复连接。
若主控板发生了主备倒换,“当前板”将自动软复位。
✓若DCN未恢复响应,检查其它单板是否发生保护倒换,造成带DCN报文处于重路由状态。
✓若存在单板发生保护倒换,等待DCN完成重路由后,将自动恢复响应。
四.2MPLSTunnel故障处理
本节介绍MPLSTunnel创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。
A.故障现象:
处理MPLSTunnel的故障时,通常会遇到以下故障现象
✧MPLSTunnel创建失败,业务不通。
✧MPLSTunnel故障,业务中断。
✧保护倒换失败,业务中断或出现丢包、误码。
B.对系统的影响
若MPLSTunnel故障,则会影响网络中由该Tunnel承载的业务,但由其他Tunnel承载的业务正常。
C.可能原因:
MPLSTunnel故障原因如下
✧路由失败。
✧交叉创建失败。
✧Tunnel所在的物理链路故障。
✧保护倒换失败。
D.操作步骤
✧路由失败
✓对照网络规划,检查Tunnel两端端口参数配置是否正确,例如端口IP。
修正不正确的端口参数后,再次创建Tunnel。
✓检查Tunnel首末节点所在的网元间是否存在完整可达的链路。
若不存在,修复链路中残缺或故障的部分。
✓可选:
如果Tunnel配置了带宽,检查链路带宽是否满足Tunnel的要求。
✧交叉创建失败
✓检查网络中是否存在不同的网元使用相同的网段。
如果存在,需要修改端口IP地址。
✓检查Tunnel是否配置了不兼容的保护特性。
✓查看Tunnel所经过的网元或单板,确认已创建Tunnel个数是否已经达到了最大值。
如果是,需要重新规划或删除冗余的Tunnel。
✧Tunnel所在的物理链路故障
✓查询系统中是否存在HARD_BAD、R_LOS、ETH_LOS、PPP_LCP_FAIL或MP_DOWN等告警,指示Tunnel使用的物理链路故障。
若存在,优先处理这些告警。
✓查看并处理系统中存在的下列告警。
MPLS_TUNNEL_BDI
MPLS_TUNNEL_Excess
MPLS_TUNNEL_FDI
MPLS_TUNNEL_LOCV
MPLS_TUNNEL_MISMATCH
MPLS_TUNNEL_MISMERGE
MPLS_TUNNEL_SD
MPLS_TUNNEL_SF
MPLS_TUNNEL_UNKNOWN
✓检查对端设备是否存在单板故障或网元复位等异常状况。
排除对端设备的异常情况。
四.3PW故障处理
本节介绍PW创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。
A.故障现象:
处理PW故障时,通常会遇到以下故障现象
✧PW创建失败,业务不通。
✧PW故障,业务中断或出现丢包、误码。
B.对系统的影响:
若PW出现故障,则会影响承载在该PW上的业务,但其他PW承载的业务正常
C.可能原因:
PW故障原因如下
✧LDP会话创建失败,PW创建不成功。