PTN运行维护知识.docx
《PTN运行维护知识.docx》由会员分享,可在线阅读,更多相关《PTN运行维护知识.docx(13页珍藏版)》请在冰点文库上搜索。
PTN运行维护知识
PTN运行维护篇
目录
1.1网络故障处理基本思路和方法3
1.1.1PTN与MSTP告警对比3
1.1.2常见告警故障处理方法5
1.1.3以太网业务丢包类故障处理方法7
1.1.4OAM/PING调试法7
1.1.5环回逐段定位法10
1.2PTN网络例行监控11
1.1网络故障处理基本思路和方法
PTN的组网、业务配置愈发复杂,需分组厂商网管尽快做好SDH-Like功能。
为尽快恢复业务,将检测的故障点最小化,需了解SDH原理、IP网络原理知识、告警信号流及告警产生机理、PTN设备和网管基本操作、常用仪表的基本操作,了解网络拓扑,业务配置,设备运行状态。
✓告警、性能分析法
✓OAM/PING调试法
✓环回法
PTN对于Tunnel的故障可用MPLSOAM来检测,MPLSOAM包括CV/FFD、Ping和Traceroute。
通过CV(ConnectivityVerification)/FFD(FastFailureDetection)检测可以检测LSP的连通性。
CV检测和FFD检测的过程基本一致,其不同在于CV检测发送CV报文的频率固定为1帧/s并且不可设置,而FFD检测发送FFD报文的频率是可以自行定义的。
MPLSPing/Traceroute为用户提供了发现LSP错误、并及时定位失效节点的机制。
MPLSPing/Traceroute使用MPLSEchoRequest和MPLSEchoReply检测LSP的可用性。
MPLSEchoRequest中携带需要检测的FEC(ForwardingEquivalenceClass)信息,和其他属于此FEC的报文一样沿LSP发送,从而实现对LSP的检测。
为了更好的理解PTN,我们就把PTN与熟悉的SDH的业务层面告警类比一下,与大家共享。
1.1.1PTN与MSTP告警对比
对应于业务模型,PTN的告警分为物理层、数据链路层、Tunnel层、PW层、仿真业务层五个层次。
对应SDH的物理层、再生段复用段层、服务层、路径层。
上层功能的实现依赖于相邻下层提供的服务。
低层与高层同时有故障产生时,低层故障的消除是处理高层故障的基础,物理层故障引发的告警屏蔽其它层故障引发的告警。
SDH的告警与PTN的最根本的区别在于SDH的告警都是由字节承载上报的,而PTN告警则是由协议控制上报的;但都有其相似之处,如下图:
图28PTN网络与MSTP告警对比图
业务模型中,PW可类比VC12、Tunnel类比VC4管道,CES即电路仿真业务就是传统的E1;告警可划分为业务类告警,系列类通用类告警,下面表格按业务告警,与SDH进行类比,各业务层告警对比:
MSTP告警
SDH、PTN类比结果
PTN告警
业务层(VC12)(ETH/CES/IMA/ATM)
TU_AIS
T_ALOS
UP_E1_AIS
DOWN_E1_AIS等
继承了SDHE1、ATM、IMA业务告警的特点
PW_DOWN
T_ALOS
TU_AIS_VC12
UP_E1_AIS
DOWN_E1_AIS等
PW&业务层
(ETH/CES/IMA/ATM)
服务层(VC4)
HP_SLM
HP_UNEQ
继承了服务层SDH告警,新增加了MPLSTunnel类告警
MPLS_TUNNEL_LOCV
HP_SLM
HP_UNEQ
Tunnel层(Tunnel/PW/MPLSAPS)
再生段复用段层
(开销)
B1、B2误码检测
告警
复用段告警
IMA业务告警
继承了SHD误码类,复用段类告警(线性),增加了多协议标签交换(MPLS)告警,LAG类告警
B1、B2误码检测
线性复用段告警
IMA业务告警
LAG_DOWN
MP_DOWN
ETH_APS_LOST
ETH_APS_PATH_MISMATCH
ETH_APS_SWITCH_FAIL
ETH_CFM_MISMERGE
数据链路层(MLPPP/STM/LAG)
物理层(单板/ETH端口/SDH端口/E1口)
R_LOS
ETH_LOS
T_ALOS
LASER_MOD_ERR
ETH_LINK_DOWN
物理层告警与SDH相同,完全继承了SDH光口、ETH电口、光口的习惯
R_LOS
ETH_LOS
T_ALOS
LASER_MOD_ERR
ETH_LINK_DOWN
物理层(单板/ETH端/SDH端口/E1口)
1.1.2常见告警故障处理方法
✓CES业务常见告警故障处理方法:
序号
告警名称
产生原因
处理方法
1
T_ALOS
E1信号丢失,主要上报在支路接口板上;
环回E1
2
UP_E1_AIS
DOWN_E1_AIS
分别是上行2M信号指示、和下行2M信号指示,产生原因和SDH的相同
察看对端是否有TU_LOP_VC12、T_ALOS或TU_AIS_VC12告警。
或者E1环回方式
3
MPLS_TUNNEL_LOCV
MPLS_TUNNEL_LOCV为Tunnel连通性丢失告警。
连续3个周期内没有收到希望的CV/FFD报文时出现此告警。
产生g该告警时,该TUNNEL承载的业务已中断,
原因1:
往往是下层网络异常引起,例如物理链路故障等,光模块故障
原因2:
网络出现严重的拥塞。
原因1:
物理链路故障。
1.在网管上检查该链路两端网元是否存在单板或光模块相关的告警。
若存在,消除这些告警,查看告警是否消除。
2.若告警未消除,查看光纤是否故障,更换故障的光纤。
原因2:
网络出现严重拥塞。
1.选择较大的“CC测试发送周期”的参数值,具体操作见本文的创建维护联盟。
2.检查故障Tunnel的带宽占用情况,如发现已满,请增大Tunnel带宽配置或消除非法发送大数据量的根源,查看告警是否消除。
4
TU_AIS_VC12
系统中存在更高阶的告警,如R_LOS、R_LOF、HP_SLM、AU_AIS
上游站点存在硬件故障告警
交叉板故障
对端站对应通道失效
按照产生原因点,逐步排除;先看是否有高级别的R_LOS、R_LOF、HP_SLM、AU_AIS告警,然后看是否存在硬件故障支路板?
交叉?
最后对端对应通道?
需要用到经验法、替换法等。
与SDH类似
业务中断类常见告警原因:
光纤、电缆故障、环境温度、误操作设置了光路的环回、误操作更改、保护业务配置数据有误。
应急处理时优先恢复业务,排除外部设备的问题,将业务倒换到备用通道,复位单板、单站重启、重新下发配置等。
✓以太网业务常见告警故障处理方法:
序号
告警名称
产生原因
处理方法
1
ETH_LOS
以太网端口连接丢失,可能原因:
以太网端口的电缆或光纤没有连接好;电缆或光纤故障;本端网元接收光功率过低;单板故障。
属于物理层故障类,察看物理连接,端口、单板故障;逐一排除。
2
MAC_FCS_EXC
MAC_FCS_EXC为MAC层检测到误码越限告警。
软件定时检测MAC芯片接收字节数和误码字节数,计算误码是否超过门限,超过设置越限门限发出此报警。
1:
检测是否链路出现故障,维护光纤或网线,查看告警是否消除。
2:
若告警仍未消除,检测是否存在DOS攻击等,隔离DOS攻击源,查看告警是否消除。
3.若告警仍未消除,是否出现配置环路或物理等问题,解除环路,查看告警是否消除。
3
ETH_LINK_DOWN
以太网连接错误,端口协商失败;可能原因:
端口模式不一致;电缆光纤连接故障;单板故障。
对应需要察看和排除端口协商问题,主要关注端口模式,端口速率级别。
最后使用替换法检验是否是硬件故障
4
FLOW_OVER
端口接收流量超限告警;可能原因为实际接收的端口流量大于设定的端口流量限值。
增加端口带宽。
丢包类故障常见原因:
光功率问题、环境温度、数据业务端口协商故障、时钟配置错误、业务流控配置。
可通过查看光功率、RMON、丢包率等性能事件解决。
✓MPLS保护倒换类告警排除:
倒换告警
告警信息
故障原因
ETH_APS_TYPE_MISMATCH
保护类型信息不一致
1、两端配置的1+1或1:
1模式不一致;
2、两端配置的单端或双端倒换的模式不一致;
3、两端配置的恢复式或非恢复式的模式不一致;
ETH_APS_PATH_MISMATCH
APS工作、保护路径不一致
1、保护组两端设备配置的工作路径、保护路径不一致;
2、物理链路上存在有错连;
ETH_APS_SWITCH_FAIL
保护倒换失败
1、倒换失败;
ETH_APS_LOST
APS帧丢失
1、对方没有配置保护;
2、保护通道业务中断;
1.1.3以太网业务丢包类故障处理方法
如果业务A有丢包,业务B不丢,则问题应该在网元A与网元C之间
1.1.4OAM/PING调试法
常用场景:
数据业务通断判断
维护中,工作难点主要在于如何能够快速有效地排除故障。
在众多的故障中,以“业务不通”最为常见。
应该如何着手解决呢?
首先我们将PTN专线业务做成下图所示的分段。
PTN网络关于OAM的规划主要涉及:
MPLS OAM、以太网端口的OAM。
适用于故障定位到单站,主要用于检查网络连接是否可达,以及分析网络什么地方发生了故障。
⏹常用OAM排障步骤1—TunnelOAM
⏹排障步骤2—LSP故障位置分析
OAM功能产生的告警概览:
MELSOAM
MPLS_TUNNEL_LOCV告警
含义:
Tunnel链路中断
解决措施:
需要检查Tunnel链路的连通性,发起LSPPing确认故障节点/链路,并观察Tunnel链路中其它节点的相关告警信息。
MPLS状态
Init(初始)状态
Ingress端没有使能OAM或者Tunnel链路中断;
Available(可用)状态
Tunnel状态正常;
Unavailable(不可用)状态
Tunnel状态不可用,需要检查Tunnel链路的连通性,发起LSPPing确认故障节点/链路,并观察Tunnel链路中其它节点的相关告警信息
ETHOAM
ETH_CFM_LOC告警
含义:
ETH业务中断
解决措施:
需要发起ETHLB进行故障确认,发起LT进行故障定位;对于MPLS承载的ETH业务,需要观察MPLSTunnel的连通性。
ETH_CFM_RDI告警
含义:
对端检测到ETH业务的告警后的回告指示
解决措施:
需要在对端进行告警确认和排查操作;
ETH_EFM_DF告警
含义:
ETH链路发现失败
解决措施:
检查两端的ETHLinkOAM的配置是否一致,检查ETH链路的连通性;
ETH_EFM_EVENT告警
含义:
ETH链路存在误码
解决措施:
对端网元检测到端口有误码,需要在对端网元确认其接收链路是否正常;
1.1.5环回逐段定位法
常用场景:
CES业务、SDH业务出现故障时,在支路或线路环回,定位故障原因到单站,环回操作会导致业务中断。
仅在SDH类业务使用;注意:
数据类定位的方法,为避免环回造成的网络风暴,使用ETHOAM功能,维护过程中不使用环回。
SDH接口在维护中使用内环回和外环回。
PDH接口使用内环回和外环回两种环回方式。
网管中环回界面与SDH近似。
1.2PTN网络例行监控
网络维护工程师在维护PTN网络时,比MSTP网络更关注RMON性能等数据
T2000网管上日常维护项目表:
维护责任人
维护地点
维护项目
周期
网管操作员
网管中心
检查网元和单板状态
每天
浏览全网告警
每天
浏览异常事件
每天
浏览当前性能
每天
浏览RMON统计组性能
每天
检查光接口的光功率
每天
浏览历史性能
每周
浏览RMON历史性能
每周(端口流量统计、端口丢包、业务流统计)
备份T2000的MO数据
每周
备份网元数据库
每周
备份网元数据库:
PTN网络在面对灾难性故障时,单主控板失效、数据库损坏等故障时,快速恢复业务方法是数据库下载恢复。
网管数据库备份工具中,可设置定期任务,自动定期上载网元数据库到网管电脑中。
另外在每次大业务量配置(包括单站配置以及全网配置)修改后,都要进行一次网元数据库的备份操作,保证备份数据库最大限度的与网元一致。
备件单板更换:
SDH设备的备件单板,需定期拿出来,随现网进行升级更新,而PTN的单板,插入到子架中,能够自动向主控软件包申请,更新自身的单板软件,节省了备件单板维护的工作。