第7章指针调整故障处理.docx
《第7章指针调整故障处理.docx》由会员分享,可在线阅读,更多相关《第7章指针调整故障处理.docx(11页珍藏版)》请在冰点文库上搜索。
第7章指针调整故障处理
第7章 指针调整故障处理
本章介绍OptiXOSN3500/2500/1500设备指针调整的故障处理流程和故障处理方法,包括:
● 背景知识
● 常见故障原因
● 故障定位方法
● 故障定位与排除
7.1 背景知识
指针调整是SDH网络所特有的一种现象。
当指针调整发生时,说明SDH网络中存在时钟不同步的网元。
通过对指针调整问题的及时处理,使得SDH网络各网元间时钟保持良好同步,以保障传输的信号质量。
7.1.1 指针调整的机理
SDH中的指针有两种,管理单元指针(AU-PTR)和支路单元指针(TU-PTR);与之对应的指针调整也有两种,AU指针调整和TU指针调整。
两种指针调整产生的机理基本都是相同的,可以参见《OptiXOSN3500/2500/1500智能光传输系统维护手册告警及性能事件》中第1章“SDH业务告警及性能事件产生原理”。
1.AU指针调整产生机理
在正常情况下,SDH网中的所有网元是良好同步的,一般不会产生指针调整。
产生AU指针调整最根本的原因,是由于各网元的时钟不同步引起的。
如图7-1所示,NE1和NE6的E1业务在中间站点以VC-4进行穿通,NE1为时钟源,其他站点西向跟踪该站时钟。
若NE2和NE3间的时钟不同步,则NE2的东向光板和NE3的西向光板将进行AU指针调整;NE2、NE3的指针调整又导致NE1、NE4、NE5、NE6的西向光板也发生指针调整:
● 若NE2的时钟比NE3的时钟快,则NE2东向光板将进行AU指针正调整,NE3西向光板将进行AU指针负调整。
● 若NE2的时钟比NE3的时钟慢,则NE2东向光板将进行AU指针负调整,NE3西向光板将进行AU指针正调整。
图7-1AU指针调整的产生
2.TU指针调整产生机理
对于TU指针来说,从E1信号适配成VC-12直至合成STM-1整个过程,并不会产生TU指针调整。
若交换机的E1信号与SDH时钟存在频偏,则通过适配过程完成同步。
因此,支路板检测到的TU指针调整都是AU指针调整转化过来的。
转化的条件就是配置VC-12的穿通或者上下。
需要注意的是,AU转化为TU指针后,AU指针调整就不会检测上报了。
如图7-2所示,E1业务从NE1上到传输设备,其中一部分业务下到NE2,而另外一部分业务则以VC-12的方式从NE2穿通到NE3,再下到支路。
若NE1和NE2时钟不同步,则NE1西向光板和NE2西向光板会产生AU指针调整,并直接转换成NE1、NE2的TU指针调整;NE2西向光板的AU指针调整将导致NE3西向光板也产生AU指针调整;在NE2西向和NE3西向发生的AU指针调整也都直接转化为NE3的TU指针调整。
因此,最终发现在NE1、NE2和NE3均有TU指针调整上报。
图7-2组网示意图
7.1.2 指针调整的检测上报
本站产生AU指针调整后,本站并不检测上报,而是通过H1、H2字节将指针调整的信息传递给远端站点,由远端站点通过解释H1、H2字节完成AU指针调整事件的上报。
因此对于远端检测方式来说,如果远端站上报AU指针调整事件,则说明本端站点产生了指针调整。
如图7-1例中,NE2、NE3时钟不同步,但NE2东向光板和NE3西向光板都不会检测到AU指针调整性能事件上报,而是NE3西向光板产生的指针调整,在NE4西向光板被检测出来并上报;NE2东向光板产生的指针调整,在NE1西向光板检测并上报。
注意:
指针调整的产生和指针调整的检测上报是两个不同的概念。
指针调整在哪里产生并不一定就在那里检测上报。
对于AU指针来说,它一般在上游站产生,而在下游站检测上报;对于TU指针来说,它在AU指针转化成TU指针的站点产生,而在业务终结站点的支路板上检测上报。
7.1.3 指针调整的性能事件
线路板复用段适配MSA中的AUPJCHIGH、AUPJCLOW参数,分别表示AU指针正调整计数和AU指针负调整计数;支路板高阶通道适配HPA中的TUPJCHIGH和TUPJCLOW参数,表示TU指针正调整计数和TU指针负调整计数。
OptiXOSN3500/2500/1500设备支持的指针调整性能事件如表7-1所示。
表7-1设备支持的指针调整性能事件
简称
详细信息
AUPJCHIGH
AU指针正调整计数
AUPJCLOW
AU指针负调整计数
AUPJCNEW
AU新指针调整计数
TUPJCHIGH
TU指针负调整计数
TUPJCLOW
TU指针正调整计数
TUPJCNEW
TU新指针调整计数
7.2 常见故障原因
指针调整的常见故障原因主要如表7-2所示,可分为外部原因、数据配置原因以及设备故障原因三大类。
指针调整可能是其中的某一故障引起的,也可能是由于其中某些故障共同引起的。
所以要根据具体的情况,采用相应的故障定位方法逐个分析。
表7-2指针调整的常见原因
故障类别
故障原因
外部原因
外部时钟性能劣化,如BITS(BuildingIntegratedTimingSupplysystem)等设备提供的外时钟性能劣化。
光纤接反,造成两个网元间时钟互相跟踪。
设备温度过高(如风扇长期未清扫或风扇故障或机房空调故障)。
时钟网规划不合理(如时钟跟踪链路过长)。
数据配置
同一个SDH组网中配置了多个独立的时钟源。
时钟源级别配置错误,出现两个网元间的时钟互跟的情况。
未正确启用SSM(SynchronizationStatusMessage)保护功能,如应该启用的没有启用或启用了SSM,但没有正确设置。
设备原因
时钟板失效或性能劣化。
线路板失效或性能劣化。
交叉板失效或性能劣化。
7.3 故障定位方法
7.3.1 常用定位方法
● 告警、性能分析法
● 更改配置法
● 替换法
7.3.2 故障定位步骤
导致指针调整的根本原因就是时钟不同步,所以应当主要围绕时钟方面的问题进行故障定位。
故障的定位原则是:
根据业务方向、时钟跟踪方向、指针调测检测上报的位置、指针调整产生的位置定位故障点。
指针调整故障定位流程如图7-3所示。
注1:
第1站是指沿时钟跟踪方向,在与时钟方向相同的业务方向上,第一个上报指针调整的站。
注2:
第1站没有AU指针调整,即只有TU指针调整。
此时要处理的是TU指针调整问题。
图7-3指针调整故障处理流程图
1.检查并分析告警
在故障处理过程中一般遵循优先处理其他告警,因为指针调整有可能是伴随SYN_BAD、LTI、SYNC_C_LOS、EXT_SYN_LOS等与时钟有关的告警产生的,当告警处理后指针调整一般也会消失。
如果指针调整不消失,请按照流程中的步骤继续进行故障定位。
表7-3列出了与指针调整相关的告警及告警产生原因、处理方法。
表7-3与指针调整关的告警及告警产生的可能原因
告警名称
可能原因
处理方法
SYN_BAD
(同步源劣化)
1)所跟踪的同步源质量劣化。
2)本站时钟单元故障。
1)重新设置时钟源的优先级别。
2)如跟踪线路时钟源,则检查是否有R_LOS告警,并按相应方法解决。
3)如跟踪支路时钟源,则检查是否有T_ALOS告警,并按相应方法解决。
4)如跟踪外部时钟,则检查外部时钟源是否正常工作。
LTI
(同步源丢失)
未启用SSM时钟保护时:
1)光纤断(如果跟踪线路时钟源)。
2)外部时钟源停止输入(如果跟踪外部时钟源)。
3)同步源设置为不可恢复。
4)误启用SSM时钟保护。
启用SSM时钟保护时:
1)光纤断。
2)同步源质量不稳定、外时钟没有输入,进入自由振荡模式。
3)同步源设置错误。
4)外部时钟质量劣化。
1)检查时钟同步配置,看是否配置为同步时钟源跟踪于不存在的时钟源,如配置错误,修改配置并重新下发。
2)如配置正确,则检查所跟踪的同步源是否正常,如不正常则处理相应故障使之正常(如配置为跟踪线路时钟,而线路上有信号丢失告警,则先处理信号丢失告警。
如果跟踪外时钟,应检查外时钟是否正常,以及外时钟线是否接触良好)。
3)如跟踪的同步源正常,则为单板故障,更换单板。
SYNC_C_LOS(同步源级别丢失)
未启用SSM时钟保护时:
1)光纤断(跟踪线路时钟源时)。
2)外部源时钟停止输入(跟踪外部时钟源时)。
启用SSM时钟保护时:
1)本站发生S1字节倒换。
2)外部时钟(BITS)输入改变。
1)重新设置时钟源的优先级别。
2)如跟踪线路时钟源,则检查是否有R_LOS告警,并按相应方法解决。
3)如跟踪支路时钟源则检查是否有T_ALOS等告警,并按相应方法解决。
4)如跟踪外部时钟,则检查外部时钟源是否正常工作。
EXT_SYNC_LOS
(外部时钟源丢失)
外部时钟源信号丢失。
1)检查外部时钟输入电缆连接是否正常。
2)检查外部时钟提供设备工作是否正常。
2.AU指针调整的常用分析定位方法
某业务沿时钟跟踪方向,在中间多个站点均连续以VC-4级别进行穿通。
则沿时钟跟踪方向,第一个报AU指针调整站点的前一个站点,就是时钟不同步的站点。
该结论对于任意组网(链形、环形)均成立。
3.TU指针调整的常用分析定位方法
一般来说,PDH业务配置,全网的时钟基准源为自由震荡或跟踪外时钟。
沿时钟跟踪方向,第一个出现支路指针调整的站点(不考虑业务中心站),就是时钟不同步的站点。
可能是该站的时钟板或提取时钟的线路板有问题,或上游站发送信号的线路板有问题。
该结论对于任意组网(链形、环形)均成立。
7.4 故障定位与排除
7.4.1 检查时钟配置数据
时钟配置错误,会导致时钟不同步。
可采用时钟配置数据分析法和更改配置法,保证配置数据的正确性,进行故障定位。
步骤
操作
1
检查同一传输网中,是否配置了两个以上时钟源,导致指针调整。
2
检查配置跟踪的时钟源精度是否较低,如接入交换时钟精度较低,或者跟踪站点数过多。
3
检查是否没有配置时钟保护子网,主时钟丢失后(或断纤),时钟无保护引起指针调整。
4
检查是否时钟源级别设置错误,时钟保护倒换后引起互相跟踪现象,导致指针调整。
5
检查主时钟网元的内部时钟源是否没有配置时钟源ID(Identity)。
当高级别时钟源丢失后,网元进入自由振荡状态,其他网元不会和中心站同步,导致该时钟子网中所有的站都处于自由振荡状态,导致指针调整。
6
检查是否没有启动SSM时钟保护,当时钟质量劣化时,不能够根据时钟质量进行保护倒换,引起指针调整。
7
当没有启动SSM时钟保护时,SSM质量输出设为禁止,所以其向其他网元传递的时钟质量为不可用。
此时,某网元重新启动SSM,检测到所有线路时钟源质量为不可用,就会转而跟踪内部时钟,进入自由振荡状态,引起指针调整。
7.4.2 检查环境温度
传输设备工作温度过高也能够引起指针调整,所以在将故障定位到单站后,需检查该网元的环境温度。
步骤
操作
1
检查子架风扇是否出现故障。
2
检查子架风扇防尘网积尘是否过多,设备通风是否通畅。
3
检查机房内空调,是否能正常调节机房温度。
7.4.3 检查设备对接的同步情况
不同类型的设备对接或不同厂家的设备对接时,应当检查对接设备之间的时钟是否同步,将SDH设备与其他设备设置使用同一个时钟源。
否则也会引起指针调整。
全网时钟不同步,不一定是传输设备本身有问题,可能是全网的时钟同步规划不合理。
比如说对接设备跟踪一个时钟基准源,传输设备又跟踪另一个时钟基准源,造成两个网络的时钟有一定的偏差。
& 说明:
SDH在与其他设备如路由器、ATM(AsynchronousTransferMode)设备、交换机或微波设备对接时,都可能由于时钟不同步而产生指针调整。
设备对接时产生的指针调整,如果不影响业务,可以不用处理。
如果需要消除指针调整,则要求对接设备统一规划时钟源。
7.4.4 检查光纤连接
在某些组网情况下(如通道保护环),即使光纤东西向接反,业务仍然正常,但时钟会出现互相跟踪,从而引起指针调整。
可以通过网管对怀疑光纤接反的网元下插MS_RDI告警或进行ECC路由查询,判断光纤是否接反。
如果光纤接反,正确连接光纤后,指针调整就会消失。
7.4.5 检查外部时钟质量
一般通过更改时钟源配置的方法来判断外部时钟源质量是否良好。
有时SDH设备跟踪的外部时钟源精度较低,容易引起全网指针调整。
有时外接BITS的上级时钟源倒换也会导致SDH设备指针调整。
导致网元产生指针调整的外部时钟源质量因素有:
● 时钟源精度太低。
● 外部时钟源质量不可用。
● 外接时钟的电缆劣化。
7.4.6 检查网元硬件故障
排除外部原因之后,可以检查产生指针调整的网元的单板是否有问题。
影响网元时钟质量的主要因素有:
● 时钟板失效或性能劣化。
● 线路板失效或性能劣化。
● 交叉板失效或性能劣化。
这时进行故障定位主要采用的方法就是更改时钟配置法。
首先改变时钟的跟踪方向,然后根据指针调整性能事件的产生和消失情况进行分析,将故障定位到网元的具体单板。
最后根据实际需要,更换单板,解决指针调整问题。
& 说明:
其中,时钟单元和线路板故障比较常见,特别是时钟单元。
当时钟单元、线路板故障都排除后,应当考虑是否交叉单元质量问题。
因为时钟单元通过锁相产生的时钟首先送给交叉单元,通过交叉单元分配给线路板及支路板。