常见告警故障处理及案例分析.doc
《常见告警故障处理及案例分析.doc》由会员分享,可在线阅读,更多相关《常见告警故障处理及案例分析.doc(59页珍藏版)》请在冰点文库上搜索。
常见告警故障处理及案例分析
MOTOROLA基站的告警按故障设备可分为三类:
设备告警、内部告警、外部告警。
一、设备常见告警
设备告警是硬件告警最常见也是最重要的告警,告警设备一般为基站的主要器件,它的告警类型就是它的设备类型。
1.DRI29:
[FrontEndProcessorFailure-WatchdogTimerExpired]
前端处理器故障
DRI硬件故障,出现此告警时DRI可能会反复自启,可能会退服,应先resetorinsDRI应进行INS或RESET处理,若告警未消失,更换TCU。
2.DRI40-47:
[ChannelCoderTimeslot0(-7)Failure]0-7时隙信道编码器失败。
M-CELL基站经常出现此类告警,应进行INS或RESET处理,不行再更换TCU900。
此告警在GSR4时出现,升级到GSR5可能会消失。
3.DRI51:
[BasebandHoppingTDMLinkError]基带跳频TDM链路错误。
此告警有几种可能性:
TDM-HighwayBUS或KSW可能有问题。
DRIM的FEP,CCDSP可能有问题。
此告警须在现场具体测试分析。
测试后判定故障点。
此告警在GSR4时出现,升级到GSR5可能会消失
TDM——TimeDivisionMultiplexing时分复用:
该总线用于把来自BTS的呼叫与信令数据传送到MSC,反之亦然。
可分为两个独立的部分:
交换机公共通路&出局公共通路。
交换机公共通路:
处理路由到交换机的数据,数据来自外部信源(通过E1/T1接口)或由GPROC内部产生。
出局公共通路:
这是一个被交换的数据,现在被路由出BSC/RXCDR(通过E1/T1接口)或通向内部GPROC。
4.DRI81:
[TransmitterSynthesizerFailure]收发单元故障
此告警为收发单元TCU故障,故障原因有可能为:
-接收Calibration频点丢失
-信道盘的CEB故障
-射频电缆连接失败
处理方法:
远程ins或resetTCU,告警消失并监测;若告警未消失,更换TCU
5.DRI86:
[TransmitterFailure]输出功率失败,引起DRI退出服务。
状态:
D-U
此告警是信道盘的功率放大器失败。
应更换信道盘。
6.DRI91:
[PowerAmplifierPowerLowButFunctioning]信道盘的功率放大器输出功率低于门限,状态B-U。
此告警有可能由于高温等原因引发,有些站经常性出现DRI[91]的盘则需要更换,以免因小区功率不平造成掉话。
有时侯在现场看不见此告警,须从OMC的事件窗口检查。
7.DRI92:
[PowerAmplifierTemperatureHighButFunncioning]信道盘的功率放大器高温告警,但可以工作。
信道盘的功率放大器的高温多数是因机房高温,或机箱内的风扇故障造成的。
在出现此告警后,信道盘的性能会下降。
如温度过高,信道盘会自动闭塞。
因此常出现此告警的信道盘应于以更换。
8.DRI112(114)[ReceiverSynthesizerFailure]接收单元合成器故障
此告警为收发单元内部故障,其主要原因大概有:
-收发信单元内部直流供电故障
-收发信单元内部硬件故障
处理方法:
远程ins或resetTCU,告警消失并监测;若告警未消失,更换TCU
9.DRI150:
[ReceiveMatrixBranch1controlLinkFailure]接收矩阵支路控制失败,状态:
B-U
此告警M-CELL和Horizon中均有出现,伴随切换掉话,切换成功率低,呼叫建立成功率低导致的话务量减少。
有时也会导致信道盘的path_balance值偏高。
其主要原因有:
-有故障的接收矩阵即SURF
-收发信单元与接收矩阵之间的同轴电缆断路
-收发信单元与接收矩阵之间的同轴电缆短路
-信道盘中的均衡器板控制电路出现故障
-SURF内部前-后端接口短路
-SURF内部前-后端接口断路
根据现场判断具体情况更换硬件。
10.DRI152:
[ControlProcessortoPowerAmplifierCommunicationFailure]处理器与功率放大器的通信失败
此告警是信道盘中的CEB及对PA的控制失败。
首先对信道盘进行INS或RESET处理,不行再更换信道盘。
11.DRI209:
[TimeslotConfigurationFailure]信道分配失败D-U
小区资源管理器CRM为MS分配无线信道时在射频硬件上分配时隙失败。
产生的原因有:
-收发信单元TCU故障
-DRI软件故障
处理方法:
远程ins或resetTCU,告警消失并监测;若告警未消失,更换TCU
12.DRI218:
[TimeslotConfigurationFailure]不健全的信道接收校验数值
此告警的出现时用指令:
disp_cal_data
可看到基站接收数据校准值中出现80(错误的校准数据),还找到根本的原因,远程对硬件reset或ins均无作用,现场人员有时需更换新硬件设备而有时只需对信道盘开关电即可恢复,初步判断为硬件TCU(Horizon目前还未发现)接收单元问题。
13.DRI234:
[ActiveLinkConnectionFailure]主用链路与BTP的链接失败。
状态:
D-U
此告警主要发生在M-CELL上,是主用BTP到DRI/TCU900的链接失败。
其原因主要分为:
*FOX/FMUX/BTP之间的连接和使用的光纤类型的问题。
*TCU900/FOX/FMUX/BTP本身的问题。
*还有则是由于某种原因,使处理机运行过程出现问题,使其
与TCU900失去联系。
这类情况可用LOCK-UNLOCK恢复。
14.DRI235:
[StandbyLinkConnectionFailure]备用链路与BTP的链接失败,对网络不造成影响。
但如果出现整个机柜告警应当引起重视。
以免基站主用出现故障倒换到备边时,出现整个机柜不能工作。
此告警只出现在M-CELL,是备用BTP到DRI/TCU900的链接失败。
其原因主要分为:
*FOX/FMUX/BTP之间的连接和使用的光纤类型的问题。
*TCU900/FOX/FMUX/BTP本身的问题。
*有时侯如有大部分DRI出现此告警,有可能是没将BTP
做成冗余形式。
DRI239:
[ProcessSafeTestAuditFailure]
有可能是因为机房内高温造成,若不及时进行处理,会继续出现92#告警
15.DRI243:
[UnlockedDeviceNotInService]信道盘退服D-U
此告警出现在没有主告警的情况下信道盘退服
可能的原因是:
系统错误导致的信道盘退服
处理方法:
发现告警后,RESETTHEDRI观察,如果告警仍然存在这更换信道盘。
16.GCLK2:
[ClockReferenceFailure]时钟参考失败
此告警为基站MSI板的时钟提取丢失
其主要原因有:
-E1/T1链路故障
-没有MSI/NIU的时钟信号
-没有XCDR的时钟信号
-GCLK时钟提取电路失败
处理方法:
更换MCU或NIU,若仍然出现告警则需通过传输处理
17.GCLK4:
[PhaseLockLost]时钟参考信号锁相丢失
此告警有时会引起切换掉话或切换成功率低,有时没有影响,大多数是因为传输大网与移动网对时钟要求相距较大引起。
其主要原因有:
-大多数情况是在E1/T1链路上偏移或不稳定的时钟超过所允许的极限而引起的时钟失锁。
-不正确的时钟源或
-GCLK硬件故障
-GCLK晶体振荡器由于老化不能长时间对信号源进行锁相
处理方法:
一般情况下先进行时钟重新校准或SWAPBTP到备边,若无作用则请传输中心处理。
18.GCLK[8]:
主备时钟频差过大。
此告警是由BTS的本振时钟主备频率偏差过大,应及时对时钟进行校准。
M-CELL:
8000HZ.
19.GCLK14:
[PhaseLockFailure]时钟参考信号锁相失败
此告警有大多数时间会引起切换掉话或切换成功率低
其主要原因有:
-GCLK硬件故障
-有问题的前时钟源
-规范问题
20.GCLK18:
[NotOperational]主时钟不工作
此告警是由于基站主控板MCU不能建立正常的同步时钟初始化。
出现的原因:
可能是由于固件故障,或是硬件老化。
出现此问题时应resetMCU,若告警未消失则需更换MCU;若告警消失,则不需在作进一步的观察。
GCLK24[BadClockSourceorOCXO(oscillator)]:
不精准的时钟源或有故障的时钟振荡器。
出现此告警时先resetsite或主控倒到备边,若还存在告警则需传输帮助解决。
21.GCLK26:
[GCLKCalibrationRequest]GCLK校准失败
此告警有大多数时间会引起切换掉话或切换成功率低
其主要原因有:
-GCLK校准超出要求范围(即不能进行校准)
-有问题的GCLK时钟源或时钟源超出传输要求规范
-在MCU第一次加电时不能进行校准,因此不能计算LTA值
-GCLK长时间不能进行锁相,超出允许时间
-GCLK硬件故障
处理方法:
更换MCU
另:
LTA——LongTermAverage.长期平均值。
BTS的GCLK频率寄存器为产生一个16.384MHz的时钟所需的值。
22.BTP[39]:
软件故障
此告警出现时会引起BTPD-UCodeLoadFailure或反复codeload.
其主要原因有:
-下载的软件故障
-主控GPROC故障
处理方法:
1.进emonresetsite,并观察
2.更换MCU(或SWAPBTP)
二、内部告警
内部告警的告警设备一般为基站的辅助设备如风扇、保险、开关、电源模块等。
1.IAS86#[cabinetfanfailure]:
基站风扇故障
2.IAS[81]:
PSU供电单元输出失败。
通过计算机检测电源模块,判定故障及时更换。
3.IAS[95]:
低噪音放大器保险坏。
M-CELL对于GSM900的选件中没有采用低噪音放大器。
所以此告警对DCS1800基站有影响。
解决措施为:
更换对应的保险。
对于内部告警,除一般的高温和风扇告警,其他一些内部告警一般为假告警,不与处理。
告警网元
告警号及描述
处理建议
BTS
DRI29:
[FrontEndProcessorFailure-WatchdogTimerExpired
应先resetorinsDRI应进行INS或RESET处理,若告警未消失,更换TCU
BTS
DRI40-47:
[ChannelCoderTimeslot0(-7)Failure
INS或RESET处理,不行再更换TCU
BTS
DRI81:
[TransmitterSynthesizerFailure]
ins或resetTCU,告警消失并监测;若告警未消失,更换TCU
BTS
DRI86:
[TransmitterFailure]
更换TCU
BTS
DRI91:
[PowerAmplifierPowerLowButFunctioning
如果是大量经常出现的就应该更换TCU
BTS
DRI92:
[PowerAmplifierTemperatureHighButFunncioning
如果是大量经常出现的就应该更换TCU
BTS
DRI112:
(114)[ReceiverSynthesizerFailure
ins或resetTCU,告警消失并监测;若告警未消失,更换TCU
BTS
DRI150:
[ReceiveMatrixBranch1controlLinkFailure
根据现场判断具体情况更换硬件(包括surf,Dri,cable)
BTS
DRI152:
[ControlProcessortoPowerAmplifierCommunicationFailure
首先对TCU进行INS或RESET处理,不行再更换TCU
BTS
DRI209:
[TimeslotConfigurationFailure
ins或resetTCU,告警消失并监测;若告警未消失,更换TCU
BTS
DRI218:
[InvalidTransceiverCalibrationData
安排工程师到现场调测
BTS
DRI234:
[ActiveLinkConnectionFailure
ins或resetTCU,告警消失并监测;若告警未消失,安排工程师到现场检查TCU900/FOX/FMUX/BTP或者是FOX/FMUX/BTP之间的连接和使用的光纤类型的问题
BTS
DRI235:
[StandbyLinkConnectionFailure
如果是大量经常出现的就安排工程师到现场检查TCU900/FOX/FMUX/BTP或者是FOX/FMUX/BTP之间的连接和使用的光纤类型的问题
BTS
DRI243:
[UnlockedDeviceNotInService
RESETTHEDRI观察,如果告警仍然存在这更换TCU
BTS
GCLK2:
[ClockReferenceFailure
更换MCU或NIU,若仍然出现告警则需通过传输处理
BTS
GCLK4:
[PhaseLockLost
一般情况下先用命令reattepmt_pl来让MCU进行时钟重锁,若仍然无法锁相,则检查时钟无法锁相的基站是否在同一个传输环上,若无法锁相的基站在同一个传输环上则请传输中心处理,若无法锁相的基站之间没有什么共性,则先对基站传输挂表测试,确定传输没有问题后,对主背用的MCU(MCUF)进行更换,对NIU也同时更换
BTS
GCLK18:
[NotOperational
出现此问题时应resetMCU,若告警未消失则需更换MCU;
BTS
GCLK24[BadClockSourceorOCXO(oscillator)
出现此告警时先resetsite或主控MCU倒到备边,若还存在告警则更换MCU,或者安排传输帮助解决
BTS
GCLK26:
[GCLKCalibrationRequest
更换MCU
BTS
BTP[39]:
软件故障
resetMCU,若没有好转则更换MCU
三:
常见问题分析
关于SD掉话的问题
SDCCH是Stand-aloneDedicatedControlChannel的缩写,其意思是独立专用控制信道。
其作用是AGSMcontrolchannelwherethemajorityofcallsetupoccurs.UsedforMStoBTScommunicationsbeforeMSassignedtoTCH。
是指建立呼叫时主要使用的GSM控制信道。
用于在MS分配给TCH之前MS与BTS的通信。
SD掉话问题可能产生的原因:
1、突发事件(突然增高的话务量、相临基站断站等)
2、基站硬件问题可能会造成基站SD产生掉话。
(载频、发射通路、合路器、时钟问题等)
3、基站天馈性能不好可能会造成基站SD掉话。
4、基站天馈接错可能会造成基站SD掉话。
5、基站数据设置错误可能会造成基站掉话。
(CCB类型、CCBcavity号定义错误等)
6、频率问题可能会造成基站掉话。
(同频、邻频干扰或基站上行干扰等)
7、基站相邻小区定义错误可能造成基站掉话。
(产生SD切换掉话)
关于TCH掉话的问题
基站掉话问题是GSM网络运行过程中一个比较常见的问题,由于产生掉话问题的原因较多,因此很难对掉话问题按其产生的原因进行一个较为准确的分类。
在现网的统计中,将掉话问题按其归属分成了四类:
单载频掉话(Rf_losses_tch);BTS内小区间切换掉话(Intra_cell_ho_lost);BSC内小区间切换掉话(Out_intra_bss_ho_lost);BSC间小区间切换掉话(Out_inter_bss_ho_clear)。
第一部分:
掉话问题可能产生的原因
由于掉话问题较为复杂很难准确定位,因此此处我们仅列出在现网中较为常见的几种引起掉话的原因:
一.基站硬件问题可能会造成基站产生掉话。
(载频、发射通路、接收通路、时钟问题等)
二.基站天馈性能不好可能会造成基站掉话。
三.基站天馈接错可能会造成基站掉话。
四.基站数据数据设置错误可能会造成基站掉话。
(CCB类型、CCBcavity号定义错误等)
五.频率问题可能会造成基站掉话。
(同频、邻频干扰或基站上行干扰等)
六.基站相邻小区定义错误可能造成基站掉话。
关于载频BER高的问题
载频的BER(BitErrorRate)含义是载频工作的时候在其上传输的数字信息比特的比特误码率。
载频的BER和在该载频上通话时的通话质量是密切相关的。
手机在通话时的话音质量有8个级别,即Quality=0,1,2,3,4,5,6,7。
0是最好,7为最差。
而Quality的0到7是和BER分别对应的。
对应关系如下:
RxqualityBER默认BER
0 <0.2%0.14%
10.2—0.4%0.28%
20.4—0.8%0.57%
30.8—1.6%1.13%
41.6—3.2%2.26%
53.2—6.4%4.53%
66.4—12.8%9.05%
7>12.8%18.1%
一般情况下认为Rxquality在不大于4的时的通话话音质量是可以接受的。
但当Rxquality大于4时则会出现通话断续、杂音甚至掉话的现象。
因此从对应关系可以看出,当载频的BER高于2.26%的时候,即说明该载频的通话质量有问题了,应该尽快进行处理。
第一部分:
BER高的原因
造成载频BER高的原因主要有以下几种:
一.基站问题引起的BER高
1、信道盘的发射接收补偿参数不合格
2、信道盘内部硬件和架顶发射接收器件故障
二.频率干扰引起的BER高
1、同邻频干扰造成
2、上行干扰
关于载频IOI高的问题
IOI(InterferenceOnIdle)值的含义是:
载频时隙在空闲状态时收到的上行干扰信号的强度。
理想情况下,载频时隙在空闲状态即没有占用的情况下收到的上行信号功率应该为0,一般情况下IOI值<1。
只要IOI值<5,那么对信道的影响就不会很严重,但若IOI值接近了10或超过了10,则会造成小区的掉话,通话质量下降等严重问题。
第一部分:
IOI值高的原因可以分为两方面
一.基站内部的接收设备障碍造成的IOI值高:
1.信道盘的接收补偿值不准或接收功能障碍
2.小区的接收器件DLNB或IADU、双工器故障
3.天馈线故障
二.外来的干扰源造成的上行干扰:
1.GSM网络内部的干扰:
即频率规划不当,同邻频过多造成的上行干扰。
2.GSM网络外部的干扰:
即外界非法直放站、集团通信系统非法占用GSM上行频段,或由于其它通信系统的设备的不合格,发射信号边带频谱干扰GSM上行频段。
部分故障问题总结表:
序号
现象描述
故障原因分析
处理措施及人机命令
处理效果
1
SD拥塞
sdcch_mean_holding_timeislong,相关GPROC负荷大吊死
reassignsitetootherlcf
success
2
三个交换机间切换失败
三个交换机间挂表进行信令测试分析
交换机打patch
success
3
SD拥塞
sdcch_mean_holding_timeislong,SDtraffic不大
T3101延长=5000,channel_reconfig_switch=0,immediate_assign_mode=0
负荷有所减轻
4
SD掉话,接通率差
PATH_BANLANCE差
数据库DRI天线选择号配置有问题
恢复正常
5
小区不能与周围小区切换
该小区GCLK失锁
phase_lock_gclk=1->reattempgclk->换GCLK
success
6
通话时对方听到无此号码随后掉话
本地交换机900->1800切换存在问题,中继不够,话务走备分路由
交换机增加900->1800中继,备分路由数据改正(切换号码)
success
7
call_setup_suc_rate低
发生于同一交换机下BSC,告警中有unequipcic.即交换机分配了该CIC,而BSC中未配置
交换机锁住相关CIC
success
8
呼叫无法接通
大量用户在手机发出assignmentcomplete之后,交换机即发回disconnect消息导致呼叫无法接通
交换机打patch
s