05第5章 系统支持的故障分析与定位.docx

上传人:b****1 文档编号:1743925 上传时间:2023-05-01 格式:DOCX 页数:13 大小:93.66KB
下载 相关 举报
05第5章 系统支持的故障分析与定位.docx_第1页
第1页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第2页
第2页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第3页
第3页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第4页
第4页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第5页
第5页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第6页
第6页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第7页
第7页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第8页
第8页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第9页
第9页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第10页
第10页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第11页
第11页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第12页
第12页 / 共13页
05第5章 系统支持的故障分析与定位.docx_第13页
第13页 / 共13页
亲,该文档总共13页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

05第5章 系统支持的故障分析与定位.docx

《05第5章 系统支持的故障分析与定位.docx》由会员分享,可在线阅读,更多相关《05第5章 系统支持的故障分析与定位.docx(13页珍藏版)》请在冰点文库上搜索。

05第5章 系统支持的故障分析与定位.docx

05第5章系统支持的故障分析与定位

目录

第5章系统支撑的故障分析与定位5-1

5.1常见的故障现象5-1

5.2单板硬件故障和端口故障的分析与定位5-1

5.2.1预备知识5-1

5.2.2单板硬件故障和端口故障的常见原因5-2

5.2.3单板硬件故障和端口故障的基本处理步骤5-2

5.3CPU过载的故障分析与定位5-4

5.3.1CPU过载的常见原因5-4

5.3.2CPU过载的处理步骤5-5

5.4单板加载不成功的故障分析与定位5-7

5.4.1预备知识5-7

5.4.2单板加载故障的解决思路5-7

5.4.3相关案例5-8

5.5倒换异常的故障分析与定位5-9

5.5.1常见原因5-9

5.5.2倒换异常的故障定位5-10

第5章系统支撑的故障分析与定位

5.1常见的故障现象

系统支撑是MSOFTX3000中起支撑、管理和控制作用的单板和交换机主机软件的总称,是交换机业务实现的底层部分,它的故障将直接影响交换机的业务实现。

本章将介绍与系统支撑有关的故障处理。

系统支撑的常见故障如表5-1所示。

表5-1系统支撑常见故障现象

故障分类

故障现象的具体表现形式

单板硬件故障和端口故障

告警台上报某块单板故障告警或者某块单板的端口故障告警且告警不能恢复。

CPU过载

交换机或某个模块的呼叫出现大范围的阻塞现象,接通率急剧下降,CPU的占用率超过过载阈值,出现CPU过载告警。

单板倒换异常

不能倒换、倒换后主用异常、倒换后影响其他单板

单板加载异常

不能加载、反复加载、加载超时、加载后前后台版本不一致

5.2单板硬件故障和端口故障的分析与定位

5.2.1预备知识

MSOFTX3000系统中单板通过如下三种方式与WSMU板通信:

●前插板通过共享资源总线向WSMU板上报单板状态;

●无处理器的后插板的状态由对应的前插板采集后通过共享资源总线上报WSMU板;

●有处理器的后插板的状态则经背板的串口总线直接上报给WSMU板。

WSMU板依据单板状态的正常与否产生相关的硬件故障告警或者恢复告警。

扩容框的WSMU板通过基本框的WSMU板向BAM发送告警。

硬件异常和告警信息上报路径如图5-1所示。

图5-1单板硬件告警信息上报路径

5.2.2单板硬件故障和端口故障的常见原因

单板硬件故障和端口故障的常见原因有:

●告警单板自身硬件故障

●告警单板的上级单板故障

●单板与槽位接触不良

●母板故障

●单板端口连接故障

●桥板WHSC故障

●LANSwitch故障

5.2.3单板硬件故障和端口故障的基本处理步骤

各种单板硬件故障和端口故障的处理步骤基本上都很相似,如图5-2所示。

图5-1单板硬件故障的基本处理步骤

在处理单板硬件故障和端口故障的操作中需要注意以下几点:

(2)复位、更换、倒换、拔插单板将对系统造成一定的影响,应当在华为技术支持人员的指导下方可进行;

(3)对于主备用单板,只有在故障单板处于备用状态下,才可进行单板的拔插和更换;

(4)拔插和更换单板应严格按照更换单板的操作规范进行,其要点包括:

●更换单板必须在凌晨等话务量小时进行;

●拔插和更换单板前需要将单板上的中继、信令、资源通道等进行闭塞、隔离操作;

●拔插和更换单板后,单板完成加载,维护人员注意查询加载后的单板的软硬件版本是否正确;

●单板运行正常后需将单板资源进行解闭塞、激活操作,并对单板功能进行一定的测试。

(5)在不确定哪些单板与故障有关联时,不要轻易进行操作,应首先通知华为技术支持人员。

(6)对于端口故障,请首先确认所有端口连接的正确性,其次应该注意桥板和母板的状态是否正常,LANSwitch是否有问题。

5.3CPU过载的故障分析与定位

CPU过载是MSOFTX3000的严重故障,当CPU占用率过高时,MSOFTX3000会对话务量进行流量控制,从而导致呼损上升,接通率下降。

5.3.1CPU过载的常见原因

CPU过载的常见原因有:

(1)话务量过大;

(2)话务统计任务周期过短;

(3)位置区设置不合理;

(4)维护操作不规范;

(5)数据设置不正确;

(6)CPU过载阈值设置不正确。

5.3.2CPU过载的处理步骤

CPU过载的基本处理步骤如下:

1.检查维护操作是否合适

大量的操作维护任务会占用大量的CPU资源,从而容易使CPU过载,为了避免在话务忙时因维护操作而导致CPU过载,应注意以下几点:

(1)忙时不要运行大批量的修改命令。

(2)忙时不要执行显示结果过多的显示命令。

(3)忙时不要将统计输出到终端。

(4)忙时不要对链路进行过多的动态跟踪。

注意:

由于向大量用户发送广播短消息时,会对MSCServer造成很大的冲击,因而在发送广播短消息时,需避开话务高峰的时间,而且尽可能分批发送广播短消息,每一批的人数要尽量少一些。

对于话务量已经非常高的地区,建议不要发送广播短消息。

2.检查话务量

交换机某一时段的实时话务量,可通过以下几种途径了解:

(1)查询近段时期的话务统计报告。

分析“试呼次数、接通次数、平均占用时长”等与呼损、话务量有关的关键信息,了解系统的话务量。

(2)查询中继电路的占用情况。

若中继电路的占用率超过70%,说明系统的局间话务量很大。

对于话务量很大导致的CPU过载,一般是以观察为主,对于长期的因话务量而导致过载可以和其他局协商,采用话务分流的方法减少话务量,或考虑进行适当的设备升级。

3.检查话务统计任务的统计周期

话务统计任务的统计周期设定对CPU占用率也有这重要的影响。

由于绝大多数话务统计任务与呼叫关系紧密,因此,当任务的统计周期过短的时候,会造成CPU的负荷加重。

目前比较合理的周期设置是1小时,这一信息可以通过维护命令查询和修改:

(1)查询命令字:

LSTTRFINF,填入相应的任务ID,按即可列出该务的所有信息,其中就包含了改任务的统计周期信息。

(2)修改任务周期命令字:

MODTRFTM,填入相应的任务ID,并且在Period下拉菜单中选择对应的时间参数,按即可进行修改。

需要注意的是,修改话务统计任务的统计周期对话务统计结果有一定的影响,那就是修改后的第一个统计周期将不会有话务统计的结果,请谨慎使用。

4.检查数据配置是否正常

对于MSCServer而言,数据配置错误导致的CPU过载主要有两个方面,一个方面是关于信令链路、中继的负荷分担配置不均衡,导致某些信令链路负荷过大,以致负责处理该部分的业务处理板过载,这种情况应该调整数据链路配置。

另一类数据配置错误是MAP功能配置错误,如将[周期性位置更新时间]设置过短(一般情况下,周期性位置更新时间应设置为BSC/RNC设置的周期性位置更新时间的1.5~3倍),可能导致A/Iu-CS接口链路负荷过高。

5.对设置不合理的位置区考虑位置区分裂

由于在VLR中保存的用户位置信息,都是以位置区形式的存储的。

因而当MSCServer对用户进行寻呼时,是按照位置区向相应的BSC/RNC发寻呼消息。

因此如果一个MSCServer下带有N个BSC/RNC,但是只有一个位置区,此时对用户的寻呼消息将发送给所有的BSC/RNC,这样相对于一个BSC/RNC一个位置区来说,寻呼消息将增加N倍。

因此对于一个位置区包含了多个BSC/RNC的情况而该位置区话务量居高不下时,应该考虑适当进行位置区分裂,以减少系统的负荷,保证系统安全的渡过话务高峰期。

(至于到底一个位置区多少个BSC/RNC合适,没有明确的定论,但是一般认为一个位置区超过4个BSC/RNC,就应该进行位置区分裂。

6.检查CPU过载阈值的设置

CPU过载阈值的设置将直接影响CPU过载故障的告警与恢复,因此需要直接确认该阈值是否设置正确,如果设置错误,一定要立即修改。

该信息可以通过如下命令查询和修改:

LSTCPUTHD

(1)查询CPU过载阈值命令字:

LSTCPUTHD,填入相应的模块号,按即可列出该模块的所有四级CPU过载阈值和恢复阈值。

(2)修改CPU过载阈值命令字:

SETCPUTHD,填入相应的模块号以及各个级别的过载阈值和恢复阈值,即可进行相应的设置。

(3)目前默认的CPU过载阈值信息如下:

阈值

OverloadLevel1

OverloadLevel2

OverloadLevel3

OverloadLevel4

ResumeLevel1

ResumeLevel2

ResumeLevel3

ResumeLevel4

默认数值

80

85

90

95

75

80

85

90

5.4单板加载不成功的故障分析与定位

5.4.1预备知识

在MSOFTX3000中,所有的加载工作都是通过WSMU板来完成的,所有的业务处理板的单板程序和相应的数据都是从BAM经过该框上的WSMU来加载到单板上的,而WCPC单板则是由BAM通过WSMU板再通过业务处理板来加载的。

对于单板加载不成功的原因往往是单板加载的某段路径出现异常,常见的加载路径故障有:

(1)BAM上Exchange进程和主机通信中断;

(2)单板硬件版本与软件版本不配套;

(3)某些单板的关键数据没有配置;

(4)加载文件丢失或异常;

(5)标识WSMU板所在框号的拨码开关设置错误。

5.4.2单板加载故障的解决思路

单板加载故障的基本思路为:

1.检查BAM和主机通信是否正常

当BAM和WSMU通信故障时,整个系统无法加载成功,当BAM和其它单板通信故障时,则该板加载不能成功。

2.检查WSMU板拨码开关设置是否错误

通过维护命令字LSTBRD可以查询指定框的单板配置,可以检查一下该框的WSMU是否正确配置,如果未能查到,则需要检查WSMU背板(WSIU板)拨码开关设置是否错误。

3.检查是否是某些重要数据没有配置

当没有配置MAP功能信息、本局信息、WCDB功能配置时,会造成WCCU板重复加载;当没有配置位置区小区时,WCDP板也会重复加载。

4.检查软件版本是否正确

使用MML命令“DSPBVER”查询软件版本与是否与软件版本描述表中内容一致。

单板加载后软件版本与要加载的版本不一致一般是因为单板超时保护引起的。

单板超时保护是指WSMU、WCDP、WCCU等主控板,在单板上电后一段时间内得不到加载响应,就会使用本板FLASH内的程序数据。

因此,如果FLASH内的程序与加载的程序不一致,就会造成版本不一致的现象。

另外加载软开关设置不正确也会造成软件版本不一致的情况。

(正确的软件开关设置应该是:

加载前为程序、数据不可用,程序、数据可写;加载完成后正常运行时为程序、数据可用,程序不可写、数据可写。

5.检查加载文件是否异常

如果单板都可以完成加载,但单板状态为故障,则有可能是加载文件异常造成的。

出现这种情况,可以首先查询加载软件的大小、日期是否正确,再使用对比法,用一个已验证过的加载文件进行加载。

5.4.3相关案例

1.加载文件不对导致单板不能正常加载

【故障现象】

某MSOFTX3000局升级,发现单板长时间没有反应,根本无法加载相应的文件。

【故障分析】

在BAM安装完毕后,单板加载的文件一般存放在d:

\data目录下:

●程序文件名为S3000.板名

●数据文件名为DB_模块号.dat

●WSMU板扩展BOOTROM文件名为smubios2.bin

●业务处理板二级BOOTROM文件名为iobios2.bin

单板无法加载,可能是这些文件损坏,也可能是路径被人为改变,从而导致无法找到相应的加载文件。

【故障定位】

(1)检查BAM上的路径是否存在,发现存在;

(2)检查文件是否存在,发现文件已经不存在了;

(3)在回收站里发现文件,经问询得知是误删除导致;

(4)将文件还原,单板开始正常加载。

2.连线、拨码开关不正确导致WSMU板无法正常连接到BAM

【故障现象】

某MSOFTX3000局,WSMU板无法正常加载,不能连接到BAM。

【故障分析】

这个问题可能由从LANSwitch故障或者该板上的端口故障引起,也可能是WSMU板后插WSIU板的拨码开关不正确而引起的。

WSMU加载时IP地址为:

左板:

172.20.框号.100,172.30.框号.100

右板:

172.20.框号.101,172.30.框号.101

【故障定位】

(1)检查LANSwitch发现其工作正常。

(2)查询该板IP为172.20.9.100,172.30.9.100。

(3)查询该板所在的框号显示为11框,但是实际上应该是1框。

(4)检查其后插WSIU的拨码开关,发现其拨码状态有误,第四个拨码开关被错误地拨到了1的位置,恢复后重新启动该板即恢复正常。

5.5倒换异常的故障分析与定位

5.5.1常见原因

倒换异常的常见原因有:

(1)操作不规范

(2)系统运行状态不允许

(3)备板离线

5.5.2倒换异常的故障定位

1.“不能倒换或倒换超时”故障的定位

(1)检查备板是否离线

当备板未插、备板故障、备板状态异常等造成的备板不可用时,称备板离线。

此时若执行倒换操作,系统将拒绝执行。

在维护台的维护工具导航树中打开硬件配置面板图,选择相应的模块、机框,找到需要倒换的单板,查看该单板的信息,若单板状态是“备用异常”、“故障”、“待激活”、“就绪”、“隔离”等状态,该单板就不能被倒换。

(2)其他不允许被倒换的情况

为了保障交换机安全运行,在系统出现大话务量、CPU高占用率、定时任务执行、数据备份等特殊情况时,系统也将拒绝执行倒换操作,此时若强行倒换,则会引起严重后果,如话单丢失、断话、主备用单板全部复位等,因此,在这种情况下的执行倒换操作应十分谨慎。

2.“倒换后主用异常或影响其他单板”故障的定位

由于WCCU等控制单板是系统或模块的控制核心,在进行此类单板的倒换操作前,必须要遵循以下两个原则:

检查系统当时的运行状况,尽量避免在CPU高占用率的情况下执行倒换操作,如大话务量、话务统计定时任务执行、数据备份等。

因为在这种情况下执行倒换操作,将加重CPU的处理负担,给系统的运行带来不确定因素,导致倒换失败或其他异常现象。

两次倒换之间的时间间隔不能太短(建议大于30分钟)。

因为在倒换时,系统需要对主备板的数据进行平滑处理,一般需要20分钟左右,在此期间如果再次执行倒换操作,将会导致话单丢失、数据混乱、系统重启等严重后果。

注意:

倒换是一项具有较大风险的操作,做好备份是预防或减少因倒换操作而引起损失的有效措施。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 初中教育 > 语文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2