唐山移动WLAN系统应急预案816.docx

上传人:b****1 文档编号:15003761 上传时间:2023-06-29 格式:DOCX 页数:17 大小:182.91KB
下载 相关 举报
唐山移动WLAN系统应急预案816.docx_第1页
第1页 / 共17页
唐山移动WLAN系统应急预案816.docx_第2页
第2页 / 共17页
唐山移动WLAN系统应急预案816.docx_第3页
第3页 / 共17页
唐山移动WLAN系统应急预案816.docx_第4页
第4页 / 共17页
唐山移动WLAN系统应急预案816.docx_第5页
第5页 / 共17页
唐山移动WLAN系统应急预案816.docx_第6页
第6页 / 共17页
唐山移动WLAN系统应急预案816.docx_第7页
第7页 / 共17页
唐山移动WLAN系统应急预案816.docx_第8页
第8页 / 共17页
唐山移动WLAN系统应急预案816.docx_第9页
第9页 / 共17页
唐山移动WLAN系统应急预案816.docx_第10页
第10页 / 共17页
唐山移动WLAN系统应急预案816.docx_第11页
第11页 / 共17页
唐山移动WLAN系统应急预案816.docx_第12页
第12页 / 共17页
唐山移动WLAN系统应急预案816.docx_第13页
第13页 / 共17页
唐山移动WLAN系统应急预案816.docx_第14页
第14页 / 共17页
唐山移动WLAN系统应急预案816.docx_第15页
第15页 / 共17页
唐山移动WLAN系统应急预案816.docx_第16页
第16页 / 共17页
唐山移动WLAN系统应急预案816.docx_第17页
第17页 / 共17页
亲,该文档总共17页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

唐山移动WLAN系统应急预案816.docx

《唐山移动WLAN系统应急预案816.docx》由会员分享,可在线阅读,更多相关《唐山移动WLAN系统应急预案816.docx(17页珍藏版)》请在冰点文库上搜索。

唐山移动WLAN系统应急预案816.docx

唐山移动WLAN系统应急预案816

 

唐山移动WLAN系统

应急预案

 

中国移动通信集团河北有限公司唐山分公司

2012年8月07日

 

目  录

(一)应急方案启动条件

1.大量WLAN用户投诉无法正常使用,启动应急预案。

2.全网WLAN业务中断,启动应急预案。

3.若AC功能模块出现异常,导致无法登录AC系统,无法采集网络数据影响到业务的使用

和省网管中心的监控,启动应急预案。

4.主用AC硬件故障宕机,启动应急预案。

5.主用AC与核心S9312的链路中断,启动应急预案。

6.主用AC业务故障导致下挂所有站点业务无法使用,启动应急预案。

7.WLAN系统关键双机设备中的主机宕机(核心交换机双机、四层交换机双机、交换机双机、防火墙

双机等),业务中断,启动应急预案。

(二)应急方案执行原则

1.先抢通,再抢修,尽快恢复业务。

以对业务系统的影响最小化为指导思想,力争业务不中断。

2.排障过程要将业务影响情况及时上报领导和通知监控室,及时对地市通报。

3.在网络设计上单台设备的故障是不引起业务的全阻断。

在发现单台设备的故障时最主要是要

检查配对的设备是否能负荷故障设备所承载的业务。

4.由于目前WLAN系统上并没有接入带外管理网络,所以在发现设备阻断故障时必须由本地维

护人员到达设备端登陆设备。

检查设备运行情况、传输线路情况等,并做好对路由器端口、

路由等方面检查记录,确定故障点。

为故障处理提供原始记录。

5.当WLAN网络出现严重故障,根据故障现象准确定位故障点,汇聚层问题还是接入层问题。

汇聚层设备主要查看AC是否正常运行,AP有没有获取到IP地址,AP与AC是否已经

关联上,AC是否给AP下发模板,VLAN号是否一致。

S9312交换机是否正常运行,接

入层设备主要查看接入层交换机是否正常运行,所配置的VLAN号是否一致,是否有做透

传。

以上执行原则需在公司的统一指挥下和其它部门一起解决。

(三)网络结构现状

唐山WLAN网络采用集中转发模式、AC认证、二层组网和三层组网并存,AC转发用户数据流到S9312再到RADIUS做推送认证、,AC管理与配置AP,AC作为用户DHCP服务器和认证点。

唐山本地WLAN网络核心交换机采用华为S9312、AC和AP采用福建三元达、武汉虹信和天津京信3个厂家设备,汇聚交换机和POE交换机采用中兴、烽火和锐捷厂家设备进行组网。

业务承载传输方式采用PTN设备、SDH设备。

下图为网络拓扑图

(四)重点关注的指标

需要关注的内容有:

1、地址池利用率均值,粒度为每天,正常情况下地址池利用率不超过80%。

查看方法:

登陆省内数据网管————AC地址池利用率统计—查询;

2、AC性能,粒度每天,正常情况下CPU和内存利用率都在50%以内;

查看方法:

登陆省内数据网管——AC—查询;

3、由于AC原因导致认证失败率,粒度每天,按照集团公司和省公司要求CMCC和CMCC-EDU

认证成功率应保证在以上。

查看方法:

登陆省内数据网管———全省AC设备radius认证统计

/radius认证—查询;

4、无流量AP清单,粒度每天,正常情况不会产生,如果连续几天都为无流量,则需要察看AP是否

吊死;

查看方法:

登陆省内数据网管———AP无流量清单—查询;

5、离线AP清单,粒度每天,如果连续多天均为离线状态,需要上报省公司原因

查看方法:

登陆省内数据网管

(五)故障时需要上报省公司的数据

设备出现故障时,没有数据需要手工上报省公司。

(六)破坏原因及破坏结果分析

从统计分析的结果看来,在WLAN系统上引起故障或有破坏性的原因主要有以下几种:

1.设备本身的原因(软件、硬件)

从设备本身的原因来看也可以分为软件Bug和硬件BUG,这一类的故障比较隐蔽,一般需要厂家的协助才能检查出来,所以对于此类的故障要通过加强与厂家之间的沟通来解决,及时升级相关的软件版本和补丁,更换存在隐患的硬件板卡。

这类原因引起的故障针对影响范围和规模也会有所不同。

2.传输线路、尾纤等物理线缆的原因

传输线路、尾纤等物理线缆由于线路质量,光缆被盗,光缆被挖断等的问题引起的故障一般可能通过设备的LOG文件、端口状态情况等检查出来,对于该类的故障需要加强与传输部门和机房现场人员的沟通来解决。

这类原因引起的故障如果在S9312和AC侧一般影响一条传输线路或者某1台AC。

但如果发生在接入侧则可能影响某些用户无法正常使用WLAN业务。

3.人为原因

由于人为配置或操作失误引起的故障,这类的故障是我们管理上要着力避免的。

可通过管理制度去约束网络维护人员,代维人员,厂家等在网络上进行的操作。

建立起操作审核制度、操作更变规程等相关的规范化制度。

4.自然灾害

由于台风、洪涝、地震等各类自然灾害的影响,对机房或动力环境等可能造成严重影响,可能导致整栋机楼、整个城市的瘫痪,从而给包括WLAN网络在内的整个网络造成严重影响。

(七)预防保障措施

在WLAN系统的网络设计上已经避免了单台设备故障和单条链路中断对整个WLAN网络本身和对其上承载业务的影响。

在网络上采用了以下技术去保证网络的安全和稳定。

1.双节点、双平面网络设计

在网络拓朴设计上各层面节点都采用了双节点、双平面的设计,,严格按照主备设备异局址布放的原则,保证单节点故障或单平面故障时,业务流量都不会受到影响。

2.多链路、不同传输线路的保护

WLAN系统核心交换机和AC设备采用的双链路保护,且各层设备互联链路承载在不同的传输平面上。

保证在发生灾害天气、光缆中断时不会造成节点的业务全阻断。

3、主备AC的VRRP快速切换

WLAN系统中主备AC采用VRRP协议,保证主用AC出现故障时,由备用AC来代替出现故障的AC进行工作,从而保持网络通信的连续性和可靠性。

(八)应急措施

1、S9312侧故障

(1)S9312互联链路为2条,承载在不同SDH传输平面上,当单条链路中断时,全网业务不受

影响。

当双链路中断时,可以将链路割接至波分传输平面上,保证业务的快速恢复。

(2)如果发现所有单板的指示灯都不亮,并且所有风扇不转(可通过听声音辨别),或者电源模

块的ALARM灯亮,则有可能是设备的供电系统出现故障,需要检修。

检查电源模块的开关

是否已经打开,RUN灯是否点亮。

如果有多个电源模块,请确保至少一个电源模块正常供

电。

检查电源模块的ALARM灯是否点亮。

如果点亮,表明电源模块有异常,可尝试通过

更换电源模块解决。

(3)当发生无法登陆设备问题,在排除了串口通信、电缆、供电系统方面的原因后,则很有可

能是主控板发生了故障。

如果系统有主备两块主控板,可尝试将配置电缆连接到备用的主控板

上;如果只有一块主控板,可使用备件进行更换。

(4)当发现S9312单播转发业务不通时,首先需要检查在设备上能否收到AC的报文。

可以使

用displaymac命令查看一段时间内设备接收的mac地址是否有变化。

如果发现设备上无法收

到AC的MAC,可按如下步骤进行处理:

检查设备的上行接口的状态是否正常,如果对应AC接口

状态正常,可以PingAC对端接口的IP地址。

如果可以Ping通,则可以确认是AC设备出现故

障,可通告相关AC进行检修。

如果无法Ping通,则需要检查设备的对应接口和AC接入设备

的下行接口之间的链路,例如电缆是否完好、光模块和光功率是否正常、中继设备是否正常、

IP地址是否正确等。

如果可以接收到AC侧MAC,但是下行无法转发出去,则需要检查S9312和

下游设备之间的连接和通信.检查设备的下行接口的状态是否正常,如果下行接口状态正常,

可以Ping下游设备的上行接口的IP地址。

如果可以Ping通,则可以确认是下游设备或更

下游设备出现故障,可通告相关局点进行检修。

如果无法Ping通,则需要检查设备下上行

接口和下游设备的上行接口之间的链路,例如电缆是否完好、中继设备是否正常、IP地址是

否正确等。

如果链路都是完好的,则有可能是S9312和上层设备之间的通信异常,需要检查

路由等设置。

2、AC故障

(1)主用AC与核心S9312的链路中断,自动切换到备机工作不影响正常业务使用;

(2)当主用AC硬件故障宕机,通过VRRP技术,确保主机出现故障时及时的启用备机,自

动切换业务链路,主用AC自动切换到备机工作不影响正常业务使用;当检测故障主机为硬件故

障后,应及时更换备件,确保问题解决后,经过测试方可将业务切换回主机。

(3)主用AC操作故障导致下挂所有站点业务无法使用,配置改动不当会造成用户掉线。

(4)当发生主备切换故障时,确保主备状态正常,备份链路和备份对接端口正常。

#showhotstandbygroup-info进行主备状态查询

#showhotstandbyport-state进行主备端口查询

(5)当AC系统检测到网络攻击时,以下主要检查项如果发现问题,不影响业务的进行参数调

整;对业务造成影响的及时切换到备机,并处理故障;如果AC查看显示网络攻击并且该AC所

有业务无法使用则切断网络紧急排障。

3、汇聚交换机和POE交换机故障

(1)硬件故障

如发生交换机遭雷击、漏电、过载、过热、安装操作不当、运行环境恶劣等导致的损坏,或

设备自身硬件缺陷,使设备不能正常运行,业务、网管全中断,则更换整机。

(2)供电问题

POE交换机若带的AP过多,可能导致后面的AP供不上电,无法上线带业务,可修改调测

POE供电参数,如果修改不能解决,可以减少AP数量或增加POE交换机。

(3)端口环路

当POE交换机个别端口下接的AP存在故障,或网线施工时存在问题,会导致该端口下有环

路,引起广播风暴,影响整个热点的AP都无法上线,可在POE交换机业务口下开启AP管理vlan

的环路检测,当有环路时,自动阻塞该端口,保证其他AP业务正常,然后排查该端口。

(4)设备吊死

当设备吊死时,故障现象有时为业务和网管都不通,有时业务是好的但网管不通,一般重启

设备都能解决,如果重启仍不能恢复,按硬件故障处理方法处理。

(九)告警处理

常见维护中重要告警、常见问题的处理措施:

AC部分:

1、设备升级失败无法工作

【处理措施】:

(1)AP升级失败后请通过TFTP方式对设备进行升级。

(2)AC升级失败后请在设备开机后通过串口进行复位操作,rescue后恢复出厂操作

系统后再进行最新版本的升级。

【操作指令】:

2、当AC串口出现分区错误,

【处理措施】:

此时需要对该分区进行格式化,否则对一些AC的参数配置保存会有影响。

【操作指令】:

常见的一些分区格式化操作方法:

sda7分区:

umount/mnt/UserSetting_bak/

/dev/sda7

dfmt3/dev/sda7新版本命令

mount/dev/sda7/mnt/UserSetting_bak/

sda6分区:

umount/var/log/

/dev/sda6

dfmt3/dev/sda6新版本命令

mount/dev/sda6/var/log/

 

sda5分区:

umount/mnt/UserSetting_bak/

/dev/sda5

dfmt3/dev/sda5新版本命令

mount/dev/sda5/mnt/UserSetting_bak/

3、AC的各接口的MAC出现全0

【处理措施】:

AC的各接口的MAC出现全0时,表示AC的MAC丢失了,这时需要RD做

一个ZCOMKEY导入到AC中,进行恢复。

1、在AC启动的时候选择进入rescue这个系统。

2、进入后然后输入:

rescue

3、等待设备重启。

4、重启后串口可进入第二个系统,然后输入ifconfig,查看一下MAC地址是否

存在,如不存在的话需要输入:

serial-number,将结果发给RD,我们会做个

zcomkey文件。

5、将该文件拷贝到C盘根目录,更名为:

然后ftp

combapasswordput

6、在AC串口中输入:

mv/home/sw//mnt/factory/zcomkey

7、输入reboot

8、等设备重启完毕,进入WEB重新升级最新FW即可。

【操作指令】:

ifconfig;serial-number;reboot;

4、AC非法进程,或者缺少一些应用进程

【处理措施】:

可以手动在串口中将他重启。

【操作指令】:

#killall-9sshd

#killall-9sshd

killall:

sshd:

noprocesskilled/杀掉进程

#sshd&/重启进程

5、AC的日志功能在WEB中无法显示

【处理措施】:

AC的日志功能在WEB中无法显示,这大多是由于/var/log/messages文件出错导致,

可进行如下的操作进行恢复。

【操作指令】:

1.串口进入AC,或者SSH到fullcontrol下:

2.cd/var/log/进入日志文件夹

3.ls–all/查看messages文件大小

4.catmessages/读取messages文件是否有内容

5.movemessagesmessages_bak/备份messages文件

6.touchmessages

7.ls/查看新建的文件是否存在

8./sbin/syslogd/启一下日志进程。

6、AC上出现AP异常离线故障分析思路

【处理措施】:

1、首先前往AP的POE交换机上接PC,设置和AP同网段的地址去pingAC的LAN口,观察ping包

的延时情况,如果ping包严重丢包,说明链路存在不稳定,环路等问题,需要链路厂家协助解

决。

2、排查AP的网线,POE供电交换机是否正常,AP是否有重启的日志,接AP的串口查看AP的:

Getsystembridge是否拿到AC分配的地址,包括AP的DHCPD,WLTPS进程是否都在。

3、如果AC和AP之间走的三层架构,AP拿不到AC分配的地址的话,需要检查DHCPRELARY的设

置是否正确,可以试试手动给AP指定地址,观察AP能否正常上线。

4、检查AC的NM口,HB口,瘦AP端口的地址是否存在冲突,如果冲突也会导致AP无法正常上

线。

5、AP离线的问题基本是管理数据包报文丢掉,目前没有发现过版本中存在AP上线不稳的问题,所

以遇到此问题时首先要排查一些外界因素,其次在一些特定的环境下也会存在AP异常离线的情况,

根据不同的情况要做不同的分析,最直接的方法可以对AP的有线口和AC的LAN进行同时抓包,观

察AP的DHCP广播包以及TCP连接的报文情况,能够很清晰的定位出问题的原因。

【操作指令】:

AP部分:

1、需要更改AP的FW

【处理措施】:

对于现场一些紧急的情况,只需要更改AP的FW的话,可以手动将AP的FWPUT到

AC中,然后修改AC中的fwmange的型号即可。

(由于目前AC的内存容量有限,不能

长时间保存,AC重启后该FW会丢失。

【操作指令】:

第一步:

将FW的名字改成:

并放到C盘根目录下。

第二步:

进入DOS

ftpcomba

password

put

第三步:

SSH到AC上。

/在full_control下

mv/home/sw//home/sw/fwdir/

killall-9wltps

第四步:

将文件拷到C盘根目录并改名为:

ftpcomba

password

put

串口进入full_control

mv/home/sw//etc/

killall-9wltps

2、AC的“瘦AP在线列表”显示AP在线,但无法正确显示“版本”和“信道”

【处理措施】:

1、检查AP与AC的软件版本是否兼容,若不兼容请升级。

2、检查AP与AC之间的物理链路是否通信正常,通过ping包方式进行检测,若有丢包情况,请

检查网线与水晶头制作。

【操作指令】:

3、AP插上POE电源或接入到POE交换机时,AP不上电,状态指示灯不亮

【处理措施】:

1、检查POE电源适配器工作是否正常,POE电源模块指示灯是否常亮,尝试更换POE电源适配器。

2、检查AP的220V供电是否正常。

3、检查POE电源模块与设备的网线连接是否正确。

4、尝试更换POE电源模块和连接网线。

5、检查AP与POE交换机连接网线的两端水晶头制作是否标准。

6、检查POE交换机端口POE供电功能是否启用。

7、尝试更换POE交换机端口以及AP与POE交换机间连接网线。

【操作指令】:

4、瘦AP无法正常关联AC问题

【处理措施】:

1、是否AP供电发生变化导致,例如POE交换机或本地供电盒损坏。

2、观察连接AP交换机的指示灯,是否有频繁切换的现象或指示灯狂闪的现象,需要排除是否有网络广播风暴或环路的可能。

3、AC和AP的版本是否正常匹配,AP版本和AC版本如果相差太多,会导致AP关联不上AC

4、AP是否正确获取到了AC的DHCP地址池的地址。

5、检查AP和AC间的交换机数据配置是否正确,AP的DHCP请求通过交换机是否可以到达AC的LAN口。

6、检查AC的DHCP地址池设置是否正确,“瘦AP端口IP地址1”是LAN口的地址,“DHCP状态”应为“打开”,如果AP与AC跨三层关联,AC上还要设置“静态路由”。

7、通过抓包捕捉AC与AP间的数据交互,可以比较准确的定位AP的DHCP请求到哪个设备,判断出故障所在。

【操作指令】:

5、一个VLAN里的AP无法上线

【处理措施】:

1、检查AP接入交换机数据配置如何。

尝试给瘦AP配置静态地址,是否能够从AC上ping通AP,或者

用笔记本尝试access端口pingAC。

2、抓包分析链路,在AP采用DHCP获取地址方式下检查AP与AC建立交互的四个过程,dhcpdiscover、offer、request、ack过程是否完整,查看是否中间环节哪个设备由于协议、策略问题将其中部分报文丢弃过滤导致。

3、通过交换机的风暴侦测机制检查是否由于广播风暴导致。

4、通过交换机的环路检测功能检查链路中是否有环路。

5、排查交换机工作是否正常,指示灯闪烁是否正常等。

【操作指令】:

(一十)工作流程图

(一十一)应急资源配备(含备件)

1、备份现网AC配置数据,备份热点VLAN信息数据

2、现网AC备用板卡,光模块等

3、登陆设备的工具,包括电脑、网络连接工具、帐号、密码,如果到现场处理,还要准备串口线

4、抓包工具:

wireshark

(一十二)知晓范围

1.省网管中心

2.地市分公司

说明:

在启动应急预案后,除上述知晓范围外,还应按照紧急故障流程中信息上报的要求向相关领导汇报处理。

(一十三)相关人员联系表

单位

姓名

联系电话

邮件

备注

设备维护中心

何红伟

数据传输中心

范东堃

网络服务中心

李刚

网络服务中心

孙腾

设备厂商技术支持人员联系表

设备供应商

负责人/联系电话

武汉虹信

郭志刚

福建三元达

王建龙

京信

刘文宝

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2