城域网应急预案Word格式文档下载.doc
《城域网应急预案Word格式文档下载.doc》由会员分享,可在线阅读,更多相关《城域网应急预案Word格式文档下载.doc(34页珍藏版)》请在冰点文库上搜索。
1、预案管理 34
七、附件 34
1、事件分级标准 34
2、应急管理工作流程 36
一、总则
1、编制目的
为了保障数据网络的正常运行,在出现突发性故障或系统瘫痪时,能有效及时的组织相关维护人员,采取紧急措施,在最短的时间内恢复网络的正常通信,将意外事故的损失减少到最低程度,保障网络提供服务的可持续性,确保在服务品质协议(SLA)定义的时限内恢复所承诺的服务。
2、编制依据
依据《运维[2006]27号-关于组织开展网络安全评估和完善应急保障预案工作的通知
(1)》,根据内蒙电信网络发展现状制定本预案。
3、分类分级
本预案按照网络层次分级,鄂尔多斯电信数据IP网分为:
城域网核心层、业务控制层、汇聚接入层。
4、适用范围
本预案适用于鄂尔多斯电信IP城域网。
5、工作原则
本预案工作原则:
优先恢复业务原则;
城域网核心优先于业务控制层,业务控制层优先于汇聚接入层原则;
按照业务重要等级优先恢复原则;
按照用户服务等级优先恢复原则。
(1)业务恢复原则
故障发生时,不同等级业务、业务网络按照不同的优先顺序进行恢复的原则。
(2)应急预案体系
城域网数据网整体应急预案
城域网核心
业务控制层
汇聚接入层
路由异常
设备故障
电路中断
二、组织体系
1、领导机构与职责
领导机构:
网运部主任:
燕龙
区公司数据专业主管:
狄光
职责:
1、组织应急预案的定期更新;
2、协调处理预案实施、演练等工作。
2、工作机构与职责
工作机构:
维护中心数据专业维护人员:
王斯日古楞、郝如意、王剑
1、负责应急预案定期更新工作的具体实施;
2、具体进行预案实施、演练等工作。
3、技术支撑队伍与职责
技术支撑队伍:
区公司网运部、鄂尔多斯网运部
1、负责应急预案中涉及城域网设备的预案实施;
2、解决鄂尔多斯分公司申请支撑的技术问题。
4、厂商售后服务队伍与职责
厂家售后服务队伍:
华为公司技术支撑队伍
中兴公司技术支撑队伍
1、配合应急预案定期更新工作的具体实施;
2、配合具体进行预案实施、演练等工作。
三、运行机制
1、预警机制
(1)网络分析评估
鄂尔多斯针对网络安全进行分析的工作机制和相关管理制度如下:
规定由网络监控人员通过数据网管7*24小时对全省数据网(城域网BAS设备到省出口间的各级电路流量、设备性能)进行监控;
每周/月对全市总出入流量、盟市出入流量、155M电路出入流量、2.5G电路出入流量进行分析,针对带宽能力进行分析、平均流速和峰值流速进行分析,确定是否设备资源使用情况,带宽利用率、是否需要扩容、流量异常增长下降原因等。
监测人员每班进行三次据链路连通性测试并将测试结果保存以及随时观察网管告警情况结果。
①数据链路连通性测试
A、连通性及时延、丢包测试
ping–t>
测试
(目前我省访问网站的IP地址:
220.181.6.18,用于检测鄂尔多斯NE80E与省干设备链路状况)
ping219.150.32.132–t>
天津DNS测试1
(用于检测鄂尔多斯NE80E与省干设备链路状况,以及测试天津DNS是否可达,我省主用DNS是天津DNS)
ping219.146.0.130–t>
山东DNS
(测试山东DNS是否可达,我省备用DNS是山东DNS)
②路由测试
A、tracert网站:
B、tracert天津DNS:
③网管监控情况
鄂尔多斯IP城域网后期可以利用的监控终端有N2000网管做实时监控网络情况,N2000网管可以监控到IP网的城域网核心层、业务控制层以及汇聚接入层所有华为设备,并可通过N2000网管直接管理这些设备;
通过Netcool告警平台可以实时监控省骨干层所有设备的运行情况,通过IP三期网管系统可以实时监控鄂尔多斯出城域网流量、鄂尔多斯互联中继流量、以及城域网各汇聚设备的流量的出入平均和峰值流量。
A、正常情况下流量分布情况:
鄂尔多斯中心局NE80E至呼市M3202.5GPOS链路正常情况下流量图:
鄂尔多斯中心局NE80E至通辽Cisco124162.5GPOS链路正常情况下流量图:
鄂尔多斯火车站NE80E至呼市M3202.5GPOS链路正常情况下流量图:
鄂尔多斯火车站NE80E至通辽Cisco124162.5GPOS链路正常情况下流量图:
鄂尔多斯中心局NE80E至鄂尔多斯火车站NE80E2.5GPOS链路正常情况下流量图:
鄂尔多斯中心局NE80E至中心局NE40EGE链路正常情况下流量图:
鄂尔多斯中心局NE80E至火车站NE40EGE链路正常情况下流量图:
鄂尔多斯中心局NE80E至准旗NE40EGE链路正常情况下流量图:
鄂尔多斯中心局NE80E至达旗局NE40GE链路正常情况下流量图:
鄂尔多斯火车站NE80E至中心局NE40EGE链路正常情况下流量图:
鄂尔多斯火车站NE80E至火车站NE40EGE链路正常情况下流量图:
鄂尔多斯火车站NE80E至准旗NE40EGE链路正常情况下流量图:
鄂尔多斯火车站NE80E至达旗局NE40-8GE链路正常情况下流量图:
鄂尔多斯中心局NE80E至中心局ME60-16GE链路正常情况下流量图:
鄂尔多斯中心局NE80E至火车站ME60-16GE链路正常情况下流量图:
鄂尔多斯中心局NE80E至准旗ME60-8GE链路正常情况下流量图:
鄂尔多斯中心局NE80E至达旗ME60-8GE链路正常情况下流量图:
鄂尔多斯中心局NE80E至伊旗MA5200G-4GE链路正常情况下流量图:
鄂尔多斯中心局NE80E至棋盘井MA5200G-2GE链路正常情况下流量图:
鄂尔多斯火车站NE80E至中心局ME60-16GE链路正常情况下流量图:
鄂尔多斯火车站NE80E至火车站ME60-16GE链路正常情况下流量图:
鄂尔多斯火车站NE80E至准旗ME60-8GE链路正常情况下流量图:
鄂尔多斯火车站NE80E至达旗ME60-8GE链路正常情况下流量图:
鄂尔多斯火车站NE80E至伊旗MA5200G-4GE链路正常情况下流量图:
鄂尔多斯火车站NE80E至棋盘井MA5200G-2GE链路正常情况下流量图:
鄂尔多斯中心局NE80E至中心局E1000GE链路正常情况下流量图:
鄂尔多斯火车站NE80E至中心局E1000GE链路正常情况下流量图:
B、鄂尔多斯出城域网2.5G电路中断时流量图:
以下为相应的A设备D设备之间的流量图。
当中心机房NE80E至呼市M320出现中断时,中心机房NE80E至通辽Cisco12416流量图:
2、应急处置
(1)应急管理调动处理流程
数据网络主要包括IP网络、基础网络以及相关的后台支撑系统,在以上网络或系统发生紧急网络故障时,网络维护部负责牵头启动应急调动预案进行故障处理的调度,现场维护部分按照相应的紧急故障处理预案处理故障。
应急调动流程如下图:
设备整台故障
其他原因
路由问题
板卡故障
处理流程图如下:
(2)应急响应
鄂尔多斯电信IP城域网网络结构如下:
①城域网出口电路中断
1、中心机房NE80E至呼市M3202.5GPOS电路故障
立即上报内蒙古区公司网管中心及运维部,如果2.5GPOS链路中断后,所有出城域网流量都会通过火车站NE80E至通辽Cisco12416的2.5GPOS链路转发所以此时需密切注意火车站NE80E至通辽Cisco12416的2.5GPOS链路流量情况;
查看传输网管,如果是传输电路中断引起的,则协调传输专业尽快处理;
如果是NE80E路由器设备或单板故障,应积极区公司的指挥调度,做好现场维护工作,尽快解决问题。
2、火车站NE80E至通辽Cisco124162.5GPOS电路故障
立即上报内蒙古区公司网管中心及运维部,如果2.5GPOS链路中断后,所有出城域网流量都会通过中心机房NE80E至呼市M320的2.5GPOS链路转发所以此时需密切注意中心机房NE80E至呼市M320的2.5GPOS链路流量情况;
②城域网内部中继电路中断
1、当SR或者BRAS设备与城域网核心路由器NE80E间链路单条链路出现中断时,由于城域网内部运行动态路由协议OSPF,此时业务会瞬断几秒,待城域网路由收敛完成后,所有业务均从另外一条正常链路上转发数据;
此时,应进行以下操作:
a.立即上报内蒙古区公司网管中心及运维部,应积极区公司的指挥调度,做好现场维护工作;
b.检查互联端口link灯是否处于常亮状态,若处于down状态,此时应该第一时间重新布放尾纤恢复链路,再进行测试;
c.若更换尾纤后,物理端口link灯仍不处于常亮状态,则应更换相应的光模块,以免光模口烧坏或者其它情况造成光口不能正常转发数据;
2、当其中一台SR设备的两条上行链路均出现问题时,若短时间内不能恢复链路,应将该台SR设备上的所有业务暂时割接至另一台正常的BRAS设备上,再进行故障排除;
b.在大汇聚交换机上,将三层业务vlan透传至正常运行的BRAS设备上;
c.在BRAS设备上,配置三层业务的网关,同时发布该业务路由段;
3、当其中一台BRAS设备的两条上行链路均出现问题时;
b.若是单板故障引起,及时将备件单板换上,把原上行2路光纤更换到备板上,配置数据恢复上行
c.若是整机故障,第一时间将大汇聚交换机8905跳纤到ODF,通过局间光缆连接至另一局点的BRAS上,将PPPOE业务或者Wlan业务全部强制倒换至另一台正常的BRAS进行认证;
为快速切换业务要提前布放8905至ODF和BRAS至ODF的光纤。
(此条适用于大汇聚通过裸光纤上行至BRAS)
d.若是整机故障,第一时间将另一局点正常运行的BRAS通过光纤连至传输7500/3500,协调传输人员将8905上行业务通道做到此正常的BRAS上,将PPPOE业务或者Wlan业务全部强制倒换至这台正常的BRAS进行认证;
为快速切换业务要提前布放BRAS至传输设备的光纤。
(此条适用于大汇聚通过传输上行至BRAS)
e.在正常的BRAS设备上,查看用户上线数量,确保业务已经正常;
Displayaccess-userdomaindslam_pppoe
Displayaccess-userdomainlan_pppoe
Displayaccess-userdomainwlan_web
4、当大汇聚交换机8905至BRAS设备互联链路出现中断时;
a.立即上报内蒙古区公司网管中心及运维部,应积极区公司的指挥调度,做好现场维护工作;
b.查看传输网管,如果是传输电路中断引起,则协调传输专业尽快处理;
c.若是光模块烧坏或者其它情况造成光模块不能正常转发数据,则更换光模块,则进行测试;
d.若是尾纤出现问题,则应将提前布放的备用尾纤直接接入传输设备的端口,再进行测试;
e.若是8905或ME60单板故障,立即调用备件,并调整相关数据到备板上
5、当大汇聚交换机与两台BRAS或者两台SR设备互联链路出现中断时;
b.第一时间联系传输人员及数据维护人员进行链路恢复;
③鄂尔多斯城域网设备故障
1、NE40E/NE80E出现异常
a.按照上面链路故障的方法先将业务恢复至正常的设备上;
b.立即上报内蒙古区公司网管中心及运维部,应积极区公司的指挥调度,做好现场维护工作;
c.硬件障碍:
1)尝试用telnet、远程拨号方式登陆,查看告警路由器告警信息,并根据在现场看到的设备面板告警信息,判断障碍点。
2)若判断为板卡电源模块等硬件故障,需要确认是否有冗余板位,如果有可以将业务调整到冗余板位;
如果有可用端口,将故障端口割接到可用端口。
3)若为关键板件(如路由引擎、电源等)故障,且启用冗余板位后业务仍不能恢复,立即调拨备件,备件上架后,及时与区公司网运部联系,配置软件信息,恢复业务。
4)若由于设备板卡吊死等不明原因引起的故障,则将搜集至的设备告警和板卡状态等信息上报给区公司网运部和网管中心,并将业务割接至备用板卡上。
在厂商确认、区公司网运部及区公司网管中心认可后,在确定不会对现有业务有更严重影响的前提下,重启部件或设备。
2、ME60出现异常
a.按照上面链路故障的方法先将业务恢复至正常的设备上,
3、8905出现异常
4、DDOS攻击情况
DDOS攻击概念:
lDoS的攻击方式有很多种,最基本的DoS攻击就是利用合理的服务请求来占用过多的服务资源,从而使合法用户无法得到服务的响应。
DDoS攻击手段是在传统的DoS攻击基础之上产生的一类攻击方式。
其原理如下图一所示。
单一的DoS攻击一般是采用一对一方式的,当攻击目标CPU速度低、内存小或者网络带宽小等等各项性能指标不高它的效果是明显的。
随着计算机与网络技术的发展,计算机的处理能力迅速增长,内存大大增加,同时也出现了千兆级别的网络,这使得DoS攻击的困难程度加大了-目标对恶意攻击包的"
消化能力"
加强了不少,于是分布式的拒绝服务攻击手段(DDoS)就应运而生了。
DDoS利用了更多的傀儡机来发起DOS攻击,以比从前更大的规模来攻击受害者。
DDOS攻击现象:
l出现DDOS网络攻击时,被攻击端网络及主机会出现一下的现象:
1、被攻击主机上有大量等待的TCP连接
2、网络中充斥着大量的无用的数据包,源地址为假
3、制造高流量无用数据,造成网络拥塞,使受害主机无法正常和外界通讯
4、利用受害主机提供的服务或传输协议上的缺陷,反复高速的发出特定的服务请求,使受害主机无法及时处理所有正常请求
5、严重时会造成系统死机,网络严重拥塞
SYN-Flood是目前最流行的DDoS攻击手段,利用了TCP/IP协议的固有漏洞。
据现网监测上的统计,目前网络中存在大量的DDOS攻击,在ChinaNet网络中,平均每天监测到的攻击有500个左右。
所有的攻击中,TCPSYN攻击占全部DDOS攻击的90%左右,而其中攻击流量较大的类型是TCPSYN、ICMP、TCPRST。
面向连接的TCP三次握手是SynFlood存在的基础。
TCP/IP建立连接需要经过三次握手,而攻击者在发送了第一次Syn后,不再发送第二次Syn信息,导致被攻击者一直等待发送方的Syn信息直到超时,而攻击方通过发送大量的Syn信息,导致被攻击方cpu资源耗尽而无法提供正常服务。
DDOS检测措施:
l在省骨干网和城域网汇聚层以上网络,可以利用北方IP三期数据网管http:
//219.150.32.197:
2003/nms/login.jsp以及北方DDOS攻检测工具ArborNetworks'
Peakflowhttps:
//219.150.59.250/进行日常监控、当然还可以通过在设备上查看Access-List匹配方式来检测网络攻击。
在城域网汇聚层以下的网络中,由于IP三期数据网管不能检测到该层面的电路流量情况,因此,可以使用北方DDOS攻检测工具ArborNetworks'
//219.150.59.250/和Access-List的检测等方法,还可以采用一些二层网络的检测及使用协议分析技术进行攻击检测。
①利用北方IP三期数据网管进行日常监控
各盟市以及区维护中心网络监控以及维护人员可登录该系统,然后查看网络所监控范围内的电路波动图,如发现流量异常突然增加,则可初步考虑是否受到了DDOS攻击,然后查找被攻击主机以及攻击源,即时上报并实施封堵或者清洗工作。
下面是包头一用户遭受来至通辽方向省外DDOS攻击时,包头IP城域网上行呼和以及通辽出口2.5G电路流量检测情况。
分析流量图可以发现在区呼和出口方向流量正常的情况下,去通辽出口方向入流量突然增加,可以初步判断是包头IP城域网内IP地址遭到了来自通辽方向省外DDOS攻击。
InPCore包头R3-呼和浩特R12.5G[流量观察基准端:
A端]
启动即时流量监控
A端|NM-BT-AE-A-3.163:
Pos3/0/0(219.148.165.210)B端|NM-HH-HCZ-A-1.163:
so-7/0/0.0(219.148.165.209)
InPCore包头ML.A1-通辽A12.5G[流量观察基准端:
A端|NM-BT-ML-A-1.163:
Pos1/0/0(219.148.166.94)B端|NM-TL-HP-A-1.163:
POS9/0/0(219.148.166.93)
A端]启动即时流量监控
②利用北方DDOS攻检测工具ArborNetworks'
Peakflow进行检测
各盟市以及区维护中心网络监控以及维护人员可登录该系统,查看Alerts菜单下的Summary子菜单,在AllAlerts列表中可以监控到已经匹配了Networks设置的过滤特征值的DDOS攻击,其中包括攻击源在北方九省以及被攻击地址在北方九省的所有匹配特征DDOS攻击。
下面是10月8日内蒙电信一用户遭受IPNULL类型DDOS攻击时检测到的结果,我们可以很快速的发现被攻击的IP地址为222.74.34.106,以及攻击源、PPS检测情况、攻击流量BPS情况、攻击开始时间、结束时间、攻击类型等相关信息,这样我们就可以快速的部署针对性的流量封堵以及申请集团NOC进行流量清洗。
③通过Access-List匹配方式进行检测
由于ArborNetworks'
Peakflow是基于特征值来进行DDOS攻击检测的,所有可能有些攻击不能被检测出来,所以我们可以在拥塞发生的端口上绑定ACL,利用ACL匹配来进行检测。
④利用抓包工具进行协议分析来进行检测定位
由于攻击可能会发生在省网或者某个城域网内部,这时我们无法借助北方系统进行检测,这样通过PING、TRACERT等日常工具以及分析设备当时端口流量,将故障定位在小范围内,然后通过使用协议分析工具进行检测定位具体被攻击者或者攻击源。
如下图所示,可以看到,在局域网中存在一个IP地址向随机的目的IP地址发送ICMP的ECHO信息,因此可以判断该IP地址的主机正在攻击别的主机,需要检查该主机并阻断攻击源。
DDOS防范措施:
l目前集团公司已经组织各省建立了互联网网络安全事件防范与处理虚拟团队,旨在加强电信公司内部及与外部安全组织间的信息沟通,加强对异常流量的监测和分析,积极防范DDOS攻击。
并于9月30日前在京沪穗的出入口部署完成三套总共6G容量的异常流量清洗设备,为关键站点(党政军、重要新闻媒体网站和基础域名服务器)提供网络攻击流量清洗手段。
内蒙电信已在网络边缘部署策略进行虚假源地址流量和常见病毒流量的过滤,以充分遏止采用虚假源地址和蠕虫病毒的攻击行为,并完善了网络安全事件上报流程以及应急处置预案。
DDOS攻击应急处理流程:
l当中国电信网内北京区域的重要网站遭