中国移动网络设备健康检查指导手册文档格式.doc
《中国移动网络设备健康检查指导手册文档格式.doc》由会员分享,可在线阅读,更多相关《中国移动网络设备健康检查指导手册文档格式.doc(11页珍藏版)》请在冰点文库上搜索。
日志信息:
正常情况下,日志中不应该有大量重复的信息。
1、showlogging
2下载当月日志
下载当月日志分析。
重点检查是否有以下异常信息:
assert;
大量vcup/down;
CPU100%
设备当前端口使用情况核实统计:
核实每台设备端口使用情况是否符合设计,如果出现与设计不符合的端口使用情况,进行相应的纠正。
IOS设备:
Showipinterfacebrief
CatOS设备:
showport
对于不使用的端口,建议通过命令关闭端口。
日志中心是否关闭:
Showlogging
正常情况下应该打开
调试信息开关:
正常工作情况下,所有Debug开关关闭。
showdebugging
正常运行时应该全部关闭
系统时间:
时区设置应与当地一致,时钟正常
showclock
showntpstatus
设备命名:
设备命名应符合《中国移动数据网资源命名规范(050309)》
Showrun
查看sysname配置是否符合《中国移动数据网资源命名规范(050309)》
配置文件是否保存:
(简单办法直接保存
或者输入reload,没有保存会提醒,保存也会需要你确认是否reload)
Showrunning-config
Showstartup-config
用文件比较工具比较
二.接口配置
接口配置:
未用端口置为shutdown状态。
showipinterfacebrief
showport
系统中没有使用的接口状态为shutdown状态,避免出现链路振荡
接口描述:
接口描述配置应符合《中国移动数据网资源命名规范(050309)》
showrunning-configinterface<
XXX>
或者
showinterfacesdescription
所有使用的端口都必须按照命名规范配置描述并保证与对端事实符合
POS/ATM口配置:
(建议作为发现端口丢包等异常后troubleshooting的处理)
如果是两台路由器背对背直连,要求对接双方的时钟都配置主时钟,或者一端配置主时钟,另一端配置从时钟;
如果是两台路由器中间经过波分传输系统,要求对接双方的时钟都配置主时钟;
只有在中间传输为有源SDH或SONET时,对接双方路由设备的接口时钟才配置为从时钟(跟踪SDH或SONET有源传输系统的时钟)。
Showruninterface<
xxx>
FE/GE口配置:
端口模式(包括速率、双工模式)配置对接双方必须一致;
端口实际工作模式必须与对端一致。
Showrunning-configinterface<
端口号>
Showinterface<
三.设备运行情况
端口统计数据:
查看各个使用的端口收发统计数据是否正常,异常报文是否有增长。
CatOS设备:
showport/showmac
IOS设备:
showinterface/showbuffer
检查当前路由器接口参数情况,是否端口出现过端口重启(Totalresets参数值不为零)和缓存不足(Nobuffers参数不为零)的现象。
以及部分端口有inputerror和outputerror的记录。
分别是由什么计数器引起的,如CRC等。
接口的业务流量:
查看接口的流量是否超过带宽的80%
showinterface/showbuffer
对于流量异常的调查。
对于广域网链路,建议广域网流量不要超过带宽的80%,考虑到链路冗余和负载分担的情况,在重要链路如数据中心互联链路,带宽的利用率不应该超过40%,如果超过带宽阀值,应该通知应用部门和网络部门,尽快升级带宽。
对于以太网,带宽利用率推荐不要超过40%。
上行流量超大需要考虑扩容
单板状态查看:
板卡状态检查,通过命令检查每个板卡的运行情况,现场核实各个板卡运行指示,确认每个板卡都被系统识别,正常工作。
showmodule
showmodule
检查输出是否有报错,和实际机器对照,是否每个板卡全部被系统识别,正常工作。
引擎和板卡的状态直接影响网络连接的有效性和连通性。
接口板是否重启过:
检查各单板是否重启
<
master>
为当前主用主控板的槽位号。
除了以下几种情况正常,其它情况属于异常。
Reasonis:
1power-on
2cold-restart
3resetbycommand
电源状态查看:
检查电源是否都已开启,是否工作在正常状态;
Showenvironment/showpower
PWRNormal
通过命令进行检查总数目,并且与现场检查的实际电源总数核实,每个电源输入输出电压和功率(如果需要,现场检查输入电压),现场核实电源指示灯。
风扇状态查看:
现场核实风扇指示灯,通过命令检查风扇运行情况
FANNormal
设备风扇的不稳定性将影响温度和流入设备机体的空气,使设备无法很好的进行散热处理,长时间工作在这种环境下的设备会产生运行状况的不稳定。
查看各单板的温度信息:
通过命令进行检查设备的环境参数(如果是可能,检查每个槽位的板卡供电电压情况和每个板卡的温度检查)
Showenvironment
shenvironmenttemperatureall
设备的温度很多程度上影响了设备运行的稳定性。
当设备运行时的温度过高时,将出现因热量不能及时的散发所导致的运行状况的不稳定
CPU占有率:
CPU占有率应正常,与当前开展的业务类型和转发流量相符。
showprocessescpu查看板卡CPU:
execute-onall-mwams/all-samisshowprocesscpu
6500/7600查看2层sp引擎cpu
showprocesscpu
超过70%应该属于异常情况
业务板CPU占有率:
execute-onall-mwams/all-samisprocesscpu
超过50%应该属于异常情况
内存占有率:
内存占有率不应过高。
Showmemorysummary查看板卡内存使用:
execute-onall-mwams/all-samisshowmemorysummary
showmemorysummary
超过80%应该属于异常
路由稳定性:
BGP、OSPF、ISIS等路由协议的邻居状态正常;
Ospf:
showipospfneighbor
Isis:
showclnsneighbour/showisisneighbour
Bgp:
showipbgpneighbor
showipbgpsummary
mpls:
shmplsldpneighbor
系统当前正在发生的告警信息:
有告警及时处理。
从近来的Syslog中优先级和重要性较高的0-4级LOG信息进行整理、分类后进行了分析,发现设备硬件和软件的故障隐患。
检查系统重启信息:
确认系统最近1次启动属于正常启动,保证无未知的Crash情况出现
检查输出中设备的Restartedby和系统的uptime
四.局域网运行情况
VTP:
思科设备是否配置VTP,是否出在transparent模式。
有没有VTP口令。
CatOS交换机:
showvtpdomain/showvtpstatistics
IOS交换机:
showvtpstatus/showvtppassword
VTP域设置口令主要用来防止新加入网络的交换机,错误地改变原系统VLAN设置。
但如果运行在VTPtransparent模式下,VTP信息不会在交换机之间相互构成影响。
建议对于运营商,VTP配置在transparent模式下。
TRUNK:
设备之间的Trunk最好用静态建立并且采用802.1q协议封装,配置Vlan过滤控制。
showtrunkdetail
showinterfacetrunk
重要Trunk设置为ON或nonegotiate模式比较好.Trunk协议,在设备支持IEEE802.1q的前提下最好采用IEEE802.1q,IEEE802.1q是国际标准,可以增强网络的兼容性。
VLAN设置:
VLAN配置是否正确并符合业务需要。
局域网连接两端VLAN是否匹配。
Showvlan
缺省vlan(Vlan1)的使用一般只限于两种情况:
要么保留不用,要么只用于管理;
最好不要用于实际业务。
生成树spnning-tree协议:
检查交换机的STP根桥设置是否与设计相符,通过设备log查看是否存在根交换机的漂移情况。
是否有部分交换机的spanning-treepriority设置为相同的,这不是推荐的做法;
而且priority级别较多,不利于维护,
交换机连接服务器的端口要配置spanning-treePortfast功能,同时全局是否启用Spanning-treeportfastbpduguard功能,其它交换机的相关功能正常。
IOS交换机检查命令:
showspanning-treesummary/showspanning-treedetail
CatOS交换机检查命令:
showspantreesummary/showspantree<
vlan>
/showspantreeblockedports/showspantreestatistics<
mod/port>
<
vlan-id>
Spanning-treepriority是人为指定各个VLAN的根交换机和备份根交换机的推荐做法;
priority相同的交换机,priority的指定作用就失效了,需要进一步比对交换机MAC地址决定根交换机和备份根交换。
portfastpduguard的功能是用于检测端口一旦收到BPDU帧,则马上将端口关掉。
以此来判断这个端口连接的是一台主机而不是交换机。
只有端口所连接的是主机的时候才可以起用portfast功能。
因为接口连接主机不会引起环路。
开启本功能,可以切实保证本应该连接主机的不做STP计算的端口没有连接需要做STP计算的设备,以最大程度防止二层环路的产生。
端口设置了portfast功能的交换机一般要设置bpduguard功能。
五.网络设备基本安全检查
Console/AUX登录控制:
确认所有设备均已配置Console/AUX登录控制。
showrunning-config|beginlinecon
showrunning-config
1、linecon0/lineaux0随后的配置里面没有“exec-timeout00”。
2、linecon0配置了“login”或者”locallocal”或者全局配置了AAA认证。
不要使用ACS远程认证。
远程访问登录控制核查统计:
核实所有设备配置了的远程登录控制手段,确保设备的访问控制得到保护。
确保对于远程登录都采用了ACL限制允许登录的源网段。
Showrun|beginlinevty
建议采用AAA认证,尽量采用ACS中央认证控制对设备的远程登录手段进行中央统一认证/授权/记帐。
建议全部远程登录都配置ACL作为安全防护手段。
对于一般网络设备,尽量由SSH取代Telnet成为远程登录管理的手段,关闭http/https登录。
对于使用web管理的网络设备,尽量使用https代替http。
本地账户管理(启用AAA情况下核实):
启用AAA的所有设备均应该配置了一个本地账户作为ACS认证的本地备份。
设备只配置一个本地账户,可以减少设备账户的管理负担,降低本地账户管理风险。
口令强度检查:
配置口令加密,设备上配置的口令均以密文显示,这将使账户的安全使用得到增强。
shrunning-config|inclservicepassword-encryption
shrunning-config
对于能够使用md5等不可逆方式加密的密码,建议采用md5加密。
使用enablesecret代替enablepassword
(除了snmp口令外,其他口令应该显示5或者7+密文)
SnmpcommunityRO&
RW:
检查运行snmp协议的设备和系统,包括操作系统、路由器、switch、ISDN/DSLModem等,其缺省设置存在重大的安全隐患。
要求所有设备都不是缺省配置的community字符串。
网络管理口令的私密性得到保证,减小了未授权管理的风险。
确认所有的SNMP口令都配置了ACL安全保护。
showsnmp
所有的snmp管理都需要配置ACL安全防护,只有相应ip的设备才能使用这些SNMP口令管理设备。
对于不需要SNMPRW权限的设备,建议关闭SNMPRW功能。
SNMPtrap:
检查运行snmp协议的设备是否配置了trap
showrunning-configshowsnmp
路由协议认证:
检查运行的路由协议是否配置了MD5认证
通过实施协议更新MD5认证,保证接入设备的合法性
六.网络备份机制检查
电源:
检查所配置电源是否双电源,双电源供电是否来自不同的电源UPS。
shenvironment
传输线路:
检查所有重要传输线路是否有冗余备份,是否为双路由引入。
showcdpneighbors
设备冗余配置:
设备引擎是否配置了HA功能
HA是否工作正常
思科IOS设备命令:
showredundancy
思科CatOS交换机命令:
showhighavilability
所有配置了双引擎的设备,配置了恰当的引擎切换模式。
冗余工作状态正常。
比如:
Catalyst6500系列交换机Hybrid模式,是否实施了二层的HA和三层的Single-Router-Mode模式。
软件备份:
是否存在设备软件备份的机制,或建立软件库储存所有生产网所使用的软件。
dirall-filesystems
配置备份:
是否存在设备配置管理和定期备份的机制
对比上次配置备份,核实当前配置的变更是否符合实际情况。
检查网管工作站对于设备配置的定义情况。
2023-4-30
第11页,共11页