网络设备巡检服务工作规范方案Word格式.doc
《网络设备巡检服务工作规范方案Word格式.doc》由会员分享,可在线阅读,更多相关《网络设备巡检服务工作规范方案Word格式.doc(35页珍藏版)》请在冰点文库上搜索。
![网络设备巡检服务工作规范方案Word格式.doc](https://file1.bingdoc.com/fileroot1/2023-4/28/eda6d7d0-ca26-4990-af22-e5d69b6ed70a/eda6d7d0-ca26-4990-af22-e5d69b6ed70a1.gif)
10.1.2检查方式 24
10.2网络配置信息检查 27
10.2.1检查内容 27
10.2.2检查方式 27
11LOG信息检查 30
11.1标准的LOG格式 30
11.2LOG日志等级 30
11.3日志信息分析表 30
关于文档
为保障XX信息中心网络的平稳运行,将在每月进行网络巡检,并根据巡检结果给出相应的网络系统改进和优化建议。
本文档面向XX的技术人员和外部支持公司网络工程师,通过参考本文档,共同完成对XX信息中心网络运行状况的检查与分析。
通过本文档使XX技术人员和外部支持公司网络工程师充公了解XX信息中心对网络巡检的基本要求,以该规范为参考,使得网络系统巡检工作更加标准化、规范化。
由于网络技术的不断发展和设备的更新换代,本规范需要逐步地更新、完善,增加网络设备硬件、软件、固件的新版本和新硬件的内容。
同时,随着网络健康服务的不断深入,对网络系统检查的深度和范围也将发生变化,本规范也会逐步地完善。
文档适用对象
本文档仅适用参与XX网络项目相关技术人员和外部支持公司的网络工程师。
1概述
为确保XX信息中心网络安全生产,提升网络服务质量,确保设备的正常运行,将每月对XX信息中心网络设备进行巡检,巡检范围根据巡检工作需要而确定,通过对网络设备的数据采集和分析,能够对XX信息中心网络设备的状态具有更加深入地了解。
网络巡检是指通过标准的方法和流程定期地对客户一定范围内的网络进行网元级的系统检查,内容包括现场数据采集、分析、客户报告生成等。
通过对关键网元设备的关键检查点参数进行数据采集、并将采集到的数据与有关标准进行比较,从而确定关键网元设备所处的运行状态。
通过定期网络巡检,可以及时发现网络中可能存在的隐患,并消灭在萌芽状态。
2巡检工作流程
网络巡检工作分为前期准备、现场数据采集、数据分析、报告生成和汇报、满意度调查和问题整改追踪等五个阶段。
服务流程如下:
2.1巡检前期准备
在网络巡检的前期准备阶段,工程师需要在与客户进行充分沟通的情况下,确定要巡检的设备范围及巡检重点,形成《网络巡检方案书》。
网络巡检书至少包括:
l巡检设备范围和巡检工作重点
l巡检各个工作环节的方式
l数据采集的命令集
l协商具体的巡检时间安排
l巡检报告输出样表和图形
在得到客户认可的情况下,进入下一阶段的工作。
2.2数据采集阶段
在网络巡检的数据采集阶段,对于网络数据采集的手段和工具需要得到用户的授权,遵守用户运行管理的相关规定,在指定时间和网络设备范围内进行数据采集工作。
在用户的协助下收集相关网元的技术数据,并记录输出结果。
2.3数据分析和报告生成阶段
巡检工程师对现场采集到的数据进行分析,形成《XX信息中心XX中心网络巡检报告》。
经过南天公司的网络专家审核通过后,由工程师负责以纸质文档或电子文档的方式提交给客户。
2.4汇报和满意度调查阶段
通过定期交流的方式,讨论巡检工作中发现的问题及隐患,给出网络运行状况的检查、评估及建议,并进行问题跟踪。
同时进行客户满意度调查,以便发现和纠正工作中的问题,改进网络系统巡检工作。
3网络巡检数据采集方法
网络巡检服务的数据采集方法有两种,一是手工命令采集,并配合网管平台进行辅助性数据采集的方法;
一是巡检工具数据采集的方法。
3.1手工数据采集方法
手工采集就是登录到网络设备上,通过手工输入命令并记录输出结果的方式进行数据采集。
为加强手工数据采集的准确性和合理性,需要对数据进行多次,重复性数据收集。
如考量CPU的利用率和MEM的利用率等信息,可以采用日起、日中、日结等三个阶段,分时段收集并进行汇总比。
对于网络设备运行状态、数据流量等信息的趋势性数据采集需要结合一定时间段数据的采集工作,需要利用网络管理系统进行相关数据的采集工作。
3.2网络管理平台数据收集方法
通过网络管理系统收集相关的数据,可以进行一个阶段的趋势分析,以便更加准确地了解网络系统的整体运行情况,并可以与手工数据采集的结果进行对比,确保数据采集和分析的合理性和可靠性。
3.3巡检工具数据采集方法
通过H3C提供的专用巡检工具进行数据采集。
该工具集合了常用的设备状态检查的命令,可以自动化收集输出结果,并在后期导出巡检报告。
但是需要H3C提供软件及其授权。
在没巡检工具软件的情况下,可以由第一巡检方法来替代。
4网络巡检服务基准数据库的建立
由于网络系统的巡检服务是一个长期的、持续性的工作,首先需要对网络系统具有一定的了解,建立一个基本信息库。
主要包括:
Ø
设备清单:
设备名称、IP地址、位置、功用、序列号等
设备模块硬件配置:
模块种类、型号等
设备软件版本
设备使用、维修记录
设备性能基准,包括CPU、Memory利用率、设备端口流量的初始数据等
设备端口信息:
相关计数器初始状态
通过第一次巡检完成基本信息库的建立,作为以后巡检工作的数据对比性分析的基础和依据,并保持数据更新,动态调整基本信息库的参考点。
5网络巡检工作内容
5.1巡检工作的主要内容
本项目中,网络巡检工作中涉及的相关内容如下:
1)设备基本信息收集
采集设备的基本信息,包括用户定义的设备名称、设备序列号、设备型号、运行的软件版本、内存大小、CF卡的大小等
2)设备运行状态检查
主要采集和分析网络设备的CPU、Memory利用率,并在可能是的情况下,观察其变化趋势。
3)设备管理运行环境检查
主要通过设备的相关命令收集网络设备的运行环境,主要包括机框内部各个检测点的温度及其变化,电源工作状态和工作输出电压等相关信息。
4)场地环境检查
检查设备的运行环境,如机房温度、湿度、设备供电、网络线缆走线等
5)网络设备硬件检查
检查设备状态、设备连线状态等
6)网络设备日志检查
使用display命令,收集设备运行日志,并做分析
7)核心设备的端口可用性、准确性检查
使用display命令查看设备各端口的工作情况,包括端口的输出、输入错误丢包信息等,buffer占用情况和缓冲器溢出现象等
8)核心设备端口负载及流量检查
通过网管及其他手段,对设备端口的带宽占用、负载和流量进行统计分析,便于掌握网络设备及其连接线路的情况。
9)网络系统总体性能评估
针对巡检的内容及分析结果,对网络运行的整体情况做评估。
5.2网络巡检工作技术涵盖
网络系统巡检工作主要涵盖以下技术内容:
项目
分类
参数
数据来源
设备基本信息
软件
ComwareVersion
命令采集
BootstrapVersion
启动与运行
Boot-loader
uptime
硬件
Device
Flash
NVRAM
TotalMemory
SDRAM
设备运行环境
环境
温度
电源
风扇
性能
CPU利用率
PeakUtil
AvgUtil
内在利用率
PeakUsedMemory
AvgUsedMemory
线路稳定性
网络端口
InDrops
OutDrops
网络事件
LOG
6网络系统巡检基本判断标准
我们将依照依据华三公司的技术指标和业界遵循的阈值、惯例和相关技术标准,将采集的数据结果与其对照分析,以判断当前网络运转情况是否良好,根据具体发现的问题提出合理改进意见。
1)设备运行记录
设备运行时间
少于7天的(即运行时间过短的设备)需要关注,有可能发生意外重启,同样对于设备启动时间过长的设备建议维护性重启。
2)设备报警温度
3)电源风扇状态
正常标准
Normal(指示灯为绿色)
非正常标准
Fail(指示灯为红色)
4)CPU内存状态
电源(重点关注后两列)
H3C建议值
巡检建议值
变化值
关注
65%<
X<
74%
>
35%
差值大于10%
告警
75%
50%
差值大于20%
风扇(重点关注后两列)
75%<
90%
40%
差值大于5%
5)接口丢包错包率(增量)
Inputdrop
Outputdrop
Inputerror
Outputerror
0.5%
1%
5%
6)接口负载率
7)防火墙状态
检查项目
正常值
运行时间
7Days
CPU使用率
<
内存使用率
Failover状态
Active、Standby
会话连接
+30%
地址转换
7设备相关信息收集
7.1软件版本及硬件信息分析
使用命令displayversion,查看路由器信息,在巡检过程中用此命令收集来的数据主要作用是:
查看当前设备型号,及当前启动软件版本
查看当前设备已运行时间
查看当前设备引擎内存大小
查看当前设备Flash大小
具体关注方法如下:
7.1.1当前设备硬件信息
设备硬件信息主要包括如下参数:
H3CS7500with1MPC8245Processor
256MbytesSDRAM
32768KbytesFlashMemory
512KbytesNVRAMMemory(如图第7-10行)
当前设备引擎号、内在与Flash大小
H3CS7500LPUwith1MPC8241Processor
128MbytesSDRAM
0KbytesFlashMemory
0KbytesNVRAMMemory(如图第18-21行)
如果设备有冗余引擎,此处显示
7.1.2当前设备运行软件信息
设备软件信息主要包括如下参数:
BootROMVersion(如图第23行)
自启动文件的版本,可用于路由器启动前配置,修改超级管理密码。
中低端设备亦称之为Bootstrap。
Comwaresoftware Version(如图第3行)
系统文件的版本,不同的版本支持的功能不尽相同。
一般情况下向下兼容。
前期设备称之为VRPsoftware
Uptime(如图第6行)
Uptime列出了该设备已运转的时间,这些信息可以帮助客户判断机器是否发生过意外的重启等
7.2设备板卡硬件配置信息分析
设备板卡硬件数据采集分析的主要任务是通过检查网络设备的板卡和模块配置,对网络设备的负载、容量和扩展能力进行分析。
查看基本信息检查的命令主要有:
displaydevicedisplaydiagnostic等命令
设备硬件统计信息主要包括以下参数:
Slot
所在位置的槽号
Status
显示板卡状态
SftVer
显示板卡上软件的版本
设备硬件分析的参考标准
Status:
当设备启动正常后,所有板卡状态就为Normal,如果有双引擎进行冗余状态配置时状态为一个Master,另一个是Normal。
当板卡有故障时此板卡状态有可能显示FAULT 或显示不出装载的板卡。
7.3设备运行状况检查
运行状况检查包括:
lCPU的工作状态
l内存的工作状态
lBuffer的情况
7.3.1设备CPU工作状态检查
使用命令displaycpu可以检查cpu的利用率,可以得到5秒、1分钟和5分钟的统计结果。
内容
内容说明
CPUbusystatus
交换机CPU的占用率状态
18%inlast5seconds
19%inlast1minute
19%inlast5minutes
最近5秒CPU占用率为18%
最近一分钟CPU占用率为19%
最近五分钟CPU占用率为19%
处理器利用率分析的参考建议:
这个数值在80%-90%之间时需要引起注意,大于90%时则影响网络稳定性和设备的正常处理。
此数值可通过命令行窗口或网管软件采集连续值得出。
当CPU使用率偏高时排查各个进程CPU使用情况。
7.3.2设备CPU利用率分析
通过displaycpu命令采集相关设备一天当中三次数据,并对数据进行整理分析得到:
序号
设备名称
一天三个时间段CPU利用率
变化范围
日起
日中
日结
平均
1
0.00%
2
3.00%
4.00%
3.67%
1.00%
3
【注】:
日起数据为08:
30-09:
00的5分钟CPU的平均利用率
日起数据为11:
00-12:
日起数据为16:
30-17:
30的5分钟CPU的平均利用率
7.3.3设备MEMORY使用状态检查
在任意视图下使用displaymemory或displaymemory-usage命令可采集相关设备MEM利用率的数据。
H3C>
displaymemoryslot0
SystemTotalMemory(bytes):
197932416
TotalUsedMemory(bytes):
65234704
UsedRate:
32%
[H3C]displaymemory-usage
Memoryutilizationstatisticsat2011-08-1215:
52:
09200ms
SystemTotalMemoryIs:
171774608bytes
TotalMemoryUsedIs:
128234928bytes
MemoryUsingPercentageIs:
74%
SystemTotalMemory(bytes)
系统的内存总大小,以字节为单位
TotalUsedMemory(bytes)
已经使用的内存大小,以字节为单位
UsedRate
已经使用的内存所占的比例
另外,可以用displaymemorylimit显示内存配置消息
displaymemorylimit
Currentmemorylimitconfigurationinformation:
systemmemorysafety:
40(MBytes)
systemmemorylimit:
30(MBytes)
auto-establishenabled
FreeMemory:
108120672(Bytes)
Thestateinformationaboutconnection:
Thetimesofdisconnect:
0
Thetimesofreconnect:
Thecurrentstate:
Normal
7.3.4设备MEMORY利用率分析表
使用displaymemory命令采集相关设备一天三次MEM利用率的数据,并进行数据比较,从表中看到内存占用是否稳定,并关注其变化范围。
内存(KB)
7.4设备运行状态检查
7.4.1电源的工作状态
使用displaypower命令查看电源状态是否正常,电源是否冗余。
displaypower
Power1State:
Absent
Power2State:
Power3State:
7.4.2风扇的工作状态
使用displayfan命令查看风扇状态是否正常。
displayfan
Fan1State:
7.4.3设备工作温度
使用displayenvironment命令,查看设备内部板卡、机框的工作温度是否正常。
displayenvironment
Systemtemperatureinformation(degreecentigrade):
----------------------------------------------------
BoardTemperatureLowerlimitUpperlimit
1301070
3431080
5331070
8端口的可用性、准确性检查
8.1端口状态检查
使用displayinterface查看设备端口运行状况。
在巡检过程中用此命令收集来的数据的主要作用是:
displayinterfaceEthernet2/0/1
Ethernet2/0/1currentstate:
DOWN
IPSendingFrames'
FormatisPKTFMT_ETHNT_2,
Hardwareaddressis000f-e20f-3f11
TheMaximumTransmitUnitis1500
Mediatypeistwistedpair,loopbacknotset
Porthardwaretypeis100_BASE_TX
Unknown-speedmode,unknown-duplexmode
Linkspeedtypeisautonegotiation,
linkduplextypeisautonegotiation
Flow-controlisnotenabled
TheMaximumFrameLengthis1536
Broadcast-suppressionratio:
20%
Allowjumboframetopass
PVID:
1
Mditype:
auto
Portlink-type:
access
TaggedVLANID:
none
UntaggedVLANID:
Last300secondsinput:
0packets/sec0bytes/sec
Last300secondsoutput:
Input(total):
0packets,0bytes
-broadcasts,-multicasts
Input(normal):
0broadcasts,0multicasts
Input:
0inputerrors,0runts,0giants,0throttles,0CRC
0frame,-overruns,-aborts,-ignored,-parityerrors
Output(total):
-broadcasts,-multicasts,-pauses
Output(normal):
0broadcasts,0multicasts,0pauses
Output:
0outputerrors,-underruns,-bufferfailures
-aborts,0deferred,0collisions,0latecollisions
-lostcarrier,-nocarrier
参数指标如下:
字段
描述
Ethernet2/0/1currentstate
以太网端口当前开启或关闭状态
Format
以太网帧格式
Hardwareaddress
端口硬件地址
TheMaximumTransmitUnit
最大传输单元
Mediatype
介质类型
Porthardwaretype
端口硬件类型
端口流控状态
TheMaximumFrameLength
端口允许通过的最大以太网帧长度
Broadcast-suppressionratio
端口广播风暴抑制比
端口允许长帧通过
PVID
端口缺省VLANID
Mditype
网线类型
Portlink-type
端口链路类型
TaggedVLANID
标识在该端口有哪些VLAN的报文需要打Tag标记
UntaggedVLANID
标识在该端口有哪些VLAN的报文不需要打