信息系统运维监控管理规范Word格式文档下载.docx
《信息系统运维监控管理规范Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《信息系统运维监控管理规范Word格式文档下载.docx(19页珍藏版)》请在冰点文库上搜索。
b)接收各方意见和建议,改进和提高监控管理流程的有效性和效率;
c)制定和解释流程的相关内容;
d)检查监控管理策略规划执行情况。
a)熟悉信息技术总体规划要求;
b)有很强的计划、组织、领导和控制才能,能够综合各方意见,定期优化流程;
c)具有很好的沟通技能、良好的团队合作精神和跨部门协调能力;
d)熟悉信息技术基础设施架构;
e)掌握监控管理相关技术。
技术支持员
a)根据监控管理计划确定监控管理的范围和指标;
b)在监控管理服务中负责技术支持;
c)对监控管理服务过程中的请求、事件和问题做出响应,并对处理结果负责。
d)监控管理流程培训相关工作;
e)针对监控管理计划执行过程中出现的问题,进行持续改进。
a)具备较好的理解能力和沟通能力;
b)具备信息技术基础设施中软、硬件及相关设施的管理能力;
c)掌握监控管理相关技术或工具。
监控操作员
a)在监控管理服务中负责日常操作的实施;
b)根据规范和手册,执行监控管理服务各过程,并对其执行结果负责。
a)充分了解应用系统的IT环境和架构;
b)熟悉和了解监控管理的原理;
c)熟悉监控管理相关技术或工具。
6流程原则
6.1基本原则
a)基于业务需求和服务级别管理目标,制定监控管理需求和监控管理计划。
b)当发生重大变更或业务环境发生重大变化时,需评估变更对监控需求和监控管理计划的影响。
c)监控管理计划(至少每半年)进行回顾,以确保监控管理计划适宜,充分及有效。
d)监控管理流程应定期(至少每半年)进行回顾,回顾内容包括关键绩效指标,流程执行效率,流程支持工具的有效性,以改进监控管理流程。
e)应采用人工或自动工具等方法监控信息系统运行环境,按照监控管理计划,在约定的时间内进行健康巡检,形成周期性巡检记录。
6.2通知原则
当告警发生时,根据其严重性和影响范围,可采用电话、短信或邮件等方式通知相关负责人。
6.3监控指标原则
a)根据监控管理计划要求,制定监控指标体系。
b)根据监控范围不同,制定适宜的监控指标。
c)根据业务峰值变化,人工或者自动方式动态调整监控阈值。
d)根据业务需求情况,可对同一指标设定不同的监控阈值。
e)当业务环境发生重大变化或重大变更时,应重新评估监控管理指标体系,确保其持续有效。
6.4监控处理原则
a)对于监控过程中的告警,需进行集中处理,对重复的告警信息,需要进行归并处理,对彼此存在关联的告警消息需明确根源告警。
b)故障告警出现后,如果有恢复告警,需将其关闭,事件状态由异常转为正常。
a)在特定时间段(例如维护期或计划停机时间)对特定告警进行丢弃或自动关闭的处理。
c)当故障告警被解决之后,应及时将该告警信息进行关闭。
6.5监控分级原则
按照监控管理告警的严重性,可以分为严重、重大、警告和正常四个级别。
a)严重:
影响生产系统整体功能的运行,必须及时处理。
如主机宕机、核心服务异常等。
b)重大:
影响生产系统部分功能的运行或对整体功能存在重大潜在影响,必须及时处理。
如集群中某个节点出现问题、主要服务异常等。
c)警告:
暂不会影响生产系统运行,需关注处理。
如磁盘空间超阈值、CPU使用率超阈值等。
d)正常:
监控对象由异常状态恢复正常时所产生的告警或系统生成的正常通知类消息。
6.6监控集成原则
监控管理可以和短信平台、邮件平台、展现平台、流程管理平台等接口进行集成,集成方式参考如下:
a)短信平台:
根据监控管理告警的通知原则,可以通过短信平台通知相关责任人。
b)邮件平台:
根据监控管理告警的通知原则,可以通过邮件平台通知相关责任人。
c)展现平台:
监控管理数据作为展现的数据来源,以物理或逻辑等方式展现监控信息。
d)流程管理平台:
可将监控管理告警中优先级较高的事件发送到流程管理平台。
7流程及说明
7.1流程图
监控管理流程图,见图1。
图1监控管理流程图
7.2流程图说明
7.2.1识别监控管理需求
识别监控管理需求,包括监控管理输入来源和明确监控管理需求两部分。
a)监控管理需求分析的重要输入包括两方面:
一方面是对服务级别管理流程中服务级别协议相关条款的分析结果;
另一方面是对业务应用的业务影响分析和风险评估的分析结果。
根据以上两方面的结果,与客户进行商谈,确定客户对监控的需求。
b)必须明确业务系统用户的需求,监控管理计划才能最大化地支持业务的发展运作和用户的工作。
7.2.2制定监控管理计划
基于监控管理需求,制定监控管理计划。
a)从技术、资源投入、业务影响等角度评估各监控管理计划的合理性和可行性。
必要时,综合各领域监控管理计划,形成部门或项目层面的监控管理计划。
b)监控管理计划应包含但不限于以下内容:
1)当前及预测的监控管理需求;
2)协商确定的监控管理对可用性、服务连续性和服务级别的预期影响;
3)监控管理指标和阀值;
4)新技术和新工艺的潜在影响;
7.2.3执行监控管理计划
根据监控管理计划要求,确定监控范围、监控方法和相关指标。
a)监控范围主要指确定监控的对象,参照第二章范围章节。
b)监控方法主要指采用的监控方式和频率,监控方式可以采用自动化或人工方式监控;
监控频率可以采用每分钟/每小时/每天/每周/每月等方式。
c)系统或服务的可用性指标,是信息设备能否正常工作的一个定量计量。
针对不同的系统或服务,其相应的观察指标是不同的。
主要监控指标可参考附录A《表A.1监控指标》。
7.2.4监控和报告
基于监控管理范围与指标,进行自动化监控或人工巡检。
对监控中提交的事件、服务请求、问题或变更申请单,按照事件、服务请求、问题或变更管理流程执行。
定期报告所负责领域的监控情况,监控报告可以包括如下内容:
a)服务可用性目标达成情况。
b)监控类型统计。
c)性能趋势分析。
7.2.5回顾和改进
监控规划应定期(至少每半年)进行回顾,对监控记录进行分析和总结。
g)监控人员根据监控记录和目标,分析差距和监控发展趋势,综合各类报告和回顾结果,上报给监控管理负责人,作为监控管理改进的依据。
对需要改进之处,进行持续改进。
h)当业务环境发生重大变化时,应重新评估监控管理计划,以确保其持续有效。
7.3和其它流程接口
监控管理流程主要与事件和服务请求、问题、变更、配置、服务级别等管理流程存在接口关联关系。
a)与服务级别管理的关联:
与客户确定服务级别协议(如服务内容、服务级别目标)时,将服务可用性指标分解到监控管理中,确保与用户签订的服务级别协议中服务可用性等指标合理可行。
监控管理报告作为服务级别管理的输入,以达到服务可用性目标。
b)与变更管理的关联:
监控管理过程中的变更需提交变更申请,依照变更管理流程执行。
同时,变更管理(特别是重大变更或业务环境发生变更时)需评估变更对监控规划的影响。
c)与事件和服务请求管理/问题管理的关联:
监控过程中产生的告警可根据设定的规则自动或手动地生成事件申请单,对于监控过程中产生的问题需手动提交或自动生成问题申请单,依照事件和服务请求管理、问题管理流程执行。
与之相关的事件和服务请求管理、问题管理报告需输入监控管理中,用于识别监控需求。
d)与配置管理的关联:
为监控管理提供准确的配置项信息。
8指标及报告
8.1指标
监控管理流程设定了如下的指标:
a)健康巡检周期;
b)关键监控周期;
c)监测到的告警数量;
d)由未监测到的异常引发的事件数量;
e)未监测到异常所占比例。
监控管理流程指标的描述、用途、计算方法等信息参考附录A,表A.1~表A.6。
8.2报告
8.2.1报告的用途
监控管理报告用来反映一段时间内信息系统的健康状况和性能趋势,提供系统容量规划方面的参考依据。
8.2.2报告的周期
报告的周期可以采用日报、周报、月报、季报、半年报、年报等方式。
8.2.3报告的内容
监控管理报告至少应包括以下几方面内容:
a)服务级别目标达成情况;
b)信息系统总体健康情况、及其信息技术基础设施各组成部分健康情况;
c)产生的告警总数、以及各级别告警数量、告警的解决率;
d)信息技术基础设施中硬件设备的性能占用情况。
附录A
(资料性附录)
监控管理指标
表A.1监控指标
监控对象
指标
网络
包括但不限于对以下网络组成部分进行周期性监控:
——检查设备状态灯是否正常;
——电源故障;
——散热风扇工作噪音检查;
——所有接口是否正常工作;
——对端口网线进行检查整理;
——网络设备的CPU负载和内存利用率;
——Ping响应时间;
——设备日志分析;
——更改重要设备的密码;
——防火墙日志检查;
——检查链路可用性;
——审查是否存在登录异常信息、配置更改、功能停止、会话连接异常等;
——带宽管理;
——适应性操作冗余;
——状态故障恢复;
——优先级排列与控制;
——访问控制等。
服务器
包括但不限于对服务器硬件及操作系统进行以下周期性监控:
——CPU利用率、内存利用率、磁盘I/O读写率、文件系统使用情况;
——服务器负载均衡;
——双机主备切换的情况;
——对系统进行全面防病毒扫描检查;
——磁盘空间检查和数据文档整理;
——批处理作业检查;
——检查服务器线缆是否连接正常(电源线,网线等是否有松动);
——网卡状态;
——检查操作系统是否正常启动;
——检查操作系统是否能够正常登录;
——检查是否安装最新的操作系统补丁;
——检查告警消息;
——检查重要配置文件是否被修改;
——检查操作系统所有硬件驱动正常;
——检查操作系统重要进程是否存活,是否有可疑进程与服务;
——检查操作系统重要服务是否开启;
——操作系统日志分析等(根据信息系统范围内对事件的界定进行日志分析);
——检查是否有最新备份;
——检查备份计划是否正常执行;
——检查备份是否无损坏;
——观察备份策略是否需要调整;
——用户操作情况;
——监控用户帐号和用户权限;
——关键权限变化;
——闲置敏感用户帐号的处理:
停用/删除;
——远程登录帐号等。
存储
存储设备监控根据业务需要进行定期或不定期巡检,包括但不限于:
——检查设备连线是否正常;
——设备是否能够正常启动、关闭;
——登陆管理界面检查是否有告警;
——是否在规定的阈值范围内运行;
——检查磁盘状态和使用情况;
——存储控制器平均响应时间;
——检查交换机端口状态和使用情况等。
数据库
对数据库进行日常监控工作,确保数据库稳定运行,包括但不限于对数据库进行以下周期性监控:
——数据库状态;
——空间管理;
——数据库性能;
——对数据库事务的相关信息和状态的监控;
——检查数据库资源占用情况是否异常;
——检查数据库是否有非授权用户登录。
——分析数据库日志等;
——对数据库进行直接数据访问情况;
——闲置的敏感用户帐号处理:
停用或撤销;
——高可用性的情况等。
中间件
对中间件的日常监控工作,提高对中间件平台事件的分析解决能力,确保中间件平台持续稳定运行。
包括但不限于对中间件产品进行以下周期性监控:
——检查中间件服务运行状态;
——检查中间件请求情况;
——检查中间件资源使用情况;
——检查Weblogic、Websphere、Tomcat等垃圾回收及内存释放情况;
——检查Weblogic、Websphere、Tomcat等JDBC连接池情况;
——检查MQ消息传输率和队列情况;
——检查MQ通道的状态和使用情况;
——检查分析日志文件等。
业务应用
信息系统业务应用根据业务需要进行定期或不定期巡检,包括但不限于:
——应用系统运行状态;
——各个功能模块可用性;
——应用程序响应时间;
——应用资源使用情况;
——HTTP、HTTPS、NTP、FTP、DNS、POP、SMTP等服务状态和服务响应时间;
——业务数据、会话分析;
——应用程序日志检查;
——检查业务数据备份情况;
表A.2健康巡检周期
健康巡检周期
描述
对信息系统所涉及范围内的设备、信息系统是否处于正常工作状态、基本性能指标是否处于正常范围等进行逐项检查的约定时间
用途
说明运行管理对设备、信息系统的运行状况检查的频繁程度,合理的周期设置能够有效做到主动预防
相关角色
目标值
信息系统运维组织自行确定
表A.3关键监控周期
关键监控周期
对信息系统所涉及范围内的关键设备、信息系统的关键功能是否处于正常工作状态、关键性能指标是否在正常范围内等进行逐项检查的约定时间。
用途同上,但根据运行管理的设备、信息系统的重要性,对其关键部分的运行状况加强检查
表A.4监测到的告警数量
监测到的告警数量
一段时期内,由监控管理监测到的信息系统所涉及范围内的设备、信息系统的告警数量
控制范围内告警,说明运行管理过程中监控管理的有效性
监控管理操作员
危险值
表A.5由未监测到的异常引发的事件数量
由未监测到的异常引发的事件数量
一段时期内,由于未及时监测到的异常而引起事件,导致启动事件管理流程
说明监测疏漏的影响,考核监控管理的相关操作的执行是否到位或监控周期是否需要调整
监控管理操作员
表A.6未监测到异常所占比例
未监测到异常所占比例
一段时期内,未监测到的异常在告警总数量中所占比例
主要考察监控管理的相关操作是否执行到位
附录B
监控管理表单
监控管理表单见表B.1~B.3。
表B.1信息系统日志检查记录表
系统名称
IP地址
日志路径
检查内容
例如:
错误信息、登录异常信息等
检查日期
异常情况
(可加附件)
处理措施
检查人
□转事件处理□转问题处理□转变更管理□继续观察□忽略
注:
异常情况应填写所有的异常信息。
表B.2设备巡检记录表
检查时间:
年月日点分检查人:
检查结果
正常
非正常
备注
检查项目
服务器运转状况
□
服务器电源指示
机房室内温度
硬盘指示灯
服务器位置是否正常
机柜内散热风扇工作
网线连接是否正常
服务器及外设是否完整
表B.3服务器例行检查记录表
服务器性能检查
序号
日期
服务器名称
CPU利用率(%)
内存使用率(%)
占CPU
最高的进程
磁盘空间利用率
网络使用率(%)
服务器安全及配置
系统日志
是否正常
系统帐号是否正常
防病毒软件
服务器补丁
是否升级
服务进程
是否存在
异常端口
备注