运维流程.docx
《运维流程.docx》由会员分享,可在线阅读,更多相关《运维流程.docx(33页珍藏版)》请在冰点文库上搜索。
运维流程
运维管理的流程要求
数据中心建立的管理流程除应满足数据中心自身特点外,还应能兼顾客户、管理者、服务商与审计机构的需求。
由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。
为能让读者对数据中心运维管理流程可能涵盖的范围有一个较为全面、规范的了解,本节以基于ISO20000、ISO27001、ISO9001和ITIL等标准要求而建立的商业数据中心为例,介绍数据中心在运维管理流程建设方面的要求。
1.运维管理流程的范围
数据中心管理框架应包含以下七个管理领域:
(1)体系管理平台:
以ISO9001质量管理体系框架搭建的管理平台作为管理接口。
管理层通过这些流程制定管理方针目标,测量目标的执行,监督流程管理效果,执行PDCA(即Plan、Do、Check和Action)循环,以改进数据中心绩效,管理数据中心各类资料文件。
(2)资源管理域:
包含数据中心内部人员、网络、设备、基础设施、环境等资源的管理流程,是数据中心统一管理的内部资源。
(3)服务管理域:
包括与客户交互的相关流程文件,是数据中心与客户的管理接口。
(4)服务支持管理域:
包括数据中心内部运作过程中的事件、问题、变更、发布处理流程等。
(5)服务交付管理域:
数据中心财务管理、服务的策划和变更、可用性管理、容量管理、业务连续性管理等方面的管理内容。
(6)资源信息管理域:
包括数据中心的信息资产管理、配置管理、输入/输出管理、风险评估等工作的管理。
(7)厂商管理域:
包括服务商管理的相关流程,是服务商与数据中心管理的接口。
以上7个管理域所构成的管理体系框架内的流程,按照ISO9001标准的要求被划分为4阶文件。
第一阶文件是“手册”,包含体系管理平台部分的全部文件。
用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审等工作。
第二阶文件是“指南”,该阶文件根据数据中心各部门的职责规定了某一具体业务的流程,并涵盖了除“体系管理平台”外其余6个管理域的文件。
公司管理层可以通过这一阶文件规定各部门的工作范围及业务在各部门间的流转过程。
第三阶文件是“工作指引”,是数据中心各部门根据第二阶文件要求编写的具体部门的具体业务操作手册。
同样涵盖了除“体系管理平台”外其余6个管理域的文件。
该阶文件是数据中心各部门管理其内部工作的重要依据,也是员工执行管理体系的指导文件。
第四阶文件是“支持性文件”,包括支持业务流程运行的各类表单、技术文件。
该阶文件记录数据中心各项业务流程运行的具体情况,还可作为体系运行结果的直接证据。
2.体系管理平台
体系管理平台用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审,持续的改进数据中心的各项流程制度。
它是以ISO9001质量管理体系为基础搭建的管理整个数据中心运维管理体系的管理平台。
主要作用有两项:
(1)为数据中心的管理层提供管理整个数据中心运维体系的界面。
数据中心通过管理平台内的流程,进行方针、目标的制定、企业内部资源的分配、流程文件的修订发布、管理流程执行效果的审核、管理评审、运维数据的收集评审、执行持续改进运维体系的措施、调整管理体系框架等工作。
(2)为外部审核机构及客户了解数据中心的管理体系框架提供参考。
体系管理平台的文件主要包括8个,分别是:
(1)管理手册:
描述管理体系的框架结构、执行范围、组织结构及各部门的主要职责。
(2)适用性说明:
描述管理体系所遵循标准的适用条款及不适用条款的说明。
(3)文件管理手册:
用于规定数据中心管理体系内的文件修订、发布、废止、文件版本控制、文件标示控制、文件保管的规定、文件的废止销毁流程。
(4)记录和资料管理手册:
用于规定各类文件资料的保密等级及使用权限控制规定、查阅权限及保密资料的查阅申请流程、记录资料的保管规定(例如,保管期限、保管部门、记录资料的作废、销毁规定等)。
(5)内部审核手册:
规定了数据中心进行内部管理体系审核的周期,审核范围,内部审核员的选用方式,执行内部审核的流程,各部门在内部审核中的职责,审核后的纠正预防措施的制定、执行工作,纠正预防措施执行效果的监督检查工作。
(6)纠正预防措施手册:
用于规定整个管理体系在审核、管理评审过程中发现的需改进工作的纠正预防措施的制定、执行、监督检查工作的流程,以确保纠正预防措施被有效落实。
(7)管理评审手册:
用于管理层评估管理体系的运行效果,评估公司各项方针指标的执行情况,修订方针、目标,适时修订体系文件。
(8)不合格控制手册:
规定了服务不合格的概念及发生服务不合格后的处理方法。
3.资源管理
数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。
1)环境管理
数据中心环境安全管理的重点在于如何根据不同区域的特点使用不同的安全管控和出入原则。
对重点的区域可以选用先进的安全设备,使用严格的进出管理控制制度进行管理。
在制定数据中心环境管理相关文件时,通过对各区域内所存放的信息资产的等级进行分析,将数据中心划分成不同类别的管控区域和安全区域。
建议至少划分为3类区域:
公共区域、办公区域、安全管制区域。
(1)公共区域:
这些区域通常用于数据中心生活与展示的配套区域。
该区域允许员工及获准进入数据中心的第三方、客户在遵守相关制度的前提下自由进出。
(2)办公区域:
数据中心内存放日常行政办公信息处理设备和其他办公设备,开展日常工作的区域。
这类区域的进入通常需要办理相关的进入申请,配备有视频监控系统。
(3)安全管制区域:
数据中心内存放核心信息处理设备和供配电等基础设备,开展一线服务工作的区域。
这类区域严格限制人员设备的进出,有先进的门禁及监控系统以确保信息系统安全。
在编制环境管理相关流程时应考虑人员进出的要求,还应考虑设备和物品进出的流程。
设备和物品的进出应得到正式的审批,特别是对于安全管制区域所有的IT类设备、存储介质应重点控制。
2)网络管理
网络作为数据中心重要的资源,应制定相关流程予以控制。
建议网络管理流程包括如下管理内容:
(1)网络拓扑结构:
应明确网络的拓扑结构,创建网络拓扑结构图,并在网络结构变化时及时更新拓扑图。
网络拓扑结构的变化应有记录并得到适当的审批,应有专门的人员负责网络拓扑结构的调整。
(2)网络的访问管理:
应将网络划分为不同作用的网段,例如办公网、生产网、管理网,公共网络。
规定有权访问各类网络的设备和人员,明确网络接入的申请、审批流程和终止接入的流程,做到网络接入、终止接入过程受控,有专门的人员负责网络接入和终止接入的管理工作。
(3)网络系统日常维护流程:
应有专门的工作指引用于指导网络设备的日常维护,日志的备份、配置信息的备份。
3)设备管理
数据中心的设备管理主要包括对设备的固定资产管理,设备维护管理等。
数据中心在起草相关流程文件时应关注以下几点:
(1)编制设备清单:
明确设备的所有者、管理维护人员或部门、开始使用的日期、设备的重要等级等信息。
此类信息最好悬挂或张贴于设备上或设备周边的醒目位置以便于管理。
(2)制订设备的维护计划:
规定具体设备的维护日期、维护人等信息,并由专人负责按照维护计划进行维护或联系、督促服务商执行维护。
(3)将设备按重要等级进行分类:
设备按照等级分类,并按不同的设备重要等级制定不同的管理策略,最大限度的确保重要设备的运行。
4)软件管理
数据中心软件管理通常需要关注以下三项内容:
(1)计算机系统安装软件的管理:
对于数据中心的办公用计算机、监控用计算机和生产用计算机来说,其安装的软件应该受到严格的控制,避免员工随意安装软件。
从软件管理角度,数据中心应建立可安装软件的认证工作,通过对软件使用的分析建立一张可安装软件的清单,对于清单范围外的软件不允许安装。
对于监控、生产用的计算机及可连入生产网的计算机,其安装的软件需经过认证,并对所安装的软件进行记录,定期检查是否存在使用其他软件的情况。
(2)软件维护及补丁管理:
随着各种利用安全漏洞的病毒和恶意程序的增多,软件维护和补丁的更新工作也显得极其重要。
对于软件补丁的安装管理应做好以下几项管控工作:
补丁的测试、补丁的发放和安装、版本控制,建议补丁的管理由专人负责。
(3)数据中心软件许可证的管理:
随着知识产权意识的提高,是否使用有合法许可授权的软件已经成为越来越多数据中心和客户关注的问题。
软件许可证的管理要作为数据中心的一项重要工作。
其重点在于管理数据中心所拥有的合法软件许可证,确保在许可证许可范围内使用软件,确保软件的安装有记录可查。
5)存储介质管理
数据中心经常面临大量的介质管理工作,介质管理工作的成功与否直接影响数据中心的信息安全。
一个良好的介质管理工作应包括以下几方面的内容:
(1)空白介质与有数据介质保存方式的规定:
两种介质分开保存并有明显标示以示区别,同时应明确介质的保存地点,做到介质统一保存。
(2)应制定统一的介质编号、标示原则:
对介质作统一的编号标示,便于介质管理。
(3)有条件时建立介质管理员制度:
确保介质的专人管理,可减少介质管理的混乱。
(4)有数据介质的领用查阅应得到控制:
介质领用、报废应有适当的审批过程。
应规定清除报废介质内残余数据和销毁处理报废介质的流程,避免信息泄露。
6)防病毒管理
随着计算机病毒的日益泛滥,防止数据中心的生产设备、办公设备受到病毒侵害已经成为数据中心管理中不可缺少的工作内容。
防病毒管理流程主要包括以下几个方面:
(1)防病毒软件的管理:
这里主要包括软件的安装、软件的设置、病毒库更新,软件版本控制、定期查杀病毒等。
(2)病毒资讯:
安排专人随时了解病毒最新信息,可能爆发的病毒类型、染毒后现象及对信息系统的影响,查杀方法等,并将这些信息通过定期通告和随时通报两种方式提醒数据中心相关人员查防。
7)应用管理
广义的应用管理包括了数据库、中间件和应用系统本身在内的所有管理。
它是绝大多数IT服务的“灵魂”。
对于数据中心而言,挑战在于要同时管理大量复杂并且相互关联的应用。
在这种情况下,除了要建立并运用同样适用于整个应用管理的ITIL流程外,几个适合数据中心应用管理的最佳实践是:
(1)将应用按重要程度进行分级。
毫无疑问,理想情况下,所有的应用都应视为同样“重要”。
但是在资源总是相对不足的现实情况下,必须区别对待。
因此,在管理数目众多的应用系统时,基本的一点就是根据应用系统所提供的IT服务的重要性来对应用系统进行级别划分,并以此进行归类。
这个级别的定义可以提供应用系统管理维护所涉及的多个流程,包括事件管理、问题管理、安全级别管理等最基本的信息。
例如,一个一类应用(最重要)中断1小时和一个四类应用(相对最不重要)中断1小时,显然事件的等级是不一样的。
所以,将应用按重要程度进行分级对于更为合理的分配资源有重要意义。
(2)制作应用地图。
首先要制作系统结构图和网络拓扑图,同样,还需要制作应用拓扑图,也称为应用地图。
如图6-7所示,应用地图将应用按其功能类别划分为应用群,赋予不同的色块标识进行布局,使其便于统计和管理。
一个应用占用一行或一列,在这行或者这列中,从首到尾,分别在每一格列出网络设备、服务器、数据库、中间件,最后是应用。
每一格都可以再标示出具体的信息,如服务器的型号,数据库的版本,应用的名称和版本等,从而清晰地表现出各个应用相关的最主要信息。
应用地图是快速了解总体应用部署情况,并在应用出现故障时,迅速定位原因,最为直观有效的形式之一。
图6-7应用地图
(3)了解应用数据流。
虽然应用地图可以帮助快速了解应用和基础系统之间的关系,但是应用和应用之间的逻辑关系却没有展现。
所以,对于数据中心而言,深入研究并绘制多个应用系统之间数据的流向是有必要的。
应用数据流可以用图形,也可以用表格来表示。
应用数目较少时,用图比较直观;但当应用数目超过一定量时,表格的形式就更为合适。
但不管是用图,还是用表,应用数据流都应该至少包含以下几个元素:
数据提供的应用系统名称(一般称为上游应用)、提供的数据类型、文件名称、时间、周期、本应用系统名称以及数据接收的应用系统名称(一般称为下游应用)等。
如图6-8所示,针对任何一套应用系统,通过应用数据流图,可以很清楚地知道一旦停运,对其他应用系统的影响,这对于事件、问题或变更的影响评估有非常重要的意义。
图6-8应用数据流图
8)日常操作管理
数据中心的日常操作管理主要包括数据中心内部生产系统、办公系统、动力设备、环境保护、监测系统的数据处理、操作、维护的管理,以及数据中心信息处理设施、基础设施设备的软硬件运行情况巡检等监控工作的管理。
数据中心应该为每一台设备编制相应的操作工作指引。
不建议以服务商或设备制造商提供的使用说明书或技术资料直接作为工作指引使用。
工作指引编制应该满足数据中心实际使用的需要,用于指导操作人员在实际环境下操作设备的各项功能。
建议制定相关的巡检工作指引,规范数据中心的日常巡检工作。
工作指引应规定巡检的周期、巡检项目、判定设备正常的标准、出现异常后的记录和汇报方式以及事件管理的接口。
对巡检设备及内容做成检查表,巡检记录以表格形式呈现。
9)用户密码管理
用户密码是数据中心运行的重要信息。
用户密码的妥善管理可以减少数据中心运行的风险,提高数据中心运行的效率,确保信息的安全。
用户密码管理不完善的数据中心可能会遇到如下问题:
(1)管理员密码丢失(忘记密码)。
(2)登录时发现密码不正确,不知是谁改过。
(3)需要对系统进行调整时发现管理员休假,但只有他有密码,所以系统调整工作只能暂停。
(4)管理员偶然发现系统里有一个未知用户,经查发现该用户属于一个曾经在数据中心工作的人员,该人员已离职半年,但该用户没有被删除。
这些都是用户密码管理不完善的结果。
一个良好的密码管理流程主要应包括以下几个方面:
(1)用户密码分级管理:
数据中心应根据密码的重要程度将密码划分为若干个等级,并对不同等级的密码采用不同的管理策略。
(2)明确用户密码创建、变更流程:
用户密码的创建、变更和使用应该有一套严格的流程进行控制。
避免不受控的密码创建、变更和使用的行为。
(3)用户密码的使用中应注意以下问题:
①一个用户密码只能一人使用,避免出现几人共用一个用户密码的现象。
②用户密码的使用和生成应由不同人员分别进行,避免密码使用者私自修改密码。
③密码必须定期修改。
④密码的强度需要事先被定义。
(4)密码的保管:
对于重要密码,除在用户处保留外还应在适当的地点另外保留密码副本,以避免由于密码遗忘、丢失对数据中心运行造成严重影响。
此外,建议使用密码信封管理密码。
当密码保存在密码信封后,密码信封本身的制作、保存、更新应制定相应流程,以确保密码信封的管理是受控和安全的。
(5)用户密码的撤销:
数据中心应建立一套用户密码撤销删除的流程,重点加强离职人员及工作调动人员所用密码的撤销管理。
10)员工管理
员工作为数据中心重要的资源需要进行有效管理。
数据中心的员工管理流程应包括:
(1)员工招聘、任用流程。
明确员工招聘任用的流程,明确签订劳动合同和保密合同的过程。
(2)员工培训流程。
数据中心属于技术密集型组织。
由于IT领域新技术、新产品层出不穷,所以确保员工获得相关的技术和能力培训显得至关重要。
应规定员工接受培训的流程,员工培训主要包括上岗培训和日常培训。
(3)员工离职及岗位调整流程。
员工离职或岗位调整后,应完成各种工作交接,并应收回各类技术资料、系统权限、网络权限、出入证件、门禁系统权限。
4.服务管理
1)服务水平管理
服务水平管理是ISO20000、ITIL的重要组成部分,也是数据中心管理的重要组成部分。
服务水平管理主要通过SLA(服务水平协议)/OLA(运维水平协议)/UC(支持合约)来协调IT服务各方之间的关系。
服务水平管理主要管控如下活动:
(1)识别客户需求:
制定与客户沟通的相关职责,获取客户需求。
完成SLR(服务级别需求),作为制定SLA的重要依据。
(2)定义服务项目:
在确定SLA后,服务级别管理人员需要根据SLR总结出满足客户需求的服务项目,并形成服务描述单和服务质量计划。
(3)签订协议:
服务级别经理组织签署服务支持合同和运作级别协议,签署SLA。
(4)服务级别的监控和报告:
编写流程对服务级别协议执行的效果进行监控并形成报告。
(5)评审和改进:
服务级别经理应评审服务级别协议执行状况并作相关改进计划。
2)业务关系管理
业务关系管理流程包含至少3个部分:
服务评审、客户满意度调查、客户抱怨管理。
(1)服务评审:
与客户进行定期或不定期的针对服务提供情况的沟通。
每次的沟通均应形成沟通记录,以备数据中心对服务进行评价和改进。
(2)客户满意度调查:
客户满意度调查流程主要包括客户满意度调查的设计、执行和客户满意度调查结果的分析、改进4个阶段。
数据中心可根据客户的特点制定不同的客户满意度调查方案。
(3)客户抱怨管理:
客户抱怨管理流程规定数据中心接收客户提出抱怨的途径,以及抱怨的相应方式,并留下与事件管理等流程的接口。
应针对客户抱怨完成分析报告,总结客户抱怨的原因,制定相关的改进措施。
在实际工作中,有些重要客户的抱怨或客户抱怨的严重问题对数据中心影响较大。
为及时应对客户的抱怨,应该规定客户抱怨的升级机制,对于严重的客户抱怨,按升级的客户投诉流程进行相应处理。
3)服务报告管理
服务报告管理流程旨在向客户和管理者提供与服务相关的数据和信息。
在服务报告管理流程中应明确以下几个要素:
(1)服务报告各类数据的获取途径。
做到一类数据只能由一个职能部门提供。
(2)服务报告的内容定义。
应确保和管理层、客户就相关服务报告的内容达成一致。
(3)服务报告的提供周期。
应该明确服务报告的提供周期,具体周期可根据客户或管理层的要求定义。
(4)明确服务报告的制作部门和审批途径。
5.服务支持
1)事件管理
事件管理主要管控引起或可能引起服务中断或服务质量下降的不符合IT服务标准操作的活动。
这里的事件不仅包括软硬件故障,也包括服务请求。
当处理多个事件时应根据事件的影响、紧急程度、解决事件的难易决定事件的优先级。
如在协议时间内无法解决事件还应考虑事件的升级流程。
事件管理流程与问题管理、服务水平管理、变更管理、配置管理有着复杂的联系。
在制定数据中心的事件管理流程时应充分考虑事件管理与这些流程的关系和接口。
下面通过事件管理流程简图来简单介绍事件管理的过程,如图6-9所示。
首先是事件的发起,在这张流程图中,数据中心的事件发起主要包括3个方面:
客户请求、数据中心自动监控系统提供的报警、数据中心日常巡检中发现的异常。
在事件发生后,事件记录员首先记录该事件。
在事件管理流程中应规定记录事件的内容,如果数据中心没有使用ITSM的电子化工具,应通过表格形式记录事件内容,表格的具体样式、内容,可根据实际业务特点设计。
在事件记录员记录事件后,事件经理可根据事件记录对事件进行初步支持和事件分类,在这一步,事件经理需要对事件的紧急程度、重要等级、事件影响和处理难易进行初步分析,由此确定事件的优先级。
把事件设计的配置项关联到配置管理数据库(简称CMDB,指记录每个配置项(CI),以及不同配置项之间重要关联详情的数据库),分配事件处理任务到相关受理人员。
在事件经理分配任务后,事件受理员需对事件进行分析和处理。
处理事件时可参考问题管理的相关信息。
在事件分析并给出解决方案后,进入事件的解决过程。
事件的解决通常需要通过变更管理流程进行。
所以,这一步需要留下变更管理的接口。
在处理完事件后,需要和问题管理交互信息。
当事件确认解决后,由事件记录员关闭事件。
2)问题管理
问题管理流程是通过调查和分析IT基础架构的薄弱环节,查明事件产生的潜在原因,并制定解决事件的方案和防止事件再发生的方案。
与事件管理强调处理速度不同,问题管理是强调查处事件的根源,从而制定恰当的解决方案,防止类似事件再次发生。
通常问题管理与事件管理、变更管理、配置管理都有很紧密的联系。
下面以问题管理流程图(如图6-10所示)为例,介绍问题管理的主要活动。
数据中心问题管理部门通过对事件等信息的分析提出问题,并由问题管理员记录该问题。
问题经理对问题进行分析和处理。
该部分工作主要包括以下4项:
(1)将问题关联到事件管理流程记录的相关事件。
(2)将问题关联到配置管理项。
(3)设定问题的优先级。
(4)将问题分配给问题受理员处理。
问题经理将问题分派给问题受理员后,问题受理员通过分析,查找问题的原因并制定相关解决措施。
当问题的原因被发现并得到了解决措施后,应由问题经理管理问题,同时应通过变更管理进行相关变更,并通过配置管理流程更新相关配置项。
问题管理的最后一步是更新知识库。
问题管理流程本身并不复杂,但很多数据中心都不能很好地实施问题管理流程。
通常大多数数据中心在实施问题管理流程时遇到的最大“问题”就是“找不到问题”,从而导致问题管理流程不能被真正实施。
因此,建议采用如下方法发现数据中心的问题:
(1)充分利用服务报告,从报告中未能满足SLA的情况入手发现问题。
(2)充分利用事件管理流程,把具有相关性的事件作为问题管理的研究对象。
(3)利用系统管理工具的监测数据发现问题。
(4)通过客户满意度调查、客户座谈、客户反馈找出问题。
3)变更管理
变更管理是在最短的中断时间内完成基础架构或服务的任何一方面变更的流程。
通常情况执行了一个问题管理流程、事件管理流程、服务水平管理流程后,需要通过变更管理实施事件管理流程或问题管理流程所产生的事件处理方案或问题解决措施。
变更管理在施行中应注意通过合理的计划和周密的准备把中断业务或服务的时间减少到最小。
下面就以变更管理流程图(如图6-11所示)为例,介绍变更管理的主要活动。
变更流程的启动:
通常,事件管理流程、问题管理流程、服务水平管理流程会启动一个变更管理流程。
变更经理需要对变更请求进行审批。
在这个阶段,变更经理主要对变更请求进行复核,并确定变更的优先级,然后将变更分派给相应的变更受理员进行变更操作。
变更受理员根据变更的情况制定变更执行的详细计划,这些计划应尽量详细以减少由于变更时间过长而对服务的影响。
应在制订变更计划的同时制订一个变更失败后的回退计划,以避免一旦变更失败对数据中心运维造成较大影响。
变更经理需要对变更受理员制定的变更计划进行审批,然后交由变更实施人员进行实施。
变更实施后,变更受理员应对变更实施的结果进行检查,以确认变更执行有效,并将结果通报变更经理审批。
变更经理审批完变更后,变更受理员可以关闭该变更流程。
6.服务的交付管理
1)容量管理
容量管理主要关注企业与IT基础设施之间的关系。
这个流程不仅要评价现有服务的能力,还要分析和预测数据中心未来发展的需要。
容量管理流程应着重规范以下3个方面的内容:
(1)业务能力管理:
关注数据中心未来业务对IT服务的需求,并确保这种未来的需求在制订业务能力计划时得到充分的考虑。
(2)服务能力管理:
关注现有的IT服务能力、品质能否达到