数据中心运维工作管理规范.docx
《数据中心运维工作管理规范.docx》由会员分享,可在线阅读,更多相关《数据中心运维工作管理规范.docx(62页珍藏版)》请在冰点文库上搜索。
数据中心运维工作管理规范
文件编码:
数据中心运维项目
运维工作管理规范
(版本号:
V2.1)
文件版本历史
文件版本
修订日期/修订人
审核日期/审核人
批准日期/批准人
修订说明
V0.8
编写文档
V0.9
根据一次内审结果进行修改
V1.0
根据二次内审结果进行修改
V1.1
根据11年人员和工作情况进行修改
V1.2
按照质控中心要求修改文档
V1.3
根据12年人员变动和工作情况进行修改
V1.4
根据12年人员变动和工作情况进行修改
V1.5
按照质控中心提供最新模板修改文档格式
V2.0
双路市电改造,修改文档
V2.1
编写14年配置计划,根据人员变动修改文档
说明:
1.封皮页版本号应与“文件版本控制页”最后一条版本记录的“文件版本”保持一致;
2.采用《文件更改申请单》完成更改编审批时,“修订说明”可直接填写文件更改申请单单号,否则应记录具体修改内容。
1组织职责
需数据中心根据客户的服务需求,结合机房现有情况,由公司运维部的人员组建数据中心运维项目组,项目组由运维部经理负责,主要承担对外提供信息化基础平台的运行维护工作,主要任务是结合IT服务理念,建立一整套符合用户需求的运维管理体系,保障托管客户的信息化基础平台高效、稳定运行。
数据中心项目组人员现有10名,1名项目经理,9名运维人员,按照ISO20000运维体系的要求,对以上人员进行了相应的角色分配,详见附件一。
项目组的运维岗位分为服务支持人员、机房值班人员、综合管理人员三类,详见附件二。
同时根据工作的需要,针对消防、UPS电源系统、空调、供配电系统的运行维护需求以及所属设备的巡检,对其的运维责任进行了明确定义,详见附件三。
2目标和范围
数据中心运维项目组根据相关合同约定以及客户服务需求,制订本项目的运维工作目标和范围。
根据数据中心的具体情况,以及公司对数据中心的业务、功能定位,数据中心运维项目组的工作目标和范围是提供数据中心机房场地运维,包含:
对电力、空调、安防、所属设备的监控,保证机房24小时持续运行,并使机房的环境保持在规定标准范围内,以保证机房内设备安全、持续、稳定的工作。
服务范围是向公司目前的客户——,以及未来其他的内部或者外部客户提供场地运维服务。
3服务目录和服务级别协议
数据中心提供的服务内容包含机房场地租赁、机房场地环境和安防服务,以及公司办公区网络的运维,服务目录和服务级别协议的编制参考公司ISO20000体系文件《1服务级别管理程序》执行。
《服务目录》的更新维护由项目经理负责,每年要进行修订和完善,每年至少一次,并与客户达成一致。
4工作计划
项目经理应制定项目的年度服务工作计划,每年要调整一次,以符合客户服务需求的变化,主要包括年度运维计划、配置管理计划、容量及可用性管理计划、人员职责分工(详见附件一《角色人员对应表》)等相关内容。
根据项目组的实际工作,制定项目年度工作计划如下:
序号
类别
工作项目
工作内容
计划完成时间
负责人
1
基础运维
机房管理
机房值班,人员、设备管理
全年
2
基础运维
设备维护
季度维护
3月、6月、
9月、12月
半年度维护
6月、12月
3
基础运维
制定风险管控
识别、分析风险点
11月
4
耗材备件统计
制定耗材计划
1
根据设备运行状态,制定机房备件和耗材计划
10月
完善应急备件
2
结合设备运行状态和设备年限,完善应急备件
10月
5
文档编写
完善操作手册
1
完善UPS配电设备操作手册
10月
2
完善空调等设备操作手册
10月
3
完善场地监测设备操作手册
8月
6
应急演练
消防演练
消防应急流程、逃生路线、消防灭火器材使用
8月
4.1配置管理计划
配置管理主要是指项目中涉及的基础设施和文档的配置信息管理。
对应项目的实际需求,制定了以下的管理范围、文档需求、备份要求、工作计划、人员角色和验证审计指标及周期。
Ø配置管理范围:
UPS及电池组、空调、供配电系统、消防设备、监控系统、门禁系统、软化水装置、项目托管设备清单、各种技术手册等可服务于管理控制的信息。
Ø配置项选择原则:
从项目组的管理需求、管理范围和配置项数据的采集难易度等方面考虑,确定了配置项。
Ø配置管理流程使用的《配置项差异审计表》、《配置项信息登记表》和《配置信息变更表》是配置管理的核心数据,对于整体项目的运营至关重要,上述资料的保管和备份必须引起重视。
在数据中心,对于上述表单都需上传至文档服务器进行备份,更新维护工作由配置组长进行。
Ø数据中心在2010年年中正式投入运营,2014年配置管理的进度计划如下:
序号
工作名称
工作顺序
预计任务历时
负责人员
预计开始时间
预计审核时间
1
梳理配置管理流程
1
1周
2014-5-12
2014-5-18
2
对配置项进行分类和属性说明
2
2周
2014-5-19
2013-6-1
3
收集配置项信息,落实《配置项信息登记表》
3
3周
2014-6-2
2014-6-22
4
进行验证审计
4
1周
2014-6-23
2014-6-29
5
配置回顾
5
1周
2014-6-30
2014-7-6
6
日常配置管理
6
全年
2014-6-16
2014-12-31
7
进行二次验证审计
7
1周
2014-12-25
2014-12-31
Ø配置管理人员如下:
角色
人员
邮箱
电话
配置负责人
Ø验证审计每年组织一次,由配置负责人发起、组织并监督,遵循交叉审计的原则执行,回顾总结由配置负责人完成,考核指标如下:
绩效指标
等式
目标值
衡量方式
报告周期
负责人
备注
已审核CI数量及比例
数量=【删除状态】为“正常”且【审核状态】为“已审核”的CI总数。
比例=已审核CI数量/【删除状态】为“正常”的CI总数×100%
100%
报表统计
年
配置负责人
匹配CI数量及比例
数量=【删除状态】为“正常”且【审核状态】为“匹配”的CI总数。
比例=匹配CI数量/【删除状态】为“正常”的CI总数×100%
99%
报表统计
年
配置负责人
不匹配CI数量及比例
数量=【删除状态】为“正常”且【审核状态】为“不匹配”的CI总数。
比例=不匹配CI数量/【删除状态】为“正常”的CI总数×100%
1%
报表统计
年
配置负责人
丢失CI数量及比例
数量=【删除状态】为“正常”且【审核状态】为“丢失”的CI总数。
比例=丢失CI数量/【删除状态】为“正常”的CI总数×100%
0
报表统计
年
配置负责人
4.2能力及可用性计划
Ø数据中心于2010年正式落成投入使用,主要是对外提供机房场地租赁、机房场地环境和安防服务,同时随着公司业务扩展的需要,满足日益增多的基础设施的运维需求。
Ø能力和可用性管理规范了项目所提供IT服务的能力和可用性服务的管理,根据当前和未来的业务需求与服务级别,确保在可接受的时间及成本下,充分地提供所需的IT资源和IT服务,以满足业务目标和服务级别协议的要求。
Ø本计划由能力和可用性管理组长编写,能力和可用性管理负责人审批。
结合项目情况,数据中心是按照满足整体机房的满负荷运转的最大容量设计,同时电源、空调等系统都有备份系统,每年会根据情况进行适当的演练,所以基本可以满足客户在未来几年内的容量及可用性需求,无扩容计划。
因此,本计划会在面临机房扩容、改造等重大变更时,触发变更管理流程时进行更新。
Ø对应项目的实际需求,制定了以下的监测范围、人员角色、操作细则及调用应急预案的情况。
Ø能力和可用性的管理范围:
详见《能力和可用性监测指标和范围定义表》。
Ø能力和可用性相关人员如下:
角色
成员
邮箱
电话
能力和可用性负责人
31
Ø操作细则:
加强人员技能培训,强化人员风险防范意识,形成一切运维工作按规章制度操作的工作习惯,详见容量及可用性管理的《日常运行维护管理操作细则》。
Ø调用应急预案:
运维中面临的风险主要是供配电系统、空调漏水故障、空调风机故障、消防监控等突发事件的发生,应对措施是制定应急预案(详见持续性管理中的《IT服务持续性计划》附件),组织进行应急演练。
5项目管理
数据中心项目的管理由项目经理负责,包括支持管理、交付管理、供应商管理、投诉管理、预算管理、报告管理、风险管理、质量管理、文档管理等方面。
5.1服务支持管理和服务交付管理
鉴于项目组工作内容的实际情况和需要,不涉及发布管理流程的内容,因此在数据中心项目除发布管理外,其它所有服务流程参照公司IT服务管理体系相关管理程序的内容执行。
为了达到最佳的管理体系的执行效果,对应项目组的实际工作情况,把事件、问题、变更的操作进行了相应的细化,编写了《事件分类分级说明》、《问题分类分级说明》、《变更分类分级说明》及《配置管理流程的操作说明》。
Ø事件根据《事件分级分类说明》中的要求,在同一时间发生时按照优先级的高低进行处理。
Ø问题的分类分级参照事件的分类分级,详见《问题分类分级说明》。
Ø变更按照《变更分类分级说明》对变更进行分类变更,同时保证该文档的变更持续性。
5.1.1编号规则
各个流程的编号主要是为了体现相关流程的关联,在数据中心关于服务流程的编号规则,规定如下:
●事件流程中一次事件的编号方式为SJ0001_20100531,日期为提报日期,依此类推。
●问题流程中编号方式为WT0001_20100531,日期为提报日期,依此类推。
●变更流程中编号方式为BG0001_20100531,日期为提报日期,依此类推。
●配置流程中《配置信息变更表》的编号方式为PZ0001_20100531,日期为提报日期,依此类推。
5.1.2表单的使用说明
Ø事件管理:
《事件汇总单》是项目组统计处理事件数量和处理效果的重要单据,因此《事件记录单》中的事件和《机房内施工作业审批表》中的服务请求由一线工程师在受理事件的同时,要汇总到《事件汇总单》中,编号顺延编写。
Ø问题管理:
项目组人员把由事件升级、趋势分析、由维护中提出的需要关注并要根本解决的事件,转入问题管理流程,填写《问题记录单》交由项目经理审批。
通过审批后,再把问题情况和其处理情况详细记录在《问题汇总单》中,并把问题的解决方案写进《已知错误数据集》,使其被更新维护成为项目的知识库。
Ø变更管理:
在处理事件、问题的过程中,需要进行变更操作时,需填写《变更记录单》,交由项目经理审批。
通过审批后,再把变更处理情况详细记录在《变更汇总单》中。
Ø配置管理:
CI信息的变更由变更流程触发,填写《配置信息变更表》并由项目经理审批后,由配置组长更新。
5.2供应商管理
遵循公司ISO9000体系的7.4《采购过程控制程序》的管理规定以及ISO20000对供应商的细化要求(详见ISO20000的《IT服务管理体系质量手册》)。
5.3投诉管理
为了向客户提供持续、优质的服务,对于工作中出现的双方服务关注点,要友好的磋商,达成客户服务合同的要求。
当提供的服务达不到服务目录中的承诺目标时,客户可通过公司的统一投诉电话对项目组的服务进行投诉。
投诉管理遵循公司《BGPITC_ITSM-3-SMS-003客户投诉管理指引》的管理规定执行。
5.4预算管理
按照公司财务部门的要求编制项目成本预算。
5.5报告管理
项目组成员按照规定填写各种设备检查监测表单,并根据实际情况填写《事件记录单》、《事件汇总单》、《问题记录单》、《问题汇总单》、《变更记录单》、《变更汇总单》、《配置信息变更表》,进行人员进出登记,管理设备移入移出申请及记录、门禁卡申请等。
项目组每月编写服务报告(月报),包含事件、问题、变更、配置、容量及可用性、安全的内容。
每年进行一次配置审计,填写《CI信息审计表》以及《配置管理审计报告》。
事件管理中,按照《事件分级分类说明》中重大事件的定义,优先处理重大事件,并提交《重大事件报告》。
服务报告管理遵循《服务报告控制矩阵表》的要求。
项目组成员将填写的所有表单都交予质量管理负责人,由其统一收集管理所有表单、报告。
5.6风险管理
对于服务中可能会出现的各种风险,确定各种风险的等级,制定应急预案(详见连续性管理中的《IT服务持续性计划》附件),每年组织一次应急演练。
5.7质量管理
根据质量管理体系要求收集各类作业文件,并制定质量目标及考核方式;时时更新各类作业文件内容;每年在项目管理部组织下对用户做满意度调查;接受质量的审查。
5.8文档管理
项目组的技术手册和管理文档都在项目组的文档服务器中保存,每位项目组成员都可以登陆上去阅读、使用资料。
由质量管理负责人作为文档服务器的管理员,文档的上传由其负责,其他人对于文档的更新要通过他来完成,邮件发给他,由其上传文档服务器。
这样避免了文档服务器中文档发生维护类的错误,保证了所有文档的可用和最新。
新增知识上传文档服务器后,应由质量管理负责人发邮件通知项目组成员学习。
同时质量管理负责人和项目经理要对文档服务器中文档进行及时的备份,另外在本地个人计算机中进行保存。
6工作规范
为确保服务绩效,服务团队在服务提供过程中,除了严格按照服务流程履行服务职责外,还严格遵守公司、部门、客户的相关规章制度和工作规范。
项目组结合工作实际需要制定的各项规定,详见附件五《机房管理规定》。
7绩效考核
为了促进项目综合实力的增强,使人力资源作用发挥更大,公司每年都组织进行数据中心项目组的员工绩效考核,主要从工作业绩、工作能力、工作态度等方面考察,意在收集、分析、传递有关个人在其工作岗位上的工作行为、表现和工作结果等方面信息的过程。
8
附件
附件一:
角色人员对应表
角色人员对应表
模块名称
角色
职责
工作内容
成员
邮箱
电话
QMT质量管理
质量管理负责人
1、协助本项目/部门领导确保体系在本部门的有效运行;
2、传达体系思想、协调项目/部门资源,负责解答项目/部门成员体系运行中遇到的问题;
3、负责项目/部门体系运行的过程检查与监督,负责本项目/部门相关的体系改进工作;
4、负责本项目/部门体系运行数据的收集、分析、汇总和上报;
5、参加公司内审,并根据内审中发现的不符合组织本项目/部门的改进;
6、迎接外审,并负责关于体系在项目/部门中如何落地的解答;
7、体系优化建议的提报。
监督体系运行情况;组织推广工作进行;传达体系思想;解答疑问;沟通协调。
SRP服务报告
服务报告负责人
1、定期管理服务项目的所有相关报告,分析汇总报告信息,提出改进建议;
2、对报告中出现的重大异常情况应提请IT服务管理体系管理者代表审批;
3、维护《服务报告控制矩阵表》。
根据工作情况,维护《服务报告控制矩阵表》;定期编写《服务报告》。
SLV服务级别
服务级别负责人
1、进行客户需求沟通,确定合理可行的服务级别需求和服务级别目标;
2、在内部和与供应商沟通和确定OLA、UC以支持SLA;
3、磋商和签订SLA、OLA、UC;
4、监控SLA的实现情况,提出服务改进建议;
5、制作服务报告,定期报告SLA实现情况;
6、发起、组织和实施SLA定期回顾会议,对SLA的变更提交变更请求。
组织更新《服务目录》、《技术服务目录》;定期向客户或内部组织提供《服务报告》。
服务级别组长
1、一个或多个服务的运维负责人;
2、(根据项目)基于SLA和SC,制定内部实现的技术服务目录或SOP,细化技术操作规程;
3、负责监控所负责服务的可靠性、可用性和性能,对发现的待改进之处,提出服务改进建议;
4、协助服务级别负责人进行相关服务级别管理的支持工作,比如识别客户的服务级别需求是否合理可行,与服务级别负责人协商和确定所负责服务的OLA等。
维护《服务目录》,准备与客户评审《服务目录》或服务的《会议纪要》。
INC事件管理
事件负责人
1、通过服务台来确保客户满意,确保事件快速解决;
2、出现紧急、重大事件时,负责协调外部资源尽快解决;
3、当事件优先级为紧急或者事件将超过规定的时限,负责按照升级方法对事件进行处理确保有效协调资源,促进快速恢复正常服务;
4、确保正确和广泛地收集和分析事件数据,发现IT和业务相关的问题;
5、确保与问题管理、外部供应商等部门的有效合作。
监督事件管理流程(包含项目组自有的网络、电源系统、风机、漏水故障的处理流程)落实情况,提出改进措施。
服务台/一线工程师
1、作为客户事件沟通的唯一联系点;
2、在指定的响应时间内响应所有服务台热线电话、邮件、工单等事件报告;
3、正确、完整记录所有接收的事件信息,包括:
记录事件报告人的详细联系方式、事件特征表现、描述、发生时间等;
4、进行初步支持,为事件进行适当的分类、为事件分配优先级等属性;
5、检查事件记录的处理进度,保持与用户的联系,适时通知事件处理进展;
6、与用户确认事件解决方案及用户满意度反馈,关闭事件,并及时更新信息;
7、把事件的影响降低到最小,并确保快速回复到正常服务水平;
8、如事件无法解决,将事件进行升级,并寻求事件负责人的支持。
1、落实并维护《事件分类分级说明》;
2、落实《事件记录单》、《事件汇总单》;
3、多次发生的事件、需要查找根本解决办法、趋势分析得出的大概率事件,需要提升为问题处理,落实《问题记录单》,提交问题管理流程;
4、若有变更发生,则要落实《变更记录单》;
5、《事件报告》编入定期的《服务报告》,为其提供具体资料;
6、若有重大事件发生,则要落实《重大事件报告》。
所有值班人员
二线工程师
1、接收和处理升级事件,将已解决的事件转回服务台,由服务台关闭事件;
2、确定事件的分类、分级和关联配置项,并对事件进行深入研究;
3、及时提供有效解决方案,把事件的影响降低到最小,并确保快速回复到正常服务水平;
4、与其他二线小组合作,确定解决方案,如果事件无法解决,将事件升级,寻求事件负责人的支持,必要时引入供应商的支持;
5、收集有关事件解决方案,并将事件、问题解决步骤文档化,并录入知识库系统。
按照流程,解决升级事件,根据情况填写《事件记录单》、《事件报告》或《重大事件报告》。
三线工程师
1、接受和处理升级事件,将已解决的事件转回服务台(一线工程师),由服务台(一线工程师)关闭事件;
2、进一步确认支持需求,明确相关信息;
3、对升级的重大事件进行深入的讨论和研究,找出根本原因,并提出解决方案;
4、可以在尽快提供解决方案的前提下,根据相关流程缩减工作步骤;
5、收集有关事件解决方案,并将事件、问题解决步骤文档化,并录入知识库系统。
按照流程,解决升级事件,根据情况填写《事件报告》或《重大事件报告》。
运维部、办公网络维护:
局域网组人员
场地:
设备厂商
提报员
1、接受和提报需要由供应商处理的故障;
2、参与负责整个提报过程,确保相关信息的完整和全面;
3、对提报故障前期的信息收集,整理和分类;
4、定期与供应商进行沟通,督促或监督故障的解决;
5、定期对提报故障进行回顾和分析,从而获得相关的改进信息.
按照流程,沟通解决需要厂商处理的故障。
PRO问题管理
问题负责人
负责协调日常的问题管理工作,包括对问题的审核、监控、所需资源的协调、定期产生报表等。
1.接受问题支持团队/人员的分析报告,对问题进行审核确认;
2.确保所有相关问题信息都被正确登记;
3.对登记的问题进行分级和分类;
4.将问题分派给所属相关专业的问题支持团队/人员进行处理;
5.监控问题解决全过程,确保问题分派了正确支持团队/人员,提高解决率;
6.根据问题优先级合理分派IT资源;
7.必要时组织客户探讨问题解决方案和变通方法;
8.必要时组织成立问题分析专家组,并举行问题根本原因分析研讨会议;
9.查看问题处理结果,并定期回顾;
10.根据问题解决详细记录,审核问题支持团队/人员的关闭问题申请。
1、关注问题管理流程落实情况,提出改进措施。
2、审核问题,监控问题处理进度、处理效果。
问题支持团队/人员
为问题的诊断和解决提供技术支持,通常由各专业组技术人员承担。
1.定期回顾事件,分析事件趋势;
2.依据定义的问题入口准则进行问题录入;
3.收集问题相关数据并验证其可用性;
4.根据采集的数据诊断问题;
5.定位问题根本原因并记录;
6.为用户提供相应的变通方法和最终的解决方案;
7.实施解决方案;
8.验证问题解决结果;
9.根据需要更新完善已知错误数据集;
10.关闭问题。
1、参照《事件分类分级说明》,给予问题确定优先级,落实《问题记录单》;
2、《问题报告》编入定期的《服务报告》,为其提供具体资料;
3、若有变更发生,则要落实《变更记录单》;
4、维护《已知错误数据集》,把已解决方案录入,形成项目组的知识库。
内部专家、设备厂商
CHG变更管理
变更负责人
综述:
变更负责人主要负责审批变更申请。
变更负责人不能同时是变更受理人或变更执行人员。
具体工作包括:
1、负责评估审批由变更受理人提交的每一个变更申请表(RFC),检查变更的正确性和必要性,必要时拒绝无关、无法实施或没有必要的变更请求;
2、如果评估审批后的变更需要提交发布,由变更负责人进行或变更负责人转交变更执行人进行;
3、负责判断是否需要变更委员会(CAB)或紧急变更委员会(ECAB)参与变更评估审批;
4、负责评估审批变更计划是否可行,分析变更风险;
5、针对具体变更计划,评估并分派相应资源;
6、负责协调必要的变更时间、人员等方面的工作;
7、负责变更结果审核,并判断是否组织变更回顾;
8、负责接受紧急变更通知单,审批紧急变更,并优先调配紧急变更所需资源;
9、负责紧急变更实施后评估,并组织紧急变更参与人员补充相关单据;
10、参与流程评估,对流程改进提出意见和建议,与流程负责人共同制定流程改进建议;
11、负责结束紧急变更流程。
1、关注变更管理流程落实情况,提出改进措施。
2、审批《变更记录单》、《机房移出设备申请单》、《机房移入设备申请单》、《机房借出设备申请单》,监控变更处理情况。
变更受理人
综述:
主要负责接受变更申请,跟踪变更执行情况。
具体工作包括:
1、记录、确定和检查变更请求(RFC)的