故障响应机制1.docx

上传人:b****1 文档编号:1927445 上传时间:2023-05-02 格式:DOCX 页数:27 大小:21.83KB
下载 相关 举报
故障响应机制1.docx_第1页
第1页 / 共27页
故障响应机制1.docx_第2页
第2页 / 共27页
故障响应机制1.docx_第3页
第3页 / 共27页
故障响应机制1.docx_第4页
第4页 / 共27页
故障响应机制1.docx_第5页
第5页 / 共27页
故障响应机制1.docx_第6页
第6页 / 共27页
故障响应机制1.docx_第7页
第7页 / 共27页
故障响应机制1.docx_第8页
第8页 / 共27页
故障响应机制1.docx_第9页
第9页 / 共27页
故障响应机制1.docx_第10页
第10页 / 共27页
故障响应机制1.docx_第11页
第11页 / 共27页
故障响应机制1.docx_第12页
第12页 / 共27页
故障响应机制1.docx_第13页
第13页 / 共27页
故障响应机制1.docx_第14页
第14页 / 共27页
故障响应机制1.docx_第15页
第15页 / 共27页
故障响应机制1.docx_第16页
第16页 / 共27页
故障响应机制1.docx_第17页
第17页 / 共27页
故障响应机制1.docx_第18页
第18页 / 共27页
故障响应机制1.docx_第19页
第19页 / 共27页
故障响应机制1.docx_第20页
第20页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

故障响应机制1.docx

《故障响应机制1.docx》由会员分享,可在线阅读,更多相关《故障响应机制1.docx(27页珍藏版)》请在冰点文库上搜索。

故障响应机制1.docx

故障响应机制1

WORD格式可编辑

 

故障响应机制

 

北京傻+逼信息技术有限公司

2014年12月

 

专业知识分享

WORD格式可编辑

 

1

引言

............................................................

1

1.1

编写目的...................................................

1

1.2

适用范围...................................................

1

2

故障

............................................................

2

2.1

故障分类...................................................

2

2.2

故障响应时间表.............................................

4

3

故障定级........................................................

5

3.1

故障累积升级...............................................

5

3.2

处理能力不足...............................................

5

3.3

客户关注程度...............................................

5

3.4

客户反馈故障升级...........................................

6

3.5

客户监控出现的问题.........................................

6

3.6

故障定级矩阵...............................................

7

4

现场人员注意事项................................................

8

5

故障响应人员....................................................

9

6

处理流程.......................................................

10

6.1

一级故障..................................................

10

6.2

二级故障..................................................

11

6.3

三级故障..................................................

13

6.4

四级故障..................................................

14

7

事后总结.......................................................

16

 

专业知识分享

WORD格式可编辑

 

1引言

 

1.1编写目的

 

由于生产环境中经常会出现各种故障,一般通过两种途径:

公司方人员发现、

银行方人员告知。

现场人员会发现问题不知道如何解决,也不知道该通知谁解决,

经常会出现处理延误、沟通不畅等问题,导致客户满意度下降,客户信任度下降。

另外现场人员要加强自身的沟通能力,第一要安抚客户、告知客户公司已经

进行处理,第二要能简明扼要的说明现场情况、客户关注程度、问题导致结果等。

本文档旨在提供一个规范化的流程,让现场人员做到有章可循,针对不同的

故障级别找到响应的处理人员。

从故障处理上,不仅可以体现公司的专业性,也能提高客户满意度。

 

1.2适用范围

 

项目组的所有人员需要了解,在故障出现的时候能第一时间进行处理。

领导组需要进行了解,知道各种级别的领导需要沟通。

 

专业知识分享

WORD格式可编辑

 

2故障

 

2.1故障分类

 

故障按照产生的后果进行分类,共分为四类。

 

故障等级故障说明响应时间处理时间

 

一级故障:

客户端无法使用,影响用户正常

使用。

 

当系统出现下列相当严重的现象时,属一级

故障:

 

?

系统后台服务器整体瘫痪,全部操作失去响应;

 

一级

?

客户端(安卓、iPhone、iPad等仅一

≤2小时

≤1天

种出现)崩溃、无法进入用户界面;

?

发生间歇性、随机性、重复性的启动

或应用退出,无法保障客户业务的正常处

理。

?

两个二级故障及以上,升级为一级故

 

二级故障:

客户端整体可以使用,部分出现

问题,影响用户的部分业务处理。

 

二级当系统出现下列比较严重的现象时,属二级≤3小时≤2天

 

故障:

 

?

系统后台出现了部分问题,导致用户

 

专业知识分享

WORD格式可编辑

 

使用出现问题;

 

?

客户端(安卓、iPhone、iPad等仅一种出现)部分功能失效,影响用户使用;

 

?

系统整体性能严重下降,无法自动恢复正常运行状态;

 

?

重要数据、参数和配置信息损坏,无法恢复,导致客户数据及业务记录严重损失;

 

?

三个三级故障及以上,升级为二级故

 

三级故障:

客户端可以使用,出现的问题对

用户的业务处理影响不大。

 

当系统出现下列现象时,属三级故障:

 

?

服务器端软件或者硬件出现异常,局

部功能受限,系统整体仍可正常工作,对客

户业务影响不大或存在隐患;

 

三级≤6小时≤3天

?

关键备用设施因故障离线,主用设施仍能正常工作;

 

?

后台日志发现有系统出现问题的趋势,或者已经出现了交易成功率下降

 

?

客户端性能小幅下降,但不影响使用;

 

?

系统运行指标(例如:

I/O效率、CPU

 

专业知识分享

WORD格式可编辑

 

效率)受到直接或间接影响,客户业务处理

受小量影响;

 

?

五个四级及以上,升级为三级故障

 

四级故障:

客户端可以使用,不影响业务处

 

当系统出现下列情况而不影响客户业务时,

属四级故障:

 

?

客户端界面出现显示问题,如ui不符

四级≤12小时≤5天合设计;

 

?

后台系统中有大量的冗余信息,导致空间不足;

 

?

系统硬件或者软件没有及时升级,不符合安全策略等等

 

2.2故障响应时间表

 

故障等级

通知公司响应人员

作出解决方案

赶到现场

解决时间

一级

15分钟

2小时

8小时

24小时

二级

30分钟

3小时

12小时

48小时

三级

60分钟

6小时

24小时或无需

72小时

到现场

四级

90分钟

12小时

无需到现场

120小时

 

专业知识分享

WORD格式可编辑

 

3故障定级

 

3.1故障累积升级

 

按照不同的故障分类需要进行相应的处理,但是有时问题会重复出现或者同

类问题出现了多个,进行故障升级。

例如:

开发人员发现了一个ui问题,这是一个四级故障,他应该通知他的组长进行统筹处理,在该组长进行处理时发现了十个类似的问题,这个问题直接升级到三级故障,由该组长负责向项目经理通知,并进行全面查找问题,进行统

一解决,做到故障的全部解决。

?

四级故障数>=5,升级为三级故障

?

三级故障数>=3,升级为四级故障

?

二级故障数>=2,升级为二级故障

 

3.2处理能力不足

 

现场人员如果在接到处理命令后,在两个小时内确认自己无能力处理该故障,

那么要求责任人将故障升级,联系更高级别人员,进行统筹工作。

如:

发现一个后台日志异常,有明显变坏的趋势,且银行方已经发现了交易

量有少量下降,这应该是一个三级故障,在内部响应后项目经理和高级开发人员

进行了处理,但是找不到问题所在,那么直接上升故障等级,通知领导协调更高

级的技术人员进行处理。

 

3.3客户关注程度

 

客户的关注程度较高时,故障等级应做升级,如果现场人员不能确定客户是

否关注程度比较高,可以通过以下几点进行判断:

客户语气焦急,明显有些不耐烦,明令快速解决

客户话语中透露出某某领导派他过来问,或者某某领导等着看,等等

客户表明因为这个系统的问题,导致其他系统无法正常运作

客户已经直接联系领导反映情况(这是非常糟糕的情况,3.4中会有说

专业知识分享

WORD格式可编辑

 

明)

如果还不能判断出客户的关注程度,那么直接打电话给项目经理,如果项目

经理也不能判断出客户关注程度,则按照客户关注程度一般处理。

客户关注程度高时,故障+1级(如原故障二级,+1后变一级),已经是一级

 

的无法再升级。

关注程度一般时,不做故障升级。

 

3.4客户反馈故障升级

 

如客户遇到了故障,没有通知现场人员或者项目负责人员。

而是直接联系了部门领导或者公司领导,那么故障响应要做相应升级。

如果故障是用户发现的,故障一般都在三级以上,那么按照用户的响应级别进行故障定级。

例如:

如果反馈用户是银行总经理级别的,即使是三级故障,也要按照一级故障进行响应。

原则上是找到公司与用户级别对等的领导,该领导在响应机制的哪个级别,故障就升级到哪个级别。

银行总经理对应公司总经理,定为一级故障

银行科技(信息)部经理对应公司交付中心总经理,定为一级故障银行科长级别对应公司交付中心总监,定为二级故障

如果客户反馈的故障,按照故障标准认定的等级大于用户反馈认定的故障大于,那么以故障标准认定为准。

 

3.5客户监控出现的问题

 

银行都有一些监控体系,可以从中查看到各种异常情况,这些异常情况可能

是已经出现了问题的,也可能是即将出现问题,这些一般都是由技术人员解决。

此类问题一般按照二级故障处理,如果客户关注程度较高,则需要公司相应

人员进行沟通,如果客户关注度不高,直接协调技术人员解决。

解决后,须告知

银行相关负责人。

 

专业知识分享

WORD格式可编辑

 

3.6故障定级矩阵

 

颜色说明

 

一级二级三级四级

 

客户关注度

客户关注度

行方科长反

行方信息部

行方总经理

故障积累

处理能力不

公司内部重

故障现象

按照标准

经理反馈问

(按照3.1

一般

馈问题

反馈问题

视程度高

所述)

无法使用

一级

一级

一级

一级

一级

一级

一级

一级

一级

部分无法使

二级

二级

一级

二级

一级

一级

一级

一级

一级

小部分无法

三级

三级

二级

二级

一级

一级

二级

二级

二级

使用

不影响使用

四级

四级

三级

二级

一级

一级

三级

三级

三级

 

专业知识分享

WORD格式可编辑

 

4现场人员注意事项

 

遵守银行现场的各项制度管理规范,维护公司声誉和形象,不允许有损公司声誉形象的事情发生。

重视自身的沟通,日常工作中不要抱怨,不说一些可能会伤害客户的话,,这样可能让用户积累一些怨气,在出现问题时候一并爆发。

做到在现场

的人员工作期间少说些与工作无关的事情

在问题出现的时候,现场人员放下手头的原有工作(指原定的任务,与

本次故障无关的任务),全心的投入的故障处理工作中。

第一,做好沟通协调员,将现有问题向上汇报。

第二,从容不迫应对,安抚客户心情,

告知公司已经处理(人员已经在路上等等)。

第三,积极配合客户,做好现场工作。

第四,小心谨慎,不要手忙脚乱,此时不能再犯错误。

技术人员提高技术能力,多了解公司的框架、操作系统和一些日常使用的中间件,不要因为自己的粗心大意,导致系统瘫痪。

做到修改前先备份。

修改后先检查,备份保留而不删除。

重视质量意识,加强代码自查,按照流程规范行事,从自身减少隐患

现场人员要留有各个内部联系人的电话,邮箱,必要时可以贴在工位上,不要出现问题再去找人问电话号码

明确自己的职责,了解其他人员(特别是领导)的职务和职责,了解每级别的责任人和联系人

 

专业知识分享

WORD格式可编辑

 

5故障响应人员

 

按照华北交付中心的组织架构

一级故障对银行响应人员:

交付中心总(副总)经理,责任人项目经理

 

二级故障对银行响应人员:

交付中心总监,责任人:

项目经理

三级故障对银行响应人员、责任人:

项目经理

四级故障对银行响应人员:

项目经理,责任人:

项目组长(项目经理)

 

专业知识分享

WORD格式可编辑

 

6处理流程

 

6.1一级故障

 

一级故障是最高级别的故障,要求在我方的第一发现人在五分钟内告知项目经理,在故障发生的15分钟以内联系到交付中心对应响应人员(交付中心总经理)。

在故障发生的15分钟内进行故障的现象及后果等的描述,之后交由领导统一指挥。

在两个小时内对问题作出相应的处理方案,以最快速度组织人员到现场处理

工作。

要求技术总监、项目经理、技术专家、硬件系统专家在故障发生的8小时内赶到现场。

如人员无法到齐,可派同等级别人员替换。

领导无法到场,可以电话指挥。

如现场问题严重,可要求公司副总与银行方领导进行沟通协调。

一级故障要在24小时之内解决,避免银行方受到更大的损失。

 

专业知识分享

WORD格式可编辑

 

一级故障处理流程

 

一线员工项目经理

 

发现问题或者

客户反映问题

 

确定问题级别复核问题级别

 

电话及邮件向

在十五分钟内反映上反映问题问题

 

告知银行方我方已

经进入故障响应流

 

现场处理问题

 

处理完成

 

24小时内处理完成

总结问题

 

看是技术问题还是

硬件问题,是否需

要提交bug,总结

成果。

必要的话可

以全员培训,避免

在发生此类问题

 

交付中心领导

 

组织去现场工

作人员并告知

银行方

 

组织现场处理

人员

 

人员赴现场处

 

八小时内人员到齐

 

电话指挥或到

现场指挥

 

公司职能领导

 

人员基本包括:

监、项目经理、技术

经理、硬件或系统专

家、软件专家

 

上级领导协调

 

对银行方造成重大

后果,或者银行方

事态不能控制

 

6.2二级故障

 

二级故障是比较严重的故障,要求在我方的第一发现人在10分钟内告知项

目经理,在故障发生的30分钟以内联系到交付中心对应响应人员(交付中心总

 

监)。

在故障发生的30分钟内进行故障的现象及后果等的描述,之后交由领导统

一指挥。

在3个小时内对问题作出相应的处理方案,以最快速度组织人员到现场处理

专业知识分享

WORD格式可编辑

 

工作。

要求项目经理、技术经理、硬件系统高级工程师、高级软件工程师在故

障发生的12小时内赶到现场。

如人员无法到齐,可派同等级别人员替换。

领导无法到场,可以电话指挥。

问题如果在两个小时内没有明确结果,故障直接升级为一级。

二级故障要在48小时之内解决,避免银行方受到更大的损失。

 

二级故障处理流程

 

一线员工项目经理

 

人员基本包括:

项目

发现问题或者

经理、技术经理、硬

客户反映问题件或系统高级工程师、高级软件工程师

 

确定问题级别复核问题级别

 

电话及邮件向

在30分钟内反映问上反映问题

 

告知银行方我方已

经进入故障响应流

 

现场处理问题

 

处理完成

 

48小时内处理完成

总结问题

 

看是技术问题还是

硬件问题,是否需

要提交bug,总结

成果。

必要的话可

以全员培训,避免

在发生此类问题

 

交付中心总监

 

组织去现场工

作人员并告知

银行方

 

组织现场处理

人员

 

人员赴现场处

 

12小时内人员到齐

 

电话指挥或到

现场指挥

 

专业知识分享

WORD格式可编辑

 

6.3三级故障

 

三级故障是严重的故障,要求在我方的第一发现人在15分钟内告知项目经

理,在故障发生的60分钟以内联系到交付中心对应响应人员(项目经理)。

在故障发生的60分钟内进行故障的现象及后果等的描述,之后交由领导统

一指挥。

在6个小时内对问题作出相应的处理方案,确定问题是否需要到现场解决。

如果需要去现场则组织人员去现场,不需要的话就在公司内部解决。

要求项目经理、技术经理、硬件系统高级工程师、高级软件工程师在故障发生的下一工作日内赶到现场。

如人员无法到齐,可派同等级别人员替换。

项目经理如果无法到场,可以电话指挥。

问题如果在四个小时内没有明确结果,故障直接升级为二级。

三级故障要在72小时之内解决,避免银行方受到更大的损失。

 

专业知识分享

WORD格式可编辑

 

三级故障处理流程

 

一线员工项目经理交付中心领导

 

发现问题或者

客户反映问题

 

确定问题级别复核问题级别

 

是否需要现场

在60分钟内反映问处理

 

人员基本包括:

项目

经理、技术经理、硬

件或系统高级工程

师、高级软件工程师

否现场处理问题

 

24小时内人员到齐

 

处理完成

 

72小时内处理完成

 

总结问题

 

看是技术问题还是

硬件问题,是否需

要提交bug,总结

成果。

必要的话可

以全员培训,避免

在发生此类问题

 

记录汇总了解项目问题

 

6.4四级故障

 

四级故障是一般的故障,要求在我方的第一发现人在30分钟内告知项目经

理,在故障发生的90分钟以内联系到交付中心对应响应人员(项目组长)。

在故障发生的90分钟内进行故障的现象及后果等的描述,之后交由领导统

一指挥。

在12个小时内对问题作出相应的处理方案,判断四级故障是否需要现场处

 

专业知识分享

WORD格式可编辑

 

理。

并查找是否还存在类似问题,一并在本次的处理方案中解决。

项目经理如果无法到场,可以电话指挥。

四级故障要在120小时之内解决,避免银行方受到更大的损失。

 

四级故障处理流程

 

一线员工项目组长项目经理交付中心领导

 

发现问题或者

客户反映问题

 

确定问题级别

 

在60分钟内反映问

 

人员基本包括:

软件

工程师

 

120小时内处理完

 

看是技术问题还是

硬件问题,是否需

要提交bug,总结

成果。

必要的话可

以全员培训,避免

在发生此类问题

 

复核问题级别

 

是否需要现场

处理

 

现场处理问题

 

处理完成

 

总结问题

学习,避免同

记录汇总了解项目问题了解项目问题

类问题发生

 

专业知识分享

WORD格式可编辑

 

7事后总结

 

程序在试运行或者运维阶段,经常会出现意想不到的问题,这些问题在有经

验的人手中可能很快就会解决,我们不能避免风险的产生,但是我们能尽量将有

害风险的影响降到最低。

这样我们就需要提高个人的技能水平,对出现的问题多做分享,多学习。

故障总结由项目经理进行整理,并填写故障总结单,填写后在项目文档中备

案,同时给其他项目组的项目人员转发,避免类似事件发生。

 

专业知识分享

WORD格式可编辑

 

8附件1故障总结单

 

单号:

项目名称

项目经理

 

项目描述

 

故障部分(由项目经理填写)

故障等级□一级故障□二级故障□三级故障□四级故障

 

故障后果

 

故障原因

 

故障总结

 

类似项目应注意(有解决人员填写)

 

故障解决人:

 

填写人:

填写时间:

 

专业知识分享

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 简洁抽象

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2