服务器故障应急响应方案.docx

上传人:b****5 文档编号:14485127 上传时间:2023-06-23 格式:DOCX 页数:11 大小:59.10KB
下载 相关 举报
服务器故障应急响应方案.docx_第1页
第1页 / 共11页
服务器故障应急响应方案.docx_第2页
第2页 / 共11页
服务器故障应急响应方案.docx_第3页
第3页 / 共11页
服务器故障应急响应方案.docx_第4页
第4页 / 共11页
服务器故障应急响应方案.docx_第5页
第5页 / 共11页
服务器故障应急响应方案.docx_第6页
第6页 / 共11页
服务器故障应急响应方案.docx_第7页
第7页 / 共11页
服务器故障应急响应方案.docx_第8页
第8页 / 共11页
服务器故障应急响应方案.docx_第9页
第9页 / 共11页
服务器故障应急响应方案.docx_第10页
第10页 / 共11页
服务器故障应急响应方案.docx_第11页
第11页 / 共11页
亲,该文档总共11页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

服务器故障应急响应方案.docx

《服务器故障应急响应方案.docx》由会员分享,可在线阅读,更多相关《服务器故障应急响应方案.docx(11页珍藏版)》请在冰点文库上搜索。

服务器故障应急响应方案.docx

服务器故障应急响应方案

服务器故障应急措施方案

文档信息

文档名称服务器故障应急措施方案

日期版本号更新说明

2014-03-14Ver_1.0

建立文档、初始化

 

1.方案概述

导致服务器出现故障的问题是一个庞大的集合,可以分成很多种导致服务器出现故

障的原因,根据服务器故障出现的状况进行分类,确定故障属于哪一个级别,根据相应

的故障级别对故障做对应的处理,确保故障的处理流程是标准化的。

如果没有一套故障处理的标准,工程师只能靠经验去判断,但是依靠经验判断并不

是不可以,有时候这种处理方式会很高效,但是大多数这种处理方式都是不太合理的,如果更换了运维工程师,显然每一个工程师通过经验去判断故障原因的方式都不尽相同,这样的差异将会使故障处理事后不能够得到很好的记录与存档,以供其他工程师以后借

鉴故障处理案例。

故障处理标准化的优点:

A.根据流程可以确定哪些故障应该立即汇报上级,哪些可以自行解决后,再写故

障处理报告汇报上级,这样做有助于提高故障处理效率。

B.对于工程师经验判断,可能出现判断失误的情况,根据故障判断流程,可以不

遗漏任何可能的情况对服务器故障进行排除。

C.有时候工程师处理了故障之后只是简单的做了一下汇报,并没有一些故障处理

过程的记录,以及故障处理的详细时间记录,这样对需要追溯以前的具体情况

的时候就束手无策了。

2.划分故障等级

故障级别

故障说明

故障处理第一步

I级

当系统出现下列相当严重的现象时,属一级故障:

立即汇报上级

(紧急)

•系统整体瘫痪,全部操作失去响应;

•系统崩溃,关键硬件或文件系统损坏无法自动修复;

•发生间歇性、随机性、重复性的启动或应用退出,无法保障公司业务的正常处理。

n级

(重要)

当系统出现下列比较严重的现象时,属二级故障:

•关键部件(含软、硬件)停止工作,导致系统降低运行状态,客户业务受到严重影响;

•系统整体性能严重下降,无法自动恢复正常运行状态;

•重要数据、参数和配置信息损坏,无恢复,

导致客户数据及业务记录严重损失;

立即汇报上级

川级

(关键)

当系统出现下列现象时,属三级故障:

•部分设备或软件异常,局部功能受限,系统

整体仍可正常工作,对客户业务影响不大或

存在隐患;

•关键备用设施因故障离线,主用设施仍能正

常工作;

•系统运行指标(例如:

I/O效率、CPU效

率)受到直接或间接影响,客户业务处理缓

慢;

立即汇报上级

"级

(告警丿

当系统出现下列情况而不影响客户业务时,属四级故障:

•不在运行状态的线路、端口损坏;

•出于安全考虑并且是受保护的软件降级或应用重启;

•因存储空间不足导致的性能下降;

•系统硬件、软件产品功能、安装、或配置方面的支援;

•业务仍然可以正常运作,但是服务器报出故障信息的;

故障排错判断

3.故障分类

序列

问题种类

详细内容

1、

骨干网光纤切割;

2、

机房网络升级;

机房网络故障

3、

机房网络设备调试;

4、

机房网络设备损坏;

1、

服务器没有备案;

2、

域名备案存在冋题;

-二二

政府部门封网

3、

黑客入侵导致服务器违法行为;

4、

违规代理服务器;

5、

6、

服务器转发违禁网站;

服务器放置的网站内容不符合当地的政府法例法规;

1、

机房空调故障问题;

机房铺助设备故障

2、

机房灰尘过多冋题;

3、

机房电力供应问题;

1、

机柜扩容;

机房机柜迁移

2、

机柜移位;

3、

服务器迁移机柜;

1、

电源线损环;

2、

服务器电源损坏;

3、

服务器非人为硬盘损坏;

服务器硬件故障

4、

服务器受黑客入侵攻击时导致硬盘损坏;

5、

CPU温度过高烧毁;

6、

内存使用中损坏;

7、

主板在电源损坏时容易烧毁;

1、

黑客攻击导致系统瘫痪;

2、

缓存日志过多没有整理;

服务器系统故障

3、

人为配置不当导致系统崩溃;

4、

硬盘损坏导致系统崩溃;

服务器应用故障

1、

2、

3、

4、

5、

6、

服务器放置的应用程序存在bug后门等;

服务器环境配置问题;

黑客攻击导致应用程序崩溃;

硬盘、内存的兼容性差导致应用程序崩溃;

应用程序没有优化占用服务器硬件资源过高导致崩溃;

用户负载过多导致应用程序崩溃;

1、

数据超过硬盘读写负载能力导致应用程序崩溃;

2、

CPU使用率跑满导致服务器宕机;

服务器硬件超负荷

3、

使用内存cache占用过多导致宕机;

4、

硬盘空间使用满导致宕机;

1、

用户量过多,服务器带宽不足,导致卡顿,用户访问程序

故障;

服务器网络超负荷

2、

系统连接数过多造成系统拥堵网络带宽使用不上;

3、

数据库数据读写占用过多服务器连接数,达不到预期的服

务器带宽;

1、

人为违规关机;

人为违规操作

2、

人为违规操作更改或删除服务器应用;

3、

机房人为关机或断电;

1、

服务拒绝攻击导致系统崩溃,如常见的UDP洪水攻击等;

2、

利用型攻击导致黑客入侵系统,如特洛伊木马、口令猜测

十-

服务器受到攻击

等;

3、

信息收集型攻击,如体系结构探测、DNS域转换等

4、假消息攻击,如DNS高速缓存污染、伪造电子邮件等

十二

不可预知因素

1、机房遭遇火灾事故;

2、机房遭遇地震事故;

4.故障应急处理流程

r

服务器出现

判断故障

 

记录发生

故障排错

 

故障排错

问题处理

故障处理

发送邮件给相关

服务器故障处理

XJ

5.故障排错流程

故障排错开始

 

启用备用服务器

是是

否否

故障处理完成

 

6.数据与日志备份

在进行故障修复的时候,需要对服务器系统以及软件的配置文件进行修改,这些修

改可能造成的风险是很大的,这时保存备份配置文件信息、应用数据、系统日志信息会很重要,可以直接通过shell脚本对服务器重要的数据进行备份。

7.故障处理报告

7.1.故障处理报告文件命名规则

文件名前缀

故障级别

服务器名称

故障类型

故障处理报告

I级—紧急

Linux服务器名称

(终端#前面的子符)

故障分类一详细内容

n级一重要

川级关键

"级告警

例如:

故障处理报告_I麥紧急_squid-chendu_系统崩溃

7.2.故障处理报告内容

故障发现时间

Xxxx年XX月xx日xx:

xx(24小时制)

处理完成时间

如果处理一次就解决的直接写:

Xxxx年XX月xx日xx:

XX(24小时制)

如果多次处理后才解决,按下面格式写:

1Xxxx年XX月xx日xx:

xx

2Xxxx年XX月XX日XX:

XX

3Xxxx年XX月XX日XX:

XX

(24小时制)

(24小时制)

(24小时制)

故障处理人员

故障描述

根据故障等级划分的说明加上一些详细的内容

故障处理过程

故障排错的详细过程,可以用图表形式表达

故障原因

导致故障发送的原因

解决方法

写上最终用什么方式解决故障问题

WelcomeTo

Download!

!

!

欢迎您的下载,资料仅供参考!

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 广告传媒

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2