计算机应用系统故障诊断与可靠性技术1.docx

资源描述

计算机应用系统故障诊断与可靠性技术1.docx

《计算机应用系统故障诊断与可靠性技术1.docx》由会员分享，可在线阅读，更多相关《计算机应用系统故障诊断与可靠性技术1.docx（10页珍藏版）》请在冰点文库上搜索。

计算机应用系统故障诊断与可靠性技术1.docx

计算机应用系统故障诊断与可靠性技术1

计算机应用系统故障诊断与可靠性技术

第一章可靠性与可靠性技术概论

1-1计算机系统可靠性技术及其发展过程

1．对计算机系统的希望：

[1]计算机系统不发生故障。

[2]发生故障仍然能基本正常的工作，维护和恢复时间短。

2．计算机系统可靠性技术的发展过程

[1]第一阶段：

20世纪50年代。

硬件：

电子管和电气器件（继电器）为主。

可靠性：

提出冗余概念。

可靠性和容错理论奠基时代。

[2]第二阶段：

20世纪60年代。

硬件：

晶体管器件。

可靠性：

校验技术、编码理论与技术、诊断理论。

专用容错计算机系统。

[3]第三阶段：

20世纪70年代。

硬件：

集成电路器件。

可靠性：

软件冗余、检错/纠错、多机体系结构。

通用容错计算机系统诞生。

[4]第四阶段：

20世纪80年代以后。

硬件：

大规模和超大规模集成电路器件。

可靠性：

多处理机系统、网络计算、分布式处理。

自诊断、自恢复技术。

1-2可靠性技术研究的范畴

1．主要内容：

[1]避错：

提高元器件本身可靠性。

[2]容错：

利用给定元器件组成高可靠性系统。

2．相关内容：

[1]可测性设计：

加快故障诊断进度。

[2]失败安全设计：

出现恶性故障时保证系统安全。

1-2-1提高元部件可靠性的技术—避错技术

1．主要途径：

[1]高可靠性元器件选择、研制和降额使用。

专用VLSI研制。

[2]环境保护设计。

防电磁干扰等等。

[3]质量控制。

老化试验、筛选。

1-2-2使用给定器件构成高可靠性系统的技术—容错技术

1．定义：

依靠对现有资源的冗余和精心组织构成可靠性系统。

2．主要内容包括：

[1]冗余技术：

（故障屏蔽技术）

包括：

硬件冗余：

堆积冗余、备份冗余和混合冗余。

软件冗余：

多程序同时执行同一功能。

信息冗余：

通过附加信息位实现检错、纠错。

时间冗余：

重复运算。

主要研究内容：

N模表决冗余、纠错码和屏蔽逻辑。

[2]故障检测和诊断技术

故障检测：

确认系统发生故障。

故障诊断：

进一步确定故障的地点、性质。

主要研究内容：

检错码、自校验、监视定时器和权限校验。

[3]系统重组与恢复技术

重组：

在检测出故障后替换或切除失效模块。

基本方法：

后援备份、自适应表决。

恢复：

重组后回到故障检测点或初始状态重新开始。

常用算法：

重试、检测点、记日志和恢复块。

3．高可靠性计算机应用系统种类：

[1]单独用故障检测与诊断技术可构成联机监控系统。

特点：

自动监视系统运行状态，发生故障可以报警并分离出发生故障的部位。

[2]用故障屏蔽技术构成有故障容忍能力的静态冗余系统。

特点：

在故障效应未到输出前通过隔离和校正消除影响。

[3]故障检测与诊断技术+故障屏蔽技术结合构成有容错和告警能力的静态冗余系统。

特点：

即可带故障运行，又有报警能力的静态冗余系统。

[4]故障检测与诊断技术、故障屏蔽技术+系统重组和恢复技术结合运用，构成性能更高的动态冗余系统。

特点：

通过系统重组切除、替换故障模块，恢复正常工作。

1-2-3可测性设计技术

1．传统方案：

系统设计人员：

设计电路和系统。

测试人员：

制定测试方案、研究测试方法、开发测试设备。

2．目前状况：

问题：

元器件结构复杂、规模超大、测试效率低。

目前测试方案：

系统设计人员在设计系统和电路时充分考虑测试要求。

3．可测试性研究的主要问题：

[1]容易作出故障诊断的结构设计。

[2]针对特定系统的小而全的测试矢量。

4．方法：

增加硬件资源——属于硬件冗余设计。

测试码生成。

1-2-4失败安全设计技术

1．失败安全系统：

故障超出系统容错能力时做到失败安全，不造成灾难后果。

2．失败种类：

[1]危险失败状态：

对人身或设备造成危害的状态。

[2]安全失败状态：

不会对人身或设备造成危害的状态。

3．失败安全设计目标：

保证系统失败时进入安全失败状态。

1-3可靠性研究的四层次结构模型

1．可靠性研究的四层次模型（四论域）：

物理：

逻辑：

内部层（系统内部）

信息：

用户：

外部层（系统外部）

2．各论域状态

正确/不正确的两个集合。

[1]正确集合：

正常功能。

[2]不正确集合：

对正常功能的破坏。

—不希望事件UE。

3．各层次UE的分类：

失效→故障→差错→失败

物理域逻辑域信息域用户域

UE从低到高构成一个因果链。

4．故障因果关系与各论域可以采取的UE防卫技术。

失效→故障→差错→失败

物理域逻辑域信息域用户域

避错故障动态失败

技术屏蔽冗余安全

技术技术技术

5．容错系统：

在计算机系统发生UE后仍能正确执行规定的算法和功能。

1-4故障与故障模型

故障：

本来是逻辑域的UE而言。

有时可以借用它来讨论其它域内部的UE事件。

1-4-1故障分类

1．按故障的持续期分类

[1]永久性故障：

元器件损坏。

[2]瞬时故障：

干扰。

[3]间歇故障：

重复出现的非固定故障。

如设计和工艺原因。

2．按故障对系统的功能是否有影响分类

[1]可测故障：

可从输出端观察对输入的响应而判定的故障。

[2]不可测故障：

不影响输入/输出关系的故障。

[3]随机故障：

偶发故障。

3．按故障的因果关系分类

[1]物理性故障：

直接由物理性原因引起的故障。

内在故障：

电路、系统缺陷所导致。

诱发故障：

诱发源引起的故障。

[2]逻辑性故障：

引起逻辑状态变化的故障。

4．按故障影响范围分类

[1]局部故障：

只影响局部硬件或软件模块的故障。

[2]分布式故障：

对两个以上的逻辑变量造成影响的故障。

5．按故障值分类

[1]确定值故障：

故障变量保持在一个恒定的逻辑值上。

[2]非确定值故障：

故障变量在可能的逻辑值之间不断变化。

6．按故障的表现症状和性质分类：

[1]静态故障：

对给定的输入会给出永久性的输出。

[2]动态故障：

故障信号输出呈随机性或间歇性。

7．按故障部件分类

[1]I/O设备故障：

[2]I/O接口故障：

[3]计算机硬件故障：

[4]计算机软件故障：

8．按故障信号的变化特点分类

[1]脉冲型故障：

[2]阶跃型故障：

[3]漂移型故障：

1-5表征系统可靠性的参数指标

可靠性：

一个系统在一定条件下和一定时间内完成预定功能的能力。

[1]表明可靠性与规定的时间密切相关。

[2]无论是否存在故障，只要能完成预订功能就是可靠的。

1-5-1可靠性与可靠度

1．可靠度：

可靠性的测度。

对于无法或极难维修的设备主要设计目标是提高可靠度。

[1]可靠度定义：

在t0时刻系统正常的条件下，系统在时间区域（t0，t）内能够正常工作的概率。

通常用R（t）表示。

[2]不可靠度定义：

在t0时刻系统正常的条件下，系统在时间区域（t0，t）内不能够正常工作的概率。

通常用F（t）表示。

二者关系：

R（t）=1-F（t）

[3]失效率定义：

系统工作到t时刻，单位时间内发生故障的概率。

其中：

称为：

系统故障时间的概率密度函数。

R（t）=e-|λ（x）dx

其中正常期间的失效率基本恒定。

λ（t）=λ

所以正常期间的可靠度为：

R（t）=e-λt

1-5-2可维性与可维度

1．可维度：

可维性是衡量系统发生故障后维修难易程度的指标。

其定量测度称为可维度。

记为M（t）。

[1]可靠度M（t）定义：

系统失败后在时间间隔t内被修复的概率。

可以表示为：

M（t）=p{t≤T}t完成维修的时间。

T规定维修的时间。

根据M（t）定义有以下性质：

0≤M（t）≤1

M（0）=0

M（oo）=1

1-5-3可用性与可用度

1．可用性：

[1]瞬时可用度：

系统在某时刻t正确执行其功能的概率。

记为A（t）。

[2]平均可用度：

在时间区间（t1，t2）上的平均可用度。

A（t1，t2）=1/（t2-t1）|A（t）dt

[3]稳态可用度：

时间t趋于无穷大时A（t）的极限值。

Ass=limA（t）

t-oo

Ass=T0/（T0+Tf）T0为正常工作时间。

Tf为故障时间。

T0=1/λTf=1/μ

Ass=（1/λ）/（1/λ+1/μ）=μ/（μ+λ）

1-5-4安全性与安全度

1．安全度的定义：

在t0时刻系统正常的条件下，系统在时间区间[t0，t]内

正常工作概率与系统在时刻t处于失败安全状态概率之和。

2．可靠度愈安全度关系

可靠高—安全度高；

但是安全度高的系统可靠性未必高。

1-5-5保能性与保能度

1．保能性：

系统发生故障时切除失效的硬件和软件后可以降低性能后

维持正确运行。

反映保能性的参数称为保能度。

2．保能度：

系统在时刻t其性能保持在L级或L级以上水平的概率。

3．可靠度与保能度关系：

[1]可靠度：

衡量系统能正确执行全部功能的可能性的一种指标。

[2]保能度：

衡量系统能正确执行最低限度功能的可能性的一种指标。

1-5-6可测性与可测度

1．可测性：

可以通过测试确定故障的性质和位置。

2．可测度：

可测性的定量测度。

1-5-7简化可靠性参数

计算机应用系统可靠性基本的参量：

可靠度R（t）、可维度M（t）、可用度A（t）。

—RSA技术。

简化可靠性参数：

1.平均故障前时间MTTF：

系统从投入运行（t=0）到发生第一次故障的持续正常运行时间的期望值。

如果

则

。

2.平均修复时间MTTR：

是系统维修总时间与故障总次数之比。

如果M（t）=1-e-μt则MTTR=1/μ。

3.平均故障间隔时间MTBF

平均故障间隔时间MTBF指系统每连续两次故障之间的平均间隔时间。

是可维修系统总的工作时间与故障总数之比。

MTBF=MTTF+MTBF

展开阅读全文