计算机应用系统故障诊断与可靠性技术1.docx
《计算机应用系统故障诊断与可靠性技术1.docx》由会员分享,可在线阅读,更多相关《计算机应用系统故障诊断与可靠性技术1.docx(10页珍藏版)》请在冰点文库上搜索。
![计算机应用系统故障诊断与可靠性技术1.docx](https://file1.bingdoc.com/fileroot1/2023-5/5/4d5da3f5-022c-4092-9300-7f57359d46ad/4d5da3f5-022c-4092-9300-7f57359d46ad1.gif)
计算机应用系统故障诊断与可靠性技术1
计算机应用系统故障诊断与可靠性技术
第一章可靠性与可靠性技术概论
1-1计算机系统可靠性技术及其发展过程
1.对计算机系统的希望:
[1]计算机系统不发生故障。
[2]发生故障仍然能基本正常的工作,维护和恢复时间短。
2.计算机系统可靠性技术的发展过程
[1]第一阶段:
20世纪50年代。
硬件:
电子管和电气器件(继电器)为主。
可靠性:
提出冗余概念。
可靠性和容错理论奠基时代。
[2]第二阶段:
20世纪60年代。
硬件:
晶体管器件。
可靠性:
校验技术、编码理论与技术、诊断理论。
专用容错计算机系统。
[3]第三阶段:
20世纪70年代。
硬件:
集成电路器件。
可靠性:
软件冗余、检错/纠错、多机体系结构。
通用容错计算机系统诞生。
[4]第四阶段:
20世纪80年代以后。
硬件:
大规模和超大规模集成电路器件。
可靠性:
多处理机系统、网络计算、分布式处理。
自诊断、自恢复技术。
1-2可靠性技术研究的范畴
1.主要内容:
[1]避错:
提高元器件本身可靠性。
[2]容错:
利用给定元器件组成高可靠性系统。
2.相关内容:
[1]可测性设计:
加快故障诊断进度。
[2]失败安全设计:
出现恶性故障时保证系统安全。
1-2-1提高元部件可靠性的技术—避错技术
1.主要途径:
[1]高可靠性元器件选择、研制和降额使用。
专用VLSI研制。
[2]环境保护设计。
防电磁干扰等等。
[3]质量控制。
老化试验、筛选。
1-2-2使用给定器件构成高可靠性系统的技术—容错技术
1.定义:
依靠对现有资源的冗余和精心组织构成可靠性系统。
2.主要内容包括:
[1]冗余技术:
(故障屏蔽技术)
包括:
硬件冗余:
堆积冗余、备份冗余和混合冗余。
软件冗余:
多程序同时执行同一功能。
信息冗余:
通过附加信息位实现检错、纠错。
时间冗余:
重复运算。
主要研究内容:
N模表决冗余、纠错码和屏蔽逻辑。
[2]故障检测和诊断技术
故障检测:
确认系统发生故障。
故障诊断:
进一步确定故障的地点、性质。
主要研究内容:
检错码、自校验、监视定时器和权限校验。
[3]系统重组与恢复技术
重组:
在检测出故障后替换或切除失效模块。
基本方法:
后援备份、自适应表决。
恢复:
重组后回到故障检测点或初始状态重新开始。
常用算法:
重试、检测点、记日志和恢复块。
3.高可靠性计算机应用系统种类:
[1]单独用故障检测与诊断技术可构成联机监控系统。
特点:
自动监视系统运行状态,发生故障可以报警并分离出发生故障的部位。
[2]用故障屏蔽技术构成有故障容忍能力的静态冗余系统。
特点:
在故障效应未到输出前通过隔离和校正消除影响。
[3]故障检测与诊断技术+故障屏蔽技术结合构成有容错和告警能力的静态冗余系统。
特点:
即可带故障运行,又有报警能力的静态冗余系统。
[4]故障检测与诊断技术、故障屏蔽技术+系统重组和恢复技术结合运用,构成性能更高的动态冗余系统。
特点:
通过系统重组切除、替换故障模块,恢复正常工作。
1-2-3可测性设计技术
1.传统方案:
系统设计人员:
设计电路和系统。
测试人员:
制定测试方案、研究测试方法、开发测试设备。
2.目前状况:
问题:
元器件结构复杂、规模超大、测试效率低。
目前测试方案:
系统设计人员在设计系统和电路时充分考虑测试要求。
3.可测试性研究的主要问题:
[1]容易作出故障诊断的结构设计。
[2]针对特定系统的小而全的测试矢量。
4.方法:
增加硬件资源——属于硬件冗余设计。
测试码生成。
1-2-4失败安全设计技术
1.失败安全系统:
故障超出系统容错能力时做到失败安全,不造成灾难后果。
2.失败种类:
[1]危险失败状态:
对人身或设备造成危害的状态。
[2]安全失败状态:
不会对人身或设备造成危害的状态。
3.失败安全设计目标:
保证系统失败时进入安全失败状态。
1-3可靠性研究的四层次结构模型
1.可靠性研究的四层次模型(四论域):
物理:
逻辑:
内部层(系统内部)
信息:
用户:
外部层(系统外部)
2.各论域状态
正确/不正确的两个集合。
[1]正确集合:
正常功能。
[2]不正确集合:
对正常功能的破坏。
—不希望事件UE。
3.各层次UE的分类:
失效→故障→差错→失败
物理域逻辑域信息域用户域
UE从低到高构成一个因果链。
4.故障因果关系与各论域可以采取的UE防卫技术。
失效→故障→差错→失败
物理域逻辑域信息域用户域
避错故障动态失败
技术屏蔽冗余安全
技术技术技术
5.容错系统:
在计算机系统发生UE后仍能正确执行规定的算法和功能。
1-4故障与故障模型
故障:
本来是逻辑域的UE而言。
有时可以借用它来讨论其它域内部的UE事件。
1-4-1故障分类
1.按故障的持续期分类
[1]永久性故障:
元器件损坏。
[2]瞬时故障:
干扰。
[3]间歇故障:
重复出现的非固定故障。
如设计和工艺原因。
2.按故障对系统的功能是否有影响分类
[1]可测故障:
可从输出端观察对输入的响应而判定的故障。
[2]不可测故障:
不影响输入/输出关系的故障。
[3]随机故障:
偶发故障。
3.按故障的因果关系分类
[1]物理性故障:
直接由物理性原因引起的故障。
内在故障:
电路、系统缺陷所导致。
诱发故障:
诱发源引起的故障。
[2]逻辑性故障:
引起逻辑状态变化的故障。
4.按故障影响范围分类
[1]局部故障:
只影响局部硬件或软件模块的故障。
[2]分布式故障:
对两个以上的逻辑变量造成影响的故障。
5.按故障值分类
[1]确定值故障:
故障变量保持在一个恒定的逻辑值上。
[2]非确定值故障:
故障变量在可能的逻辑值之间不断变化。
6.按故障的表现症状和性质分类:
[1]静态故障:
对给定的输入会给出永久性的输出。
[2]动态故障:
故障信号输出呈随机性或间歇性。
7.按故障部件分类
[1]I/O设备故障:
[2]I/O接口故障:
[3]计算机硬件故障:
[4]计算机软件故障:
8.按故障信号的变化特点分类
[1]脉冲型故障:
[2]阶跃型故障:
[3]漂移型故障:
1-5表征系统可靠性的参数指标
可靠性:
一个系统在一定条件下和一定时间内完成预定功能的能力。
[1]表明可靠性与规定的时间密切相关。
[2]无论是否存在故障,只要能完成预订功能就是可靠的。
1-5-1可靠性与可靠度
1.可靠度:
可靠性的测度。
对于无法或极难维修的设备主要设计目标是提高可靠度。
[1]可靠度定义:
在t0时刻系统正常的条件下,系统在时间区域(t0,t)内能够正常工作的概率。
通常用R(t)表示。
[2]不可靠度定义:
在t0时刻系统正常的条件下,系统在时间区域(t0,t)内不能够正常工作的概率。
通常用F(t)表示。
二者关系:
R(t)=1-F(t)
[3]失效率定义:
系统工作到t时刻,单位时间内发生故障的概率。
其中:
称为:
系统故障时间的概率密度函数。
R(t)=e-|λ(x)dx
其中正常期间的失效率基本恒定。
λ(t)=λ
所以正常期间的可靠度为:
R(t)=e-λt
1-5-2可维性与可维度
1.可维度:
可维性是衡量系统发生故障后维修难易程度的指标。
其定量测度称为可维度。
记为M(t)。
[1]可靠度M(t)定义:
系统失败后在时间间隔t内被修复的概率。
可以表示为:
M(t)=p{t≤T}t完成维修的时间。
T规定维修的时间。
根据M(t)定义有以下性质:
0≤M(t)≤1
M(0)=0
M(oo)=1
1-5-3可用性与可用度
1.可用性:
[1]瞬时可用度:
系统在某时刻t正确执行其功能的概率。
记为A(t)。
[2]平均可用度:
在时间区间(t1,t2)上的平均可用度。
A(t1,t2)=1/(t2-t1)|A(t)dt
[3]稳态可用度:
时间t趋于无穷大时A(t)的极限值。
Ass=limA(t)
t-oo
Ass=T0/(T0+Tf)T0为正常工作时间。
Tf为故障时间。
T0=1/λTf=1/μ
Ass=(1/λ)/(1/λ+1/μ)=μ/(μ+λ)
1-5-4安全性与安全度
1.安全度的定义:
在t0时刻系统正常的条件下,系统在时间区间[t0,t]内
正常工作概率与系统在时刻t处于失败安全状态概率之和。
2.可靠度愈安全度关系
可靠高—安全度高;
但是安全度高的系统可靠性未必高。
1-5-5保能性与保能度
1.保能性:
系统发生故障时切除失效的硬件和软件后可以降低性能后
维持正确运行。
反映保能性的参数称为保能度。
2.保能度:
系统在时刻t其性能保持在L级或L级以上水平的概率。
3.可靠度与保能度关系:
[1]可靠度:
衡量系统能正确执行全部功能的可能性的一种指标。
[2]保能度:
衡量系统能正确执行最低限度功能的可能性的一种指标。
1-5-6可测性与可测度
1.可测性:
可以通过测试确定故障的性质和位置。
2.可测度:
可测性的定量测度。
1-5-7简化可靠性参数
计算机应用系统可靠性基本的参量:
可靠度R(t)、可维度M(t)、可用度A(t)。
—RSA技术。
简化可靠性参数:
1.平均故障前时间MTTF:
系统从投入运行(t=0)到发生第一次故障的持续正常运行时间的期望值。
如果
则
。
2.平均修复时间MTTR:
是系统维修总时间与故障总次数之比。
如果M(t)=1-e-μt则MTTR=1/μ。
3.平均故障间隔时间MTBF
平均故障间隔时间MTBF指系统每连续两次故障之间的平均间隔时间。
是可维修系统总的工作时间与故障总数之比。
MTBF=MTTF+MTBF