计算机应用系统故障诊断与可靠性技术1.docx

上传人:b****2 文档编号:3196359 上传时间:2023-05-05 格式:DOCX 页数:10 大小:36.16KB
下载 相关 举报
计算机应用系统故障诊断与可靠性技术1.docx_第1页
第1页 / 共10页
计算机应用系统故障诊断与可靠性技术1.docx_第2页
第2页 / 共10页
计算机应用系统故障诊断与可靠性技术1.docx_第3页
第3页 / 共10页
计算机应用系统故障诊断与可靠性技术1.docx_第4页
第4页 / 共10页
计算机应用系统故障诊断与可靠性技术1.docx_第5页
第5页 / 共10页
计算机应用系统故障诊断与可靠性技术1.docx_第6页
第6页 / 共10页
计算机应用系统故障诊断与可靠性技术1.docx_第7页
第7页 / 共10页
计算机应用系统故障诊断与可靠性技术1.docx_第8页
第8页 / 共10页
计算机应用系统故障诊断与可靠性技术1.docx_第9页
第9页 / 共10页
计算机应用系统故障诊断与可靠性技术1.docx_第10页
第10页 / 共10页
亲,该文档总共10页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

计算机应用系统故障诊断与可靠性技术1.docx

《计算机应用系统故障诊断与可靠性技术1.docx》由会员分享,可在线阅读,更多相关《计算机应用系统故障诊断与可靠性技术1.docx(10页珍藏版)》请在冰点文库上搜索。

计算机应用系统故障诊断与可靠性技术1.docx

计算机应用系统故障诊断与可靠性技术1

计算机应用系统故障诊断与可靠性技术

第一章可靠性与可靠性技术概论

1-1计算机系统可靠性技术及其发展过程

1.对计算机系统的希望:

[1]计算机系统不发生故障。

[2]发生故障仍然能基本正常的工作,维护和恢复时间短。

2.计算机系统可靠性技术的发展过程

[1]第一阶段:

20世纪50年代。

硬件:

电子管和电气器件(继电器)为主。

可靠性:

提出冗余概念。

可靠性和容错理论奠基时代。

[2]第二阶段:

20世纪60年代。

硬件:

晶体管器件。

可靠性:

校验技术、编码理论与技术、诊断理论。

专用容错计算机系统。

[3]第三阶段:

20世纪70年代。

硬件:

集成电路器件。

可靠性:

软件冗余、检错/纠错、多机体系结构。

通用容错计算机系统诞生。

[4]第四阶段:

20世纪80年代以后。

硬件:

大规模和超大规模集成电路器件。

可靠性:

多处理机系统、网络计算、分布式处理。

自诊断、自恢复技术。

1-2可靠性技术研究的范畴

1.主要内容:

[1]避错:

提高元器件本身可靠性。

[2]容错:

利用给定元器件组成高可靠性系统。

2.相关内容:

[1]可测性设计:

加快故障诊断进度。

[2]失败安全设计:

出现恶性故障时保证系统安全。

1-2-1提高元部件可靠性的技术—避错技术

1.主要途径:

[1]高可靠性元器件选择、研制和降额使用。

专用VLSI研制。

[2]环境保护设计。

防电磁干扰等等。

[3]质量控制。

老化试验、筛选。

1-2-2使用给定器件构成高可靠性系统的技术—容错技术

1.定义:

依靠对现有资源的冗余和精心组织构成可靠性系统。

2.主要内容包括:

[1]冗余技术:

(故障屏蔽技术)

包括:

硬件冗余:

堆积冗余、备份冗余和混合冗余。

软件冗余:

多程序同时执行同一功能。

信息冗余:

通过附加信息位实现检错、纠错。

时间冗余:

重复运算。

主要研究内容:

N模表决冗余、纠错码和屏蔽逻辑。

[2]故障检测和诊断技术

故障检测:

确认系统发生故障。

故障诊断:

进一步确定故障的地点、性质。

主要研究内容:

检错码、自校验、监视定时器和权限校验。

[3]系统重组与恢复技术

重组:

在检测出故障后替换或切除失效模块。

基本方法:

后援备份、自适应表决。

恢复:

重组后回到故障检测点或初始状态重新开始。

常用算法:

重试、检测点、记日志和恢复块。

3.高可靠性计算机应用系统种类:

[1]单独用故障检测与诊断技术可构成联机监控系统。

特点:

自动监视系统运行状态,发生故障可以报警并分离出发生故障的部位。

[2]用故障屏蔽技术构成有故障容忍能力的静态冗余系统。

特点:

在故障效应未到输出前通过隔离和校正消除影响。

[3]故障检测与诊断技术+故障屏蔽技术结合构成有容错和告警能力的静态冗余系统。

特点:

即可带故障运行,又有报警能力的静态冗余系统。

[4]故障检测与诊断技术、故障屏蔽技术+系统重组和恢复技术结合运用,构成性能更高的动态冗余系统。

特点:

通过系统重组切除、替换故障模块,恢复正常工作。

1-2-3可测性设计技术

1.传统方案:

系统设计人员:

设计电路和系统。

测试人员:

制定测试方案、研究测试方法、开发测试设备。

2.目前状况:

问题:

元器件结构复杂、规模超大、测试效率低。

目前测试方案:

系统设计人员在设计系统和电路时充分考虑测试要求。

3.可测试性研究的主要问题:

[1]容易作出故障诊断的结构设计。

[2]针对特定系统的小而全的测试矢量。

4.方法:

增加硬件资源——属于硬件冗余设计。

测试码生成。

1-2-4失败安全设计技术

1.失败安全系统:

故障超出系统容错能力时做到失败安全,不造成灾难后果。

2.失败种类:

[1]危险失败状态:

对人身或设备造成危害的状态。

[2]安全失败状态:

不会对人身或设备造成危害的状态。

3.失败安全设计目标:

保证系统失败时进入安全失败状态。

1-3可靠性研究的四层次结构模型

1.可靠性研究的四层次模型(四论域):

物理:

逻辑:

内部层(系统内部)

信息:

用户:

外部层(系统外部)

2.各论域状态

正确/不正确的两个集合。

[1]正确集合:

正常功能。

[2]不正确集合:

对正常功能的破坏。

—不希望事件UE。

3.各层次UE的分类:

失效→故障→差错→失败

物理域逻辑域信息域用户域

UE从低到高构成一个因果链。

4.故障因果关系与各论域可以采取的UE防卫技术。

失效→故障→差错→失败

物理域逻辑域信息域用户域

避错故障动态失败

技术屏蔽冗余安全

技术技术技术

5.容错系统:

在计算机系统发生UE后仍能正确执行规定的算法和功能。

1-4故障与故障模型

故障:

本来是逻辑域的UE而言。

有时可以借用它来讨论其它域内部的UE事件。

1-4-1故障分类

1.按故障的持续期分类

[1]永久性故障:

元器件损坏。

[2]瞬时故障:

干扰。

[3]间歇故障:

重复出现的非固定故障。

如设计和工艺原因。

2.按故障对系统的功能是否有影响分类

[1]可测故障:

可从输出端观察对输入的响应而判定的故障。

[2]不可测故障:

不影响输入/输出关系的故障。

[3]随机故障:

偶发故障。

3.按故障的因果关系分类

[1]物理性故障:

直接由物理性原因引起的故障。

内在故障:

电路、系统缺陷所导致。

诱发故障:

诱发源引起的故障。

[2]逻辑性故障:

引起逻辑状态变化的故障。

4.按故障影响范围分类

[1]局部故障:

只影响局部硬件或软件模块的故障。

[2]分布式故障:

对两个以上的逻辑变量造成影响的故障。

5.按故障值分类

[1]确定值故障:

故障变量保持在一个恒定的逻辑值上。

[2]非确定值故障:

故障变量在可能的逻辑值之间不断变化。

6.按故障的表现症状和性质分类:

[1]静态故障:

对给定的输入会给出永久性的输出。

[2]动态故障:

故障信号输出呈随机性或间歇性。

7.按故障部件分类

[1]I/O设备故障:

[2]I/O接口故障:

[3]计算机硬件故障:

[4]计算机软件故障:

8.按故障信号的变化特点分类

[1]脉冲型故障:

[2]阶跃型故障:

[3]漂移型故障:

1-5表征系统可靠性的参数指标

可靠性:

一个系统在一定条件下和一定时间内完成预定功能的能力。

[1]表明可靠性与规定的时间密切相关。

[2]无论是否存在故障,只要能完成预订功能就是可靠的。

1-5-1可靠性与可靠度

1.可靠度:

可靠性的测度。

对于无法或极难维修的设备主要设计目标是提高可靠度。

[1]可靠度定义:

在t0时刻系统正常的条件下,系统在时间区域(t0,t)内能够正常工作的概率。

通常用R(t)表示。

[2]不可靠度定义:

在t0时刻系统正常的条件下,系统在时间区域(t0,t)内不能够正常工作的概率。

通常用F(t)表示。

二者关系:

R(t)=1-F(t)

[3]失效率定义:

系统工作到t时刻,单位时间内发生故障的概率。

其中:

称为:

系统故障时间的概率密度函数。

R(t)=e-|λ(x)dx

其中正常期间的失效率基本恒定。

λ(t)=λ

所以正常期间的可靠度为:

R(t)=e-λt

1-5-2可维性与可维度

1.可维度:

可维性是衡量系统发生故障后维修难易程度的指标。

其定量测度称为可维度。

记为M(t)。

[1]可靠度M(t)定义:

系统失败后在时间间隔t内被修复的概率。

可以表示为:

M(t)=p{t≤T}t完成维修的时间。

T规定维修的时间。

根据M(t)定义有以下性质:

0≤M(t)≤1

M(0)=0

M(oo)=1

1-5-3可用性与可用度

1.可用性:

[1]瞬时可用度:

系统在某时刻t正确执行其功能的概率。

记为A(t)。

[2]平均可用度:

在时间区间(t1,t2)上的平均可用度。

A(t1,t2)=1/(t2-t1)|A(t)dt

[3]稳态可用度:

时间t趋于无穷大时A(t)的极限值。

Ass=limA(t)

t-oo

Ass=T0/(T0+Tf)T0为正常工作时间。

Tf为故障时间。

T0=1/λTf=1/μ

Ass=(1/λ)/(1/λ+1/μ)=μ/(μ+λ)

1-5-4安全性与安全度

1.安全度的定义:

在t0时刻系统正常的条件下,系统在时间区间[t0,t]内

正常工作概率与系统在时刻t处于失败安全状态概率之和。

2.可靠度愈安全度关系

可靠高—安全度高;

但是安全度高的系统可靠性未必高。

1-5-5保能性与保能度

1.保能性:

系统发生故障时切除失效的硬件和软件后可以降低性能后

维持正确运行。

反映保能性的参数称为保能度。

2.保能度:

系统在时刻t其性能保持在L级或L级以上水平的概率。

3.可靠度与保能度关系:

[1]可靠度:

衡量系统能正确执行全部功能的可能性的一种指标。

[2]保能度:

衡量系统能正确执行最低限度功能的可能性的一种指标。

1-5-6可测性与可测度

1.可测性:

可以通过测试确定故障的性质和位置。

2.可测度:

可测性的定量测度。

1-5-7简化可靠性参数

计算机应用系统可靠性基本的参量:

可靠度R(t)、可维度M(t)、可用度A(t)。

—RSA技术。

简化可靠性参数:

1.平均故障前时间MTTF:

系统从投入运行(t=0)到发生第一次故障的持续正常运行时间的期望值。

如果

2.平均修复时间MTTR:

是系统维修总时间与故障总次数之比。

如果M(t)=1-e-μt则MTTR=1/μ。

3.平均故障间隔时间MTBF

平均故障间隔时间MTBF指系统每连续两次故障之间的平均间隔时间。

是可维修系统总的工作时间与故障总数之比。

MTBF=MTTF+MTBF

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2