ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:36.16KB ,
资源ID:3196359      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-3196359.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(计算机应用系统故障诊断与可靠性技术1.docx)为本站会员(b****2)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

计算机应用系统故障诊断与可靠性技术1.docx

1、计算机应用系统故障诊断与可靠性技术1 计算机应用系统故障诊断与可靠性技术第一章 可靠性与可靠性技术概论1-1计算机系统可靠性技术及其发展过程1 对计算机系统的希望:1计算机系统不发生故障。2发生故障仍然能基本正常的工作,维护和恢复时间短。2计算机系统可靠性技术的发展过程1第一阶段:20世纪50年代。硬件:电子管和电气器件(继电器)为主。可靠性:提出冗余概念。可靠性和容错理论奠基时代。2第二阶段:20世纪60年代。硬件:晶体管器件。可靠性:校验技术、编码理论与技术、诊断理论。专用容错计算机系统。3第三阶段:20世纪70年代。硬件:集成电路器件。可靠性:软件冗余、检错/纠错、多机体系结构。通用容错

2、计算机系统诞生。4第四阶段:20世纪80年代以后。硬件:大规模和超大规模集成电路器件。可靠性:多处理机系统、网络计算、分布式处理。自诊断、自恢复技术。1-2 可靠性技术研究的范畴1主要内容:1避错:提高元器件本身可靠性。2容错:利用给定元器件组成高可靠性系统。2相关内容:1可测性设计:加快故障诊断进度。2失败安全设计:出现恶性故障时保证系统安全。1-2-1 提高元部件可靠性的技术避错技术1主要途径:1高可靠性元器件选择、研制和降额使用。专用VLSI研制。2环境保护设计。防电磁干扰等等。3质量控制。老化试验、筛选。1-2-2 使用给定器件构成高可靠性系统的技术容错技术1定义:依靠对现有资源的冗余

3、和精心组织构成可靠性系统。2主要内容包括:1冗余技术:(故障屏蔽技术)包括: 硬件冗余:堆积冗余、备份冗余和混合冗余。 软件冗余:多程序同时执行同一功能。 信息冗余:通过附加信息位实现检错、纠错。 时间冗余:重复运算。主要研究内容:N模表决冗余、纠错码和屏蔽逻辑。2故障检测和诊断技术故障检测:确认系统发生故障。故障诊断:进一步确定故障的地点、性质。主要研究内容:检错码、自校验、监视定时器和权限校验。3系统重组与恢复技术重组:在检测出故障后替换或切除失效模块。 基本方法:后援备份、自适应表决。 恢复:重组后回到故障检测点或初始状态重新开始。 常用算法:重试、检测点、记日志和恢复块。3高可靠性计算

4、机应用系统种类:1单独用故障检测与诊断技术可构成联机监控系统。特点:自动监视系统运行状态,发生故障可以报警并分离出发生故障的部位。2用故障屏蔽技术构成有故障容忍能力的静态冗余系统。特点:在故障效应未到输出前通过隔离和校正消除影响。3故障检测与诊断技术+故障屏蔽技术结合构成有容错和告警能力的静态冗余系统。特点:即可带故障运行,又有报警能力的静态冗余系统。4故障检测与诊断技术、故障屏蔽技术+系统重组和恢复技术结合运用,构成性能更高的动态冗余系统。特点:通过系统重组切除、替换故障模块,恢复正常工作。1-2-3 可测性设计技术1传统方案:系统设计人员:设计电路和系统。测试人员:制定测试方案、研究测试方

5、法、开发测试设备。2目前状况:问题:元器件结构复杂、规模超大、测试效率低。目前测试方案:系统设计人员在设计系统和电路时充分考虑测试要求。3可测试性研究的主要问题:1容易作出故障诊断的结构设计。2针对特定系统的小而全的测试矢量。4方法:增加硬件资源 属于硬件冗余设计。测试码生成。1-2-4 失败安全设计技术1失败安全系统:故障超出系统容错能力时做到失败安全,不造成灾难后果。2失败种类:1危险失败状态:对人身或设备造成危害的状态。2安全失败状态:不会对人身或设备造成危害的状态。3失败安全设计目标:保证系统失败时进入安全失败状态。1-3 可靠性研究的四层次结构模型1可靠性研究的四层次模型(四论域):

6、物理:逻辑: 内部层(系统内部)信息:用户: 外部层(系统外部)2各论域状态正确/不正确的两个集合。1正确集合:正常功能。2不正确集合:对正常功能的破坏。 不希望事件UE。3各层次UE的分类: 失效 故障 差错 失败物理域 逻辑域 信息域 用户域UE从低到高构成一个因果链。4故障因果关系与各论域可以采取的UE防卫技术。失效 故障 差错 失败物理域 逻辑域 信息域 用户域避错 故障 动态 失败技术 屏蔽 冗余 安全 技术 技术 技术5容错系统:在计算机系统发生UE后仍能正确执行规定的算法和功能。1-4故障与故障模型故障:本来是逻辑域的UE而言。有时可以借用它来讨论其它域内部的UE事件。1-4-1

7、 故障分类1按故障的持续期分类1永久性故障:元器件损坏。2瞬时故障:干扰。3间歇故障:重复出现的非固定故障。如设计和工艺原因。2按故障对系统的功能是否有影响分类1可测故障:可从输出端观察对输入的响应而判定的故障。2不可测故障:不影响输入/输出关系的故障。3随机故障:偶发故障。3按故障的因果关系分类1物理性故障:直接由物理性原因引起的故障。 内在故障:电路、系统缺陷所导致。 诱发故障:诱发源引起的故障。2逻辑性故障:引起逻辑状态变化的故障。4按故障影响范围分类1局部故障:只影响局部硬件或软件模块的故障。2分布式故障:对两个以上的逻辑变量造成影响的故障。5按故障值分类1确定值故障:故障变量保持在一

8、个恒定的逻辑值上。2非确定值故障:故障变量在可能的逻辑值之间不断变化。6按故障的表现症状和性质分类:1静态故障:对给定的输入会给出永久性的输出。2动态故障:故障信号输出呈随机性或间歇性。7按故障部件分类1I/O设备故障:2I/O接口故障:3计算机硬件故障:4计算机软件故障:8按故障信号的变化特点分类1脉冲型故障:2阶跃型故障:3漂移型故障:1-5 表征系统可靠性的参数指标可靠性:一个系统在一定条件下和一定时间内完成预定功能的能力。1表明可靠性与规定的时间密切相关。 2无论是否存在故障,只要能完成预订功能就是可靠的。1-5-1 可靠性与可靠度1可靠度:可靠性的测度。对于无法或极难维修的设备主要设

9、计目标是提高可靠度。1可靠度定义:在t0时刻系统正常的条件下,系统在时间区域(t0,t)内能够正常工作的概率。通常用R(t)表示。2不可靠度定义:在t0时刻系统正常的条件下,系统在时间区域(t0,t)内不能够正常工作的概率。通常用F(t)表示。二者关系:R(t)= 1 - F(t)3失效率定义:系统工作到t时刻,单位时间内发生故障的概率。其中: 称为:系统故障时间的概率密度函数。R(t)=e -|(x)dx其中正常期间的失效率基本恒定。(t)=所以正常期间的可靠度为:R(t)=e -t1-5-2 可维性与可维度1可维度:可维性是衡量系统发生故障后维修难易程度的指标。 其定量测度称为可维度。记为

10、M(t)。1可靠度M(t)定义:系统失败后在时间间隔t内被修复的概率。可以表示为:M(t)=ptT t 完成维修的时间。 T 规定维修的时间。根据M(t)定义有以下性质: 0 M(t)1 M(0)= 0 M(oo)= 11-5-3 可用性与可用度1可用性:1瞬时可用度:系统在某时刻t正确执行其功能的概率。记为A(t)。2平均可用度:在时间区间(t1,t2)上的平均可用度。 A(t1,t2)=1/(t2-t1)|A(t)dt3稳态可用度:时间t趋于无穷大时A(t)的极限值。 Ass= limA(t) t-oo Ass = T0/(T0+Tf) T0为正常工作时间。 Tf为故障时间。 T0=1/

11、Tf=1/ Ass = (1/)/(1/+1/)= /(+)1-5-4 安全性与安全度1安全度的定义:在t0时刻系统正常的条件下,系统在时间区间t0,t内正常工作概率与系统在时刻t处于失败安全状态概率之和。2可靠度愈安全度关系可靠高安全度高;但是安全度高的系统可靠性未必高。1-5-5 保能性与保能度1保能性:系统发生故障时切除失效的硬件和软件后可以降低性能后维持正确运行。反映保能性的参数称为保能度。2保能度:系统在时刻t其性能保持在L级或L级以上水平的概率。3可靠度与保能度关系:1可靠度:衡量系统能正确执行全部功能的可能性的一种指标。2保能度:衡量系统能正确执行最低限度功能的可能性的一种指标。

12、1-5-6 可测性与可测度1可测性:可以通过测试确定故障的性质和位置。2可测度:可测性的定量测度。1-5-7 简化可靠性参数计算机应用系统可靠性基本的参量:可靠度R(t)、可维度M(t)、可用度A(t)。 RSA技术。简化可靠性参数:1.平均故障前时间MTTF:系统从投入运行(t=0)到发生第一次故障的持续正常运行时间的期望值。如果 则。2.平均修复时间MTTR:是系统维修总时间与故障总次数之比。如果M(t)=1-e-t 则MTTR=1/。3.平均故障间隔时间MTBF平均故障间隔时间MTBF指系统每连续两次故障之间的平均间隔时间。是可维修系统总的工作时间与故障总数之比。MTBF = MTTF + MTBF

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2