惠普计算机系统的故障诊断.docx
《惠普计算机系统的故障诊断.docx》由会员分享,可在线阅读,更多相关《惠普计算机系统的故障诊断.docx(48页珍藏版)》请在冰点文库上搜索。
![惠普计算机系统的故障诊断.docx](https://file1.bingdoc.com/fileroot1/2023-8/3/ae14ad1b-7d1c-42ca-b5f9-d0ce45436f67/ae14ad1b-7d1c-42ca-b5f9-d0ce45436f671.gif)
惠普计算机系统的故障诊断
资料范本
本资料为word版本,可以直接编辑和打印,感谢您的下载
惠普计算机系统的故障诊断
地点:
__________________
时间:
__________________
说明:
本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容
惠普计算机系统服务响应中心
(010)65643800
800-810-7000(免费服务电话)
传真:
(010)65668208
目录TOC\o"1-2"
前言PAGEREF_Toc469298855\h1
第一章、有关机房现场环境PAGEREF_Toc469298856\h3
一、机房总体要求PAGEREF_Toc469298857\h3
二、机房内环境要求PAGEREF_Toc469298858\h3
三、电源要求PAGEREF_Toc469298859\h4
四、HP9000小型机的功率及散热量指标PAGEREF_Toc469298860\h5
五、HP9000小型机和机柜的尺寸及重量PAGEREF_Toc469298861\h6
第二章、故障诊断(Trouble-Shooting)PAGEREF_Toc469298862\h7
一、硬件故障诊断PAGEREF_Toc469298863\h7
二、软件故障诊断PAGEREF_Toc469298864\h8
三、网络故障PAGEREF_Toc469298865\h9
第三章、系统管理员的日常工作PAGEREF_Toc469298866\h11
一、关于HP-UX的硬盘资源的逻辑卷管理PAGEREF_Toc469298867\h12
二、关于系统主控台Console的说明与设置PAGEREF_Toc469298868\h15
三、系统的开关机和PDC简介PAGEREF_Toc469298869\h16
四、HPSecureWebConsole的配置与维护PAGEREF_Toc469298870\h18
五、有关DDS磁带机PAGEREF_Toc469298871\h18
六、日常设备维护检查PAGEREF_Toc469298872\h30
第四章、系统备份与灾难恢复PAGEREF_Toc469298873\h35
一、系统备份与恢复常用命令PAGEREF_Toc469298874\h35
二、系统备份/恢复方法及策略PAGEREF_Toc469298875\h43
第五章、有关HP双机热备软件PAGEREF_Toc469298876\h45
一、手动启动MC/SGPAGEREF_Toc469298877\h45
二、单点启动后,加入另一个节点:
PAGEREF_Toc469298878\h46
三、实现节点切换PAGEREF_Toc469298879\h46
四、监测Cluster运行状态PAGEREF_Toc469298880\h46
五、停止Cluster运行PAGEREF_Toc469298881\h46
六、停止运行某个节点而Cluster在其它节点继续运行PAGEREF_Toc469298882\h46
七、在RunningCluster中运行某一个包PAGEREF_Toc469298883\h48
八、停止一个运行中的包PAGEREF_Toc469298884\h48
九、改变一个包的切换属性PAGEREF_Toc469298885\h48
后续PAGEREF_Toc469298886\h49
第一章、有关机房现场环境
一、机房总体要求
机房应避免下列因素:
电磁场
磁场
腐蚀性气体
易燃物或易燃性气体
爆炸物品
湿气
灰尘
计算机的前后左右应有足够的散热空间。
门、窗密封,机房场地保持清洁。
机房避免阳光直射。
机房内不可铺设地毯,以防静电。
任何无线电杂波干扰应低于0.5V/米。
二、机房内环境要求
温度与湿度:
温度:
20-25℃,最佳:
22℃
相对湿度:
40%-60%,最佳:
55%
机房最大温度变化率:
10℃/小时
北部地区气候干燥,建议使用加湿器
南方地区气候潮湿,建议使用去湿器
机房散热量计算:
保持机房内计算机系统操作于最佳温/湿度空间,必须计算机房内总散热量,其中包括:
机房内机器散热量总和
灯光
人员散热量:
每人平均600BTU/小时
未来扩充的设备
机房空间散热量:
50BTU/平方英尺
总散热量为上述各项散热量之和,下列有公式可换算成冷气机使用千卡:
BTU/hr=WATTS×3.413
K/hr=BTU/hr*0.25
空气含尘量:
机房应保持清洁,空气中大于0.5Micron的杂质在每立方英尺不多于45000个,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。
机房颤动度:
机房内颤动度不得高于0.5G,机房内产生震动的机器避免放置在一起,因颤动将使机器内机械部分、接头、主机面板接触部分产生松动,而造成机器不正常。
磁场杂波干扰:
机房附近的无线电杂波干扰应低于0.5V/M(频率范围从14KHz到1GHz),若机房附近有强烈磁场干扰时,应迁移机器,倘若还是无法避免,将机房四周用金属隔离,使磁场干扰降至标准之下。
三、电源要求
电压、频率变动范围:
电压:
203-228V
频率:
50+/-0.5Hz
瞬间变动电压:
瞬间变动电压不能超过220V+/-15%,且必须在0.5秒内恢复至220V,对于计算机系统则必须在0.06秒内恢复正常。
总谐波:
不高于5%。
所需电力:
主机系统及外设和网络设备所需功率,至少增加30%,以便将来扩充。
地线系统:
接地线必须和任何导线完全隔离及绝缘
接地线线径至少为3.5mm
接地线不是零线,必须和零线分开
系统接地电阻在电源插座零线与地线间测量时不大于2欧姆(用接地阻抗测试器测量)
在电源输出座所测零线和地线间电压必须小于1V
不能使用铁管代替接地线
在接地线的接地端测的接地电阻不大于1欧姆
电源插座:
符合中国国标
*G
*N*L
L:
火线N:
零线G:
地线
电源配线:
空调系统不能和计算机系统公用同一电源
照明系统最好不要和计算机系统公用同一电源
对于主要的设备如主机、外设等使用独立的电源开关和插座
保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组。
四、HP9000小型机的功率及散热量指标
五、HP9000小型机和机柜的尺寸及重量
第二章、故障诊断(Trouble-Shooting)
计算机故障种类很多,为了使您了解简单的常见故障处理,我们将分硬件、软件及双机热切换三部分举例说明,其中后者我们在第五章中还将提到。
一、硬件故障诊断
在此介绍根据液晶显示方面的信息,了解硬件故障诊断方面的情况。
电缆连接
注意计算机及各外设之间连线接触良好,不要无故拔插电缆;如果发生计算机不能识别某个设备,有可能是电缆的接触问题。
硬件状态指示灯
如果发现系统工作不正常,可以观察硬件状态指示灯的情况。
开机后系统将自动完成自测试,诊断及引导启动代码。
检测顺序大致为:
高速缓存,中央处理器,总线,内存,I/O设备。
当检测到相关的硬件时,对应的显示灯会亮。
硬盘,软盘,磁带机及光盘驱动器自检时,能从前面板上看到相应的灯亮一下,表明系统已经识别到上述设备。
相反,如果某驱动器的自检灯没亮,很可能是该设备有问题。
另外,主机背后的SCSI接口卡及网络接口卡上的自检指示灯亮为正常状态。
否则,可能该接口卡有问题。
发现这种问题,请马上与HP联系,考虑更换备件。
错误代码
每次开机后,系统都会自动进行硬件自检及初始化,假如系统出现硬件故障,一般都不能正常启动,并在液晶显示屏及控制台上相应的显示出错误代码及出错信息。
若屏幕上出现ERROR且液晶显示上出现FLT,表明有故障发生,应根据上述提示确定故障点。
绝大部分硬件错误都能在自检时暴露出来,在液晶显示及控制台的左下角都有四位错误代码,格式:
FLTxxxx.
分析这四位代码可以进一步检测出故障的情况。
如下表列出了K系列计算机的错误代码,相应的故障原因及解决方案。
HP9000K系列
二、软件故障诊断
由于软件故障情况错综复杂,无法在此一一赘述,这里例举几个常用命令来查看系统状态。
#ioscan-fn
列出各I/O卡及设备的所有相关信息:
如逻辑单元号,硬件地址及设备文件名等。
#ps-ef
列出正在运行的所有进程的各种信息:
如进程号及进程名等。
#netstat-rn
列出网卡状态及路由信息等。
#lanscan
列出网卡状态及网络配置信息。
#bdf
列出已加载的逻辑卷及其大小信息。
#mount
列出已加载的逻辑卷及其加载位置。
#uname-a
列出系统ID号,OS版本及用户权限等信息。
#hostname
列出系统网络名称。
#pvdisplay-v/dev/dsk/c*t*d*
显示磁盘各种信息,如磁盘大小,包含的逻辑卷,设备名称等。
#vgdisplay-v/dev/vg00
显示逻辑卷组信息,如包含哪些物理盘及逻辑卷等。
#lvdisplay-v/dev/vg00/lvol1
显示逻辑卷各种信息,如包含哪些盘,是否有镜像等。
三、网络故障
如需修改网络地址、主机名等,一定要用set_parms命令
#set_parmshostname
#set_parmsip_address
查看网卡状态:
lanscan
HardwareStationCrdHardwareNet-Interface
PathAddressIn#statenameunitstate
8/20/5/10x0800097843FB0uplan0up
确认网络地址:
#ifconfiglan0
启动网卡:
#ifconfiglan0up
网络不通的诊断过程:
lanscan查看网卡是否启动(up)
ping自己网卡地址(ip地址)
ping其它机器地址,如不通,在其机器上用lanscan命令得知stationaddress,然后linkloopstation_address来确认网线及集成器是否有问题。
在同一网中,subnetmask应一致。
配置网关
手动加网关:
/usr/sbin/routeadddefault20.08.28.981
把网关自动加入系统中
vi/etc/rc.config.d/netconf
:
ROUTE_DESTINATION[0]=default
ROUTE_GATEWAY[0]=20.08.28.98
ROUTE_COUNT[0]=1
:
/sbin/init.d/net将执行:
/usr/sbin/routeadddefault20.08.28.981
命令netstat-rn查看路由表
另外也可用set_parmsaddl_netwrk来设缺省路由。
第三章、系统管理员的日常工作
系统管理员对小型机系统的正确管理是系统稳定运行的保障,作为系统管理员应注意以下几个方面:
开关机步骤
用户组及用户管理
参见手册HP-UXSystemAdministrationTasks
文件系统维护
发现文件系统已满,应及时删除无用文件或扩大文件系统。
系统日常管理
系统管理员最好用sam(SystemAdministratorManager)来进行系统管理。
sam是以菜单方式工作的工具包,它包括了日常管理工作的所有命令,操作简便。
系统备份
备份是保护用户数据不丢失的重要手段。
一般系统备份的要求如下:
A.每一台机器的操作系统至少有一个全备份。
B.每天备份用户数据。
C.操作系统配置修改后重新备份操作系统。
定时清洗磁带机
定时检查设备指示灯状态
简单故障的判断
熟悉HP-UX操作系统
在用户手册中,以下两本书对系统管理员的日常工作会有很大帮助:
『HP-UXSystemAdministrationTasks』
『ConfiguringHP-UXforPeripherals』
一、关于HP-UX的硬盘资源的逻辑卷管理
HP-UX管理硬盘存储资源是采用逻辑卷方式来进行管理的,要说清整个机制,先要介绍几个概念:
物理卷PhysicalVolume,称为PV:
指物理上硬盘,一个硬盘就是一个PV
逻辑卷组LogicalVolumeGroup,称为VG:
一个VG包含整数个PV,可理解为一个大硬盘。
逻辑卷LogicalVolume,称为LV:
相当于对大硬盘进行逻辑分区,一个VG里可有若干个LV。
文件系统FileSystem:
在逻辑卷的基础上,可建立文件系统,然后MOUNT到一个目录下,这样就可以文件存取的方式来使用这块硬盘了。
当然,您也可以不建文件系统,而直接把LV当作裸设备,以TRUNK方式来存取数据,许多数据库都是用这种方式存取数据。
根据以上介绍,在HPUX下正确使用硬盘的顺序及相应命令如下:
先建物理卷:
#pvcreate–f/dev/rdsk/cCdDtT
这里必须使用硬盘的字符设备文件
再建逻辑卷组:
#mkdir/dev/vg0XX:
0~f,逻辑卷组名
#mknod/dev/vg0X/groupc640x0X0000
#vgcreatevg0X/dev/dsk/cCdDtT
然后划分逻辑卷:
#lvcreate–Lsizevg0Xsize:
该逻辑卷大小
在LV上建文件系统:
#newfs–Ffile_system_type/dev/vg0X/rlvolY
file_system_type:
文件系统类型,包括hfs和vxfs,注意此时用该逻辑卷的字符设备文件。
将此文件系统Mount到一个目录下:
#mkdir/directory
#mount/dev/vg0X/lvolY/directory
到此为止,您已经可以使用这个硬盘了。
有时您可能在现有的环境下,需要添加、删除逻辑卷,或者是需要扩大文件系统。
我们可以这样做:
添加逻辑卷
添加文件系统卷。
例如:
在vg01上添加一个200M的文件系统卷,卷名为data,mount到目录/sample上。
A、创建逻辑卷,在系统提示符下键入命令:
#lvcreate–L200–ndata/dev/vg01
B、在逻辑卷data上创建文件系统:
#newfs–Fhfs/dev/vg01/rdata
注:
如果是vxfs文件系统,则用
#newfs–Fvxfs/dev/vg01/rdata
C、创建目录/sample,并将逻辑卷datamount到/sample.
#mkdirsample”
#mount/dev/vg01/data/sample
D、用bdf命令,将会看到/dev/vg01/datamount到/sample上。
删除逻辑卷
例如:
删除vg01中名为data的逻辑卷,mount到/sample。
卸载所要删除的逻辑卷:
A、首先用umount命令将逻辑卷data从/sample上卸载下来:
#umount/sample
B、若系统提示设备忙,不能卸载;则在根目录系统提示符下,键入以下命令,进入单用户:
#shutdown-y0
在单用户下,先将所有逻辑卷mount上,键入命令:
#mount-a
用bdf命令看该逻辑卷是否已经mount上,如果mount上,键入以下命令:
#umount/sample
删除逻辑卷/dev/vg01/data,用命令:
#lvremove/dev/vg01/data
扩大文件系统
扩大文件系统,首先要找到这个文件系统所对应的逻辑卷,只有首先扩大逻辑卷,给文件系统以扩大的空间,才能扩大文件系统。
为扩大逻辑卷,先进单用户,在根目录系统提示符下,键入命令:
#shutdown-y0
3)进入单用户后,先将所有文件系统mount上,键入命令:
#mount-a
4)用bdf命令看该文件系统是否已经mount上,如果mount上,用命令#umount文件系统名umount该文件系统。
例如,想要扩大“/usr”到500M,就键入命令:
#umount/usr
用命令:
#lvextend-L500/dev/vg00/lvol4
这里,假定/usr对应/dev/vg00/lvol4
用命令:
#extendfs/dev/vg00/lvol4扩大文件系统。
注:
如果是vxfs文件系统,则用
#extendfs-Fvxfs/dev/vg00/lvol4
用命令:
#mount/dev/vg00/lvol4/usr
将文件系统mount到/usr
这样,文件系统“/usr”就被扩大了,
用命令:
#init3进入原来多用户运行级。
unix的文件系统
UNIX的文件系统是树状结构,从根开始,从表面上看,文件系统好象是一个整体,但实际上,文件系统可以分成不同的部分,单独占据一块逻辑卷,就是一个文件系统。
UNIX的文件系统可以分为四种类型:
HFS
VXFS
CDFS
LOFS
在HPUX中,有下列文件系统:
“/”根文件系统
“/usr”,“/sbin”操作系统的一部分。
“/opt”和Application有关的文件系统。
“/etc”mount到此目录下的文件系统包含系统配置文件
“/var”mount到此目录下的文件系统中的文件为系统启动,运行
等等,产生的报告文件。
“/stand”包含操作系统核心(Kernel)的有关文件。
“/tmp”包含系统临时文件。
“/dev”包含所有的设备文件,但它不是一个单独的文件系统,
它只是在根目录下的一个目录。
二、关于系统主控台Console的说明与设置
如果将我们诊断用户的故障电话进行分类,其中相当一部分的问题是出在Console的设置上。
通常的现象是Console上没有系统显示,或是键盘被锁住等。
用户往往认为是主机的问题,其实不然。
下面我们简单介绍一下:
小型机控制台能正常运行的缺省配置是:
REMOTEMODEON(带*号)
MEMORYLOCKOFF(不带*号)
LINEMODIFYOFF(不带*号)
MODIFYALLOFF(不带*号)
BLOCKMODEOFF(不带*号)
查看上述配置的方法,如下:
在小型机控制台的键盘上方有一排功能键F1-F8,在功能键F4与F5之间有Menu和UserSystem两个键。
当要查看小型机控制台的参数配置时,首先按UserSystem键,这时在小型机控制台屏幕的最下面一行显示出8个高亮度的方块,每个方块从左到右分别对应功能键F1到F8;
再按功能键F4,表示选择Modes,依然是8个亮方块,但是方块上的文字改变了。
依照上述5个参数的名称检查相应的方块,看是否正确地配置了。
如果没有,按与方块对应的功能键进行改变,直到所有参数正确地配置好。
最后按Menu键退出。
此外,这里介绍一种快速解决Console故障的方法:
关闭Console电源
摁住CTL+D键,开Console电源,直到听到“笛”声,松开按键。
稍等片刻,在屏幕左下角将出现“Defaultconfigsused,Pressenterclear”字样,按enter后一切恢复正常。
4.如果F4键位置的RemoteMode没有*号,摁F4加上*
以上做法实质上是为了恢复Console缺省设置。
三、系统的开关机和PDC简介
系统启动阶段的操作可用下述流程图来概括:
所以,一般地说,系统开关机应遵循以下步骤:
开机
1)打开总电源。
2)打开计算机机柜电源
3)打开外部设备电源.(如磁盘阵列,磁盘柜等)
4)打开主机电源.
关机
1)进行操作系统的关闭(shutdown-h-y0)
2)关闭主机电源.
3)关闭外设电源(对于Autoraid的磁盘阵列,需要对其进行软件关闭,才可关闭电源)
4)关闭其他设备电源和总电源.
在启机过程中,当Console上出现10秒中断时,若敲击任一键,则启动过程将停在如下状态下:
mainmenu>
这就是所谓的PDC(ProcessorDenpendentCode)。
在该状态下,系统管理员可完成如下管理工作:
查看Primary,AlternateBootPath
mainmenu>pa
就会列出Primary,AlternatePath。
搜寻硬盘等可Boot机设备
mainmenu>sea
系统会列出所有可由它控制的硬盘的硬件地址及CD-ROM、DDS和Build-inLan的硬件地址。
所以,有时可用此方式判断系统不能boot机是否与根盘有关。
进单用户
mainmenu>bopri
interactwithISL?
yes
ISL>hpux–is
检查HPMC代码
象诸如CPU、内存、总线等的硬件故障,都会产生HPMC(highpriorityMechineCheck)Code,那么查看的方法是:
MainMenu>ser
ServiceMenu>pim
如遇硬件问题,您打电话到惠普响应中心,硬件工程师极有可能请您帮助获得HPMCCode。
继续启动过程
MainMenu>bopri
InteractwithISL?
no
此外,再介绍一下如何观察系统启动时行自检的相应信息
a、系统启动时的自检信息反映出自检的过程和结果,在主机的液晶屏上可以看到这些信息,比如“7XXX”,一般表示和内存有关的信息。
这些信息都可以查阅有关的手册得知其具体的意义。
如果自检失败,相应的信息就会停留在主机的液晶屏上,根据这个信息就可以知道失败的原因。
b、机器启动之后,在CTRL+B的SL命令可以看到最后50个信息,但是,随着CHASSIS信息的不断显示,自检信息就会被冲掉。
因此,系统启动之后,这些信息就看不到了。
c、引导过程到硬盘时,会有配置硬件的信息,这些信息可以通过“#desg”命令和/usr/adm/syslog/syslog.log文件看到,相应运行级调用的shell程序过程可以在“/etc/rc.log”中看到。
四、HPSecureWebConsole的配置与维护
HP的SecureWebConsole为系统管理员提供了一个基于Web的、更为方便的接入Console的手段。
系统管理员只需在任意一台能够ping通WebCon-sole的PC上,启动网络浏