IBMP系列小型机故障定位故障排除资料文档格式.docx
《IBMP系列小型机故障定位故障排除资料文档格式.docx》由会员分享,可在线阅读,更多相关《IBMP系列小型机故障定位故障排除资料文档格式.docx(19页珍藏版)》请在冰点文库上搜索。
![IBMP系列小型机故障定位故障排除资料文档格式.docx](https://file1.bingdoc.com/fileroot1/2023-5/3/04d81b3e-1b1a-42d1-8287-c01133356472/04d81b3e-1b1a-42d1-8287-c011333564721.gif)
7133磁阵的问题是最复杂的,一般有物理损坏的原因也有环境原因,这是主因,如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。
按照我们的经验,不管是什么硬件故障导致7133故障,系统都会产生告警,如果能及时发现问题并采取措施,一般都能防止故障的发生。
故障定位:
7133硬件故障也可以使用:
伴随的错误码有:
B4C006180115140004PHssa0RESOURCEUNAVAILABLE
FE9E93570401082304PHssa0DISKOPERATIONERROR
FE9E93571205000803PHpdisk3DISKOPERATIONERROR
03913B941122031103UHLVDDHARDWAREDISKBLOCKRELOCATIONACHIEVED
613E5F381121125103PHLVDDI/OERRORDETECTEDBYLVM
625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK
26CA120B0206081104PHssa0CACHESTORAGECARD
所有的错误码都预示着7133有异常,红色部分则表示肯定出现了硬件故障,需要立即进行检查并采取措施,否则磁阵将很快不能访问。
对于蓝色部分:
表示ssa出现了开环,出现开环不仅影响IO性能,也增加了风险,即如果另一个环路也出现问题,将不能访问磁阵。
开环一般有两种情况:
1)如果625E6B9A报错比较频繁,如每天几次,则表示系统很有可能出了硬件故障,虽然不会导致访问磁阵失败,但需要立即查出原因并解决。
查错方法可以参考下面的描述。
2)如果625E6B9A错误偶尔报一次,则要具体情况具体对待,有可能是读写忙出现的误报,也按下面方法进行排查,如果没有查出具体的原因,则可以继续观察。
该错误一般是在:
SSA卡带writecache并打开FastWrite,而ssa卡上用于writecache供电的可充电镍镉电池达到或接近安全寿命的情况下产生的。
这类错误产生将影响IO写性能,并且由于在FastWrite打开的情况下,主备机需要同步ssa卡上的writecache,所以甚至会影响到主备机同步。
具体解决方法可参考下文。
故障排除:
对于红色部分错误的问题排除,一般可以使用diag命令进行进一步诊断:
#diag->
TaskSelection->
SSAServiceAids->
LinkVerification
检查环路中是否出现了的盘符或状态不是good的硬盘
或使用:
#smittyssaraid->
ListAllDefinedSSARAIDArrays
查看磁盘阵列RAID盘的状态是否是Good。
如果是degrade或其他状态表示RAID盘出现问题了
这时候不建议再进行单独硬盘的Certify,而是赶紧通知IBM准备好相同型号和大小的硬盘(至少两块)到现场进行进一步的诊断和坏盘更换。
的排查方法:
1、要求将7133中未插硬盘的槽位全部插上dummy盘。
(dummy盘:
哑元盘,就是那个空壳子,相当于代替SSA硬盘装在磁盘阵列的塑料模型,当磁盘阵列的16个槽位没有被SSA硬盘插满时才用到.)
2、看看Loop状态:
diag--->
TaskSelection-->
SSAServiceAids-->
LinkVerification.正常AdapterPort下的两列数字是连续不间断的排列,且Status都为good,如果Physical列有符号.或Status不是good,则说明已经存在硬盘或链路故障,这种情况则要立即采取行动,做进一步检查以确定是否要更换硬盘。
检查单盘是否有问题的方法如下:
diag--->
CertifyDisk
选择认为存在故障的硬盘进行检查
3、如果7133存在硬件故障时,可从状态灯上观察到:
当单块硬盘出现故障或未被使用时,其面板上的硬盘状态灯会不亮
阵列的状态灯黄灯会亮
或接SSA线的端口的指示灯也会熄灭
如果通过以上三种方法都未发现问题,而系统仍报OpenSerialLink错误,建议继续跟踪。
的处理方法:
背景介绍:
IBM小型机上连接7133磁阵所配置的SSA卡一般都带有一块充电电池,该电池用于在突然停电的情况下保护ssa卡上的fastwritecache中的信息不丢失,这块电池的安全寿命一般是22000小时,差不多两年半的时间,也就是说,当fastwrite模式启动的情况下,一般两年半以后需要更换这块电池。
问题表现:
对ssa卡上的电池保护是通过卡上的一个计数器实现的,每运行一小时该计数器会增加一,当该计数接近或超过22000时,系统会有26CA120B硬件报警:
26CA120B0206120904PHssa1CACHESTORAGECARD
可以用如下命令检查ssa卡上的状态:
(-a后带上卡的逻辑设备名,这里假设是ssa0)
ssa_fw_status-assa0-p(检查电池已经工作的时间,小时为单位)
ssa_fw_status-assa0-l(检查电池安全工作寿命,小时为单位)
ssa_fw_status-assa0-c(检查ssa卡上的fastwrite功能是否被激活)
处理步骤:
(按优选方式列出,从中选择一种即可)
1)更换电池
选择系统闲时,更换主备机ssa卡电池,可以采用:
停备机-》更换备机ssa卡电池-》起备机(双机服务)-》主备倒换-》
停原主机-》更换原主机ssa卡电池-》起原主机(双机服务)
2)如果系统出现26CA120B电池告警,使用ssa_fw_status-assa0-c检查主用ssa卡(一般是ssa0)的FastWrite是否处于inactive(未被激活)状态,如果是,则以root执行如下命令:
ssa_format-lssa0-b
errclear0
/usr/lib/errstop
/usr/lib/errdemon
可以暂缓更换电池时间,等有电池后再更换,但这段时间对磁阵读写性能会有所影响。
3)如果短期内不能更换电池,同时主机主用卡的FastWrite仍然处于Active状态,建议手工屏蔽fastwrite功能
1)先停止双机
2)在1号机修改hdisk该属性:
smittydev->
ssadisks->
ssalogicaldisks->
change/showcharactersof...->
[choosehdisk2]->
fastwrite[no]
3)在1号机激活卷组
varyonvgzxinvg
4)在1号机去激活卷组
varyoffvgzxinvg
5)在2号机上执行
检查fastwrite是否已经改为no(只要1号机做了2好机就不用再修改了)
6)在2号机上执行
rmdev-dlhdisk2
cfgmgr-v
7)在2号机上执行
lspv(查看hdisk2是否已找到)
8)然后执行
9)重新启动双机
对于出现错误:
而不伴随其他红色标出错误的情况,则通过以下方式排查:
可能是hdisk中将‘enableuserofhotspare’打开了,而实际并没有配置hotspare盘,
可以通过如下方式解决:
检查RAID的状态:
#smittyssaraid
listalldefinedSSARAIDarrays:
allareinstatusgood(ssa0)
检查是否配置了hotspare:
list/identifySSAPhysicaldisks-->
Listhotspares:
none
修改每个ssa卡所配置的hdisk的属性:
:
set"
enableuseofhotspare"
to"
no"
然后再执行:
#/usr/lib/errstop
#cp/var/adm/ras/errlog/var/adm/ras/errlog.bak
#/usr/lib/errdemon
#errclear0
对于物理硬盘的接法可参考如下说明:
(有可能老局未配置hotspare,则连线方法按未配置hotspare盘的个数计算)
分以下几种情况讲述:
1)数据盘小于等于6块,建议配置一块hotspare
2)数据盘大于等于8块小于等于10块,建议配置两块hotspare
3)数据盘大于等于12块小于等于14块,建议配置两块hotspare
●数据盘小于等于6块,配置一块hotspare的接线和配置规则:
a)主机A1、A2接磁阵1、8位置;
备机A1、A2接磁阵4、5位置
b)保证磁阵前排1\4\5\8硬盘位置一定要插盘,其余的盘可以挑空位插,注意1-4、5-8两侧的数据盘保持轴对称关系插入(如1和8是轴对称的、4和5是轴对称的)
c)没有插硬盘的位置一定要插上dummy盘
d)做RAID0+1时,考虑到性能问题,请将1-4、5-8以轴对称方式一一对应做硬盘镜像,举例如下:
ibm对pdisk的排序与实际的物理位置是不同的,所以必须先通过lsdev-C|greppdisk的方式找出其对应关系并记录下来,如:
pdisk0Available11-08-1641-01-PSSA160PhysicalDiskDrive
pdisk1Available11-08-1641-05-PSSA160PhysicalDiskDrive
pdisk2Available11-08-1641-04-PSSA160PhysicalDiskDrive
pdisk3Available11-08-1641-08-PSSA160PhysicalDiskDrive
看第三列中间字符中有-01-的字样,表示其物理硬盘位置,以上对应关系表示
pdisk0-pdisk3对应的物理槽位分别是前排1\5\4\8的位置,所以在使用smittyssaraid做RAID0+1时,需将1\8位置的硬盘(pdisk0/pdisk3)做成镜像、4\5位置的硬盘(pdisk2/pdisk1)做成镜像,所以选择PrimaryDisks/SecondaryDisks时如下:
smittyssaraid->
AddanSSARAIDArray->
...
PrimaryDisks[需要选择:
pdisk0pdisk2]--1\4槽位的硬盘作为主盘
SecondaryDisks[需要选择:
pdisk3pdisk1]--8\5槽位的硬盘作为从盘
该要求只是从性能考虑,并不增加其他特性。
e)hotspare盘插入位置可以找前排8个位置中的空位插入即可。
无特殊位置要求,制作方法如下:
使用lsdev-C|greppdisk方式找出其pdisk号,如pdisk5
然后使用如下方式将其做成hotspare盘。
smittyssaraid->
ChangeUseofMultipleSSAPhysicalDisks->
选择ssa卡(连接磁阵的ssa卡,缺省为ssa0)
->
选择作为hotspare的pdisk,如pdisk6->
NewUse->
选择hotspare按回车创建即可
●数据盘大于等于8块小于等于10块,配置两块hotspare的接线和配置规则:
a)主机A1、A2接磁阵1、12位置;
备机A1、A2接磁阵8、9位置
b)保证磁阵前排1-8位置插满数据盘,9-12位置的数据盘和hotspare盘位置可任意。
d)做RAID0+1时,考虑到性能问题,请将1-4、5-8以轴对称方式一一对应做硬盘镜像,
9-12位置中有数据盘的,将其对应做镜像,其余两块做hotspare,举例如下:
pdisk4Available11-08-1641-02-PSSA160PhysicalDiskDrive
pdisk5Available11-08-1641-03-PSSA160PhysicalDiskDrive
pdisk6Available11-08-1641-07-PSSA160PhysicalDiskDrive
pdisk7Available11-08-1641-06-PSSA160PhysicalDiskDrive
pdisk8Available11-08-1641-09-PSSA160PhysicalDiskDrive
pdisk9Available11-08-1641-11-PSSA160PhysicalDiskDrive
pdisk10Available11-08-1641-10-PSSA160PhysicalDiskDrive
pdisk11Available11-08-1641-12-PSSA160PhysicalDiskDrive
pdisk0-pdisk11对应的物理槽位分别是1\5\4\8\2\3\7\6\9\11\10\12的位置,所以在使用smittyssaraid做RAID0+1时,前面八块盘按1-4、5-8轴对称方式对应做mirror,9-12中如选择9(pdisk8)/12(pdisk11)位置做mirror
所以选择PrimaryDisks/SecondaryDisks时如下:
PrimaryDisks[选择:
pdisk0pdisk4pdisk5pdisk2pdisk8]物理1-4,9槽位
SecondaryDisks[选择:
pdisk3pdisk6pdisk7pdisk1pdisk11]物理8-5,12槽位
e)剩余物理位置10(pdisk10)/11(pdisk9)盘做成hotspare,方法同上e)步骤
●数据盘大于等于12块小于等于14块,配置两块hotspare的接线和配置规则:
a)主机A1、A2接磁阵1、16位置;
b)空出3、14位置插hotspare,如果是12块数据盘,空出2、15位置插dummy盘,其余都插入数据盘;
如果是14块数据盘,则将剩余的14个位置全部插上数据盘
c)做RAID0+1时,考虑到性能问题,请将1-8、9-16以轴对称方式一一对应做硬盘镜像,hotspare也满足轴对称关系,举例如下:
pdisk10Available11-08-1641-10-PSSA160PhysicalDiskDrive
pdisk12Available11-08-1641-16-PSSA160PhysicalDiskDrive
pdisk13Available11-08-1641-13-PSSA160PhysicalDiskDrive
pdisk14Available11-08-1641-15-PSSA160PhysicalDiskDrive
pdisk15Available11-08-1641-14-PSSA160PhysicalDiskDrive
pdisk0-pdisk15对应的物理槽位分别是1\5\4\8\2\3\7\6\9\11\10\12\16\13\15\14的位置,所以在使用smittyssaraid做RAID0+1时,以1-8、9-16以轴对称创建mirror所以选择PrimaryDisks/SecondaryDisks时如下:
pdisk0pdisk4pdisk2pdisk1pdisk7pdisk6pdisk3]
物理1-8槽位,除3位置以外
pdisk12pdisk14pdisk13pdisk11pdisk9pdisk10pdisk8]
物理16-9槽位,除14位置以外
剩余物理位置3(pdisk5)/14(pdisk15)盘做成hotspare,方法同上e)步骤
3.3网络故障
由于我们应用对网络依赖很强,所以当网络出现全阻或瞬断都将对系统产生重大影响,网络故障一般可分为硬件故障(如网卡故障和交换机、路由器故障)和软件故障(网络中有IP包攻击或网络拥塞)两种情况。
硬件故障:
1.网卡
对于网卡故障,由于商用系统中都是采用IBM的HA双机系统,而且每台机器都配置有至少两块网卡,所以当单块网卡或网线出现问题时,HA软件都将采取措施实现ServiceIP切换。
网卡故障定位方法:
使用errpt–dH可查看到网卡服务中断的错误,再使用diag进行网卡诊断
网卡故障排查方法:
如果诊断出网卡有问题,则关闭系统后进行更换。
(如果是主机,则