IBM服务器阵列卡损坏N种情况的解决的方法.docx
《IBM服务器阵列卡损坏N种情况的解决的方法.docx》由会员分享,可在线阅读,更多相关《IBM服务器阵列卡损坏N种情况的解决的方法.docx(17页珍藏版)》请在冰点文库上搜索。
IBM服务器阵列卡损坏N种情况的解决的方法
IBM服务器更换阵列卡的方法
关于IBM服务器更换阵列卡的方法
随着时间的推移,越来越多的IBM服务器陆续过保了,许多的蓝色快车服务站也开始维修过保的服务器,但是,很多有实践经验的工程师(包括去IBM作专职)逐渐离开蓝快,后面来的工程师基本上不清楚以前的服务器,更换主板、电源、CPU、MEM,还可以作,但服务器上最重要的是RAID卡上存了一份阵列信息,硬盘上也会保存一份阵列信息。
如果工程师更换RIAD卡或硬盘时操作不当或大脑思路不清淅,很容易造成客户的数据的丢失。
我作了多年的工程师,几乎每一种IBM服务器我均搞过,将一些更换阵列卡的方法以及注意的问题等,实践过的经验方法共享给各位,也欢迎各位朋友同事提出宝贵的意见和建议。
(一)RAID卡的分类
1、3L、3H(80M属第三代RAID卡)
2、4L、4LX、4M、4MX、4H(U160属于第四代)
3、5I卡(第五代)
4、6I、6M(第六代)
5、7K、7T、7I(第七代)
6、8I(第八代)
(二)举例:
第四代RAID卡,4L、4LX、4M、4MX、4H在7600/X250服务器上更换方法。
备件1、4HFRU37L6892,母卡;子卡,FRU37L6902;
备件2、三个硬盘18GU16010K80PFRU19K1467在7600/X250服务器上安装,4H卡,SCSI线接第一个SCSI通道,即CHANNEL1(阵列卡上有标识),三个硬盘分别上在SCSI硬盘背板通道ID0、ID2、ID3上,开机后,第二屏会自检到4H卡和三个硬盘。
(三)如何判断4L4LX4H4M4MXRAID卡坏了:
1.服务器根本认不到RAID卡更换一个PCI槽也是一样的。
2.开机检测试RAID卡上有5个灯如果不是连续的闪跃过只有一个灯亮,或者5个灯全部常
亮RAID卡必然坏了。
3.开机可以检测到RAID卡,但是RAID卡报代码的错误,
按Ctrl+I可以进入RAID卡BIOS,作RestaretoFactoryDefanltSettings (恢复原
设置,即清除RAID卡上的阵列信息)后还是报代码错误也是必然的RAID坏。
4.RAID卡插到服务器上,服务器开机就没有显示了,拔掉RAID卡,服务器就有显示了,RAID
卡必然是坏的。
5.RAID卡配完RAID后,装系统死机(排除OEM的MEM光盘OEM硬盘的问题)也可以说明
RAID卡坏,不过这种情况不是很明显的,很少呢能碰到,我只遇到一次。
6.就是蓝快备件库里返修过的RAID卡,有时可以认到,有时不认,RAID卡有飞线的,实际上
也是坏的,要投诉蓝快的领导可以换到好的。
7.特别说明目前IBM的4MX卡(双通道的,RAID卡上有个散热片的),这种RAID卡,特别容
易坏,过3年保修期几乎是各个都坏。
这主要是IBM设计上问题。
相反4M4LX4H就很少坏。
8.一个重要的要点:
4MX卡在X250/X255/X235坏的特别的多,你仔细看这种服务器的PCI槽
都有红色的卡位4MX卡在蓝色的卡位反而坏的少。
下面是检测查看RAID卡上的情况:
(以及功能菜单选项的作用)
IBM服务器开机后第二屏显示:
当检测到RAID卡时:
IBMServeRAIDBIOS
XXXX19942001……….
BIOSVersion4.84(这是RAID卡的BIOS版本号)
Controlier1slot3Logicaldrivelfirnware4.84.01=ok
《pressctrl+Itoaccessthemini-configurationprogram
此时:
按Ctrl+I可以进入RAID卡BIOS
IBMServeRAIDMini—ConfigurationProgramver4.8401
Mainmemu
Viewcantrollerstatus(显示RAID卡及硬盘状态)
Viewconfiguration
Advancedfunctions(高级设置)
EXIT
进入ViewControllerstatus(选择这一项回车进入)
Statusforcontroller(4H卡)此时可以看到有4个通道通道1上有硬盘3个没有没RAID
CH1 CH2 CH3 CH4
Array Array…………………….
SID SID SID SID
0RED(没有作RAID状态)
1RED
2RED
3RED
7INI(SCSI卡上的通道ID)
8
9
15DRC(终结)
AdvancedFunctions(进入高级设置)
RestaretoFactoryDefanltSettings (恢复原设置,即清除RAID卡上的阵列信息)
Copytheconfigurationfromdrivestothecontrolle(从硬盘上拷贝阵列信息到RAID卡上)、这是更换RAID卡重要的步骤,这一步作好才可以恢复RAID卡与硬盘之间的阵列信息的链接,系统才可以启动。
ViewcontrollerandPCIinformatim(显示RAID卡的信息)
Controllerinformation
ControllerTypeServeRAID4H(可以看出是4H卡)
Partmumber06p5792
下面是配阵列的方法:
4.84Serverraid光盘启动后进入程序配置阵列
ManagedSystems
Localhost(LocalSystem)
Conroller1鼠标右键 HlintsandtipsRestroetofactory-defanltsetting
Arrays 鼠标右键 Copyconfigurationfromdrives
Logicaldrives deleteallarrays
Hot-sparedrives
Physicaldrives
Arrays(鼠标右键)
Hintsardtips
ConfigureRAID鼠标右键进行配置阵列,可作RAID1,RAID5+Hot-Spare
配完阵列后在SCSI上看到硬盘为ONLINE状态表示配好了,可以启动装系统
SCSIPhysicaldriveschannel1
IDO–online(17357MB)
ID2–online(17357MB)
ID3–online(17357MB)
ID15–online(17357MB)
SCSIchannel2
此时就表示IBM的RAID已经配好了可以安装系统了作RAID5呢后台继续作RAID的同步重新启动可以安装系统。
下面分几种情况更换RAID卡(4H卡坏,用相同的4H来更换)
也就是说相同的卡去换相同一样的卡这个工作难度不大。
(一)情况一:
(已经配好了RAID并且有重要的数据的前提下)
(1)只是RAID卡坏,硬盘没有坏,作为客户千万不能乱动硬盘,或将硬盘的ID顺序搞乱,不能更换硬盘的位置,否则死路一条。
(2)换RAID卡之前,要搞清楚原来RAID卡4H的BIOSVERSION版本号(一般是4.84或5.11或6.11)
(3)换上去的RAID卡4H(要和原来坏的RAID卡4HBIOS4.84的BIOS4.84要一致,否则启动系统只是蓝屏,Driver不对)。
(4)更换RAID4H卡时,要看清楚4H的SCSI线接在哪个通道上,要关闭所有电源下进行,同时,要注意灰尘,将PCI槽上或主板上的灰清除干净,否则会烧掉新装的RAID卡,或RAID卡短路,也可以换一个PCI槽上新的RAID卡,这没有什么影响的。
(5)作好一切准备工作后,将RAID卡4H装好,开电源,开机。
会看到如下信息:
(其中之一)
IBMServeRAIDBIOS
BIOSVersion:
4.84.0.1
Controller1slot3,DriveLogicaldrivelfirnware4.84.01=ok
会看到:
3个新硬盘被发现
按CTRL+I进入
Copytheconfigurationfromdrivestothecontroller(选择这项)
可以将硬盘之中的RAID信息写入RAID卡上,同步后,起动系统,OK
也可以用SERVERAID光盘4。
84启动,
选择copytheconfigurationfromdrivestheconeroller
(二)情况二:
(前提条件主板电源系统均好的)
4H卡也坏,有一个18G硬盘也坏,同时坏了两个与数据有关的关键性的配件。
这个硬盘如果是在RAID之中(CTRL+I可以看到DDD,不一定说明就是坏的,只能说是掉线,是否真正坏,可以SCSI线从RAID的通道上,接回到主板的SCSI口上,CTRL+A进入后,再扫描检测,如果红底白字则有坏道。
下面有两种情况:
(前提条件是先不要动那个确定坏的硬盘,先去更换4H阵列卡坏的那个硬盘也千万不要从服务器或EXP200EXP300中拔出来,因为硬上还有阵列信息的链接)
1.如果只是有一个硬盘坏RAID卡没坏情况如下:
2.如果重新更换4H卡,连好线后,情况如下:
IBMServeRAIDBIOS
Xxxx19942001xxxx
BIOSVersion:
4.84.0.1
WARNING1onlinedrivesdefunct(表示有一个硬盘不在线了,出问题了)
Controller1slot3logicalFirmware4.84.0.1=ok
Pressctrl+ItoaccesstheminiConfigurationPregram
还有一种情况:
如果4HRAID卡坏,重新更换4H卡,连好线后,情况如下:
IBMSERVERAIDBIOS
CopyrightIBMCorp19942001ALLBIOSVersion4.8401
Controller1Slot3,Logicaldrive=0,firmware=4.84.01status=fail
Drive(s)notrespondingorfoumdatnew1ocation(s)
Standbydevice(s)motrespondingorfoundatnewlocation(s)
PressF2betaiedinformation
F4Retrythecornmand
F5changethecorfigurationandsetthedrive(s)defunct
F10Continuewitboutchangingtheconfiguration
此时说明需要改变原来的RAID卡的信息。
但硬盘上的阵列信息还在。
按F5 XXXXXXXXXX
XXXXXXXX OK
Controller1slot3logicaldrivelfirmware4.84.01=ok
Pressctrl+Itoaccessthemini-configuratianpregram
以下两种方法从硬盘恢复阵列信息到4H阵列卡上:
(即原来的4H卡坏,用相同的4H卡来更换)
方法
(一)PRESSCTRL+I进入后
copytheconfigurationfromdrivestothecontrolles
方法
(二)4.84SERVERAID光盘启动
Controller1(notconfigured)鼠标右键Copytheconfigurationfromdrivestothecontroller(选择这项)
Physicaldrives
SCSIchannel1
IDO–Ready(17357MB)
ID2–Ready(17357MB)
ID3–Ready(17357MB)这是没有恢复阵列链接的硬盘状态看不出来有硬盘坏
鼠标右键Copytheconfigurationfromdrivestothecontroller后
会出现一个警告(不要害怕这是正常的提示:
)
Configurationsdonotmatch
Thebattery-backupcacheanserveRAIDController1Contains
Xxxxxxxxxxxxxxxxxxxxxxxxxxx
Xxxxxxxxxxxxxxxxxxxxxxxxxxxx
AttentionifyoulickAccept
Alldatastoredinthebattery-backupcachewillbelost
Accept cancel
选择ACCEPT
会出现
黄色号△localhost(localsystem)
△controller1
红色〇Arrays
logicaldriveshot-sparedrives
△physicaldrives
△scsichannel1
ID0-online(17357M)
ID2-online(17357M)
ID3-defunt(17357M)这时可以看到有个硬盘坏或掉线
看到这些成功后,将ID3坏的硬盘轻轻取出,再将好的18G硬盘安装到原来的ID3位置上(ID3硬盘是灯常亮的那个硬盘,不要搞错了),错一步都会死掉的,在换4H卡之前千万不要先将坏(灯常亮)硬盘先拔出来,一定要保持硬盘的原始状态,这是成功的关键所在,很多工程师不清楚RAID卡与作了RAID的硬盘之间是有链接存在,这个链接被你无意中破坏了,是无回天之术的。
同时要注意坏的硬盘要和换上的好的硬盘尽量一至。
最好要用IBM原装的希捷盘体的SCSI硬盘。
关于硬盘的问题见技术文件:
关于硬盘方面的技术问题。
最后将坏的18G拔出将好的18G硬盘插入,会出现
SCSIchannel1
ID0online1
ID2online1
ID3Rebuilding重建
07%Rebuidinglogic
正在同步重建,千万不要关机或重启或这时停电等意外发生
此时你再看,硬盘灯的状态
ID0亮灯具不闪烁
ID2亮灯具不闪烁
ID3有一个灯亮,另一个灯闪烁,表示正在恢复数据
到此,可以说基本成功,这也是维修IBM服务器最危险也是最难作的,不象换主板、电源、CPU,内存等那么简单,只要按原样装回去就行了,能用了,有RAID卡的问题,必须要头脑清晰,作这个工作时身为工程师千万不要去接电话,否则思路会被打乱,我在作RAID时,是从不去接听任何一位朋友的电话的,包括上级领导。
Rebuilding重建完成后ID3上的硬盘会变为online(17357M)状态
说明硬盘也更换成功
重新启动后
IBMServeRAIDBIOS
CopyrightIBM1994
BIOSVersion4.84.01
Controllerslot3:
Thesystemhasanerrorduetooneormore
MoreBlockellogicaldrives
PressF4tocorrecttheproblem
PressF5continueonwithnochange
F5后
IBMServeRAIDBIOS4.84
Controllerslot3logicaldirve1firmware4.84.01=OK
PressCTRL+I
重新启动按F4就OK
作完这些表示你成功的更换4H卡和硬盘数据保持完好,可以去喝茶了,并且叫客户请客吃饭,在这方面我从不客气。
下面是不同种类的RAID卡之间的替换方法:
也就是不同的RAID卡之间的替换:
即4MX卡坏换成4M或者4MX卡坏换成4H;4MX卡坏换成4LX
都是可以的,我的方法可以保证系统不变客户的数据等也不变可以不用从新安装系统。
客户是否相信你能作成是个关键问题。
一般都不要盲目给客户报价,先讲解技术上的问题在作报价这里面有很多学习的地方。
举例一:
4MX卡换成4H卡(没有实际经验的工程师不要玩这个)
4MX卡坏了那么要有一个好的4MX卡和一个好的4H卡作备件。
前提条件:
4MXBIOS4.84与4HBIOD6.11不同(最好两个卡BIOS是一样的)
准备备件之一好的4MX卡BIOS必须是4.84
有前面的4MX卡坏了无法知道坏掉的4MX卡的BIOS版本只能凭借工程师的个人经验来判断RAID4MX原来的RAID的BIOS的版本了一般是4.845.11或6.11
前面讲过4H坏了成功的更换了另一个4H卡BIOS也一样是4.84
下面是用4H卡在去替换4MX卡。
(测试条件是7600/X250服务器)
前提:
作更换RAID之前最好检测一次硬盘是否好的,有时有个别硬盘坏导致所有的硬盘都认不到,这种情况是硬盘短路造成背板短路,只要拔掉坏的硬盘,其他硬盘就可以认到了。
检测方法是把SCSI线接到主板的SCSI口上,去在SCSI卡上CAIL+A就可以测试硬盘好坏了,注意一点不要格式化硬盘。
硬盘不要全部拔出来更换位置,特别注意这一点。
硬盘更换位置,会搞丢RAID的阵列信息。
从而导致数据的丢失。
第一步:
要先用好的4MX卡去替换原来坏的4MX卡。
更换4MX卡后有时会出现:
Controller1slot3,logicalclrive=1,otber=0Firmware=6.10.70,status=Fail
Drive(s)notrespondingorfoundatnewocation(s)
Standbydevice(s)notrespondingorfoundatnewloccttion(s)
PressF2Detailedirformation
F4Retrythecommand
F5Changetheconfigurationandsetdrive(s)defunct
F10Continnewithoutchangingtheconfiguration
可以选择F5
Ctrl+I进入RAID卡的设置选择
copytheconfigurationfromdrivestothecontrolles
这一步是将硬盘的RAID信息写入RAID卡上。
同步后,起动系统,OK
也可以用SERVERAID光盘4.84/6.11启动,
选择copytheconfigurationfromdrivestheconeroller
这时状态为
SCSIchannel1
IDO–Ready(17357MB)
ID2–Ready(17357MB)
ID3–Ready(17357MB)
变为
SCSIchannel1
ID0–online(17357MB)
ID2–online(17357MB)
ID3–online(17357MB)
再看服务器nf7600/x250的硬盘的灯会不断的闪跃,表示阵列中的硬盘在作同步。
。
。
作完这一步从新启动服务器如果启动系统后系统是篮屏说明RAID卡的BIOS的版本和原来的不一样。
可以升级RAID卡BIOS,后在启动系统。
进入系统后,系统设置改变
windows2000完成安装新设备,必须重新启动,计算机才能使新的设置生效;想现在就重新启动计算机吗?
是Y
特别说明:
这个时候系统起来了可以叫客户先备份数据,你在作下面的更换4H卡的工作。
有的客户对你后面换成4H是否成功会表示怀疑?
如果你不是非常有实际经验的专职有的客户更本就不相信你的。
从新启动服务器,关机,将4H卡加入的服务器上
RAID卡的上法和相对的位置,这一点很重要。
这里要上的4H卡离CPU的PCI的槽位要比4MX卡原位置要远一些,即4MX离CPU近,4H离CPU远..并且两个卡要同时上的7600/X250服务器的PCI上在开机。
这是开机就可以检测到两个RAID卡了即4MX和4H
IBMServeRAIDBIOS
Controller1slot3,logicalclrive=1,otber=0Firmware=4.84.01,Statns=OK
Controller1slot3,logicalclrive=1,otber=0Firmware=6.10.70,status=Fail
Drive(s)notrespondingorfoundatnewocation(s)
Standbydevice(s)notrespondingorfoundatnewloccttion(s)
PressF2Detailedirformation
F4Retrythecommand
F5Changetheconfigurationandsetdrive(s)defunct
F10Continnewithoutchangingtheconfiguration
F5Ctrl+I可以看到如下信息:
IBMServeRAIDMini-configurationProgram
Slectcontrollernumbertodisplay
ServeRAIDcontroller1
ServeRAIDcontroller2
Exit
进入系统后
欢迎使用找到新硬件向导
下一步
安装硬件设备驱动程序
该向导将完成这个设备的安装
RAID控制器
搜寻适于我的设备驱动
RAID----------------------
可选的搜索位置软盘驱动器CD-ROM指定一个位置,插入6.11软盘驱动)
下一步
无法安装,不用管这,继续下一步
完成找到新硬件
IBMServeRAID4HController
完成
鼠标右键点我的电脑,再点设备管理器,SCSI和RAID控制器
A