RS6000系统日常管理培训.ppt
《RS6000系统日常管理培训.ppt》由会员分享,可在线阅读,更多相关《RS6000系统日常管理培训.ppt(67页珍藏版)》请在冰点文库上搜索。
![RS6000系统日常管理培训.ppt](https://file1.bingdoc.com/fileroot1/2023-5/3/91d0e200-e544-47f5-8853-17214fbf0c34/91d0e200-e544-47f5-8853-17214fbf0c341.gif)
IBMCQserviceTeamDiaokunhuaMail:
Tel:
13594328895,内容提要,系统健康检查常用操作故障的处理IBM服务热线,系统健康检查,系统健康检查,机房环境检查电源线的母头是否为左零右火电压值是否为220V零地电压是否小于1V温度(摄氏)1823湿度(%)8%80%查看硬件情况检查设备故障灯,一般为橙色并有标志。
有没有异常声响,如硬盘、风扇等。
有没有破损的电缆等,系统健康检查,检查文件系统查看有没有“满”的文件系统。
文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。
如/(根文件系统)满则会导致用户不能登录。
#df-k(查看AIX的基本文件系统)Filesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd424576145295%259922%/dev/hd26144002806896%2296715%/usr/dev/hd9var8192454045%64932%/var/dev/hd31679361579686%891%/tmp/dev/hd116384533268%140235%/home,系统健康检查,除/usr文件系统,其他文件系统都不应太满,一般不超过80%。
处理方法1:
找出(删除)垃圾文件#du-sk*|sortrn|head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。
(要区分哪些目录是文件系统的mountpoint,哪些是文件系统的子目录)删除文件,释放空间。
有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。
只有当这个程序停止后空间才释放,有时甚至需要重起系统。
系统健康检查,处理方法2:
增加文件系统大小#smittychjfs文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。
检查文件系统的完整性#umountfilesystem_name#fsckfilesystem_name#fsck-yfilesystem_name注意:
文件系统必须先umount,再做检查和修复,否则可导致未知的后果。
系统健康检查,查看卷组信息lsvg-lvg_name有没有stale状态的逻辑卷。
用syncvg命令修复。
#smittysyncvg,LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot122closed/syncdN/Ahd6paging48962open/syncdN/Apaging00paging32642open/syncdN/Ahd8jfslog122open/syncdN/Ahd4jfs122open/syncd/hd2jfs32642open/syncd/usrhd9varjfs5102open/syncd/varhd3jfs482open/syncd/tmphd1jfs122open/syncd/home,系统健康检查,检查内存交换区(pagingspace)使用率#lsps-s使用率不要超过70%。
增加交换区,或增加内存。
观察内存大小的命令:
lsattrElmem0,#lsps-sTotalPagingSpacePercentUsed2048MB15%#lspsaPageSpacePhysicalVolumeVolumeGroupSize%UsedActiveAutoTypehd6hdisk0rootvg2048MB15yesyeslv,系统健康检查,网络检查netstat-i查看网卡状态pinghost_name/IPAddress查看是否通和是否有丢包。
路由表#netstat-rn查看路由表是否正确,ping各路由器是否通。
核对主机名#hostname,系统健康检查,#ifconfig-a,en0:
flags=4e080863inet172.40.10.31netmask0xffff0000broadcast172.40.255.255lo0:
flags=e08084binet127.0.0.1netmask0xff000000broadcast127.255.255.255inet6:
1/0,#ifconfig用法ifconfigen0inet11.0.0.1upifconfigen0ns110:
02.60.8c.2c.a4.98up(还有很多),系统健康检查,检查dump设置#sysdumpdevlprimary/dev/hd6secondary/dev/sysdumpnullcopydirectory/var/adm/rasforcedcopyflagTRUEalwaysallowdumpFALSEdumpcompressionOFF若不正确请用下列命令修改:
#sysdumdevPp/dev/hd6s/dev/sysdumpnullORsmittydumpdev,系统健康检查,系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt命令的使用(普通用户权限也可使用),系统健康检查,系统健康检查,系统健康检查,系统健康检查,磁带机磁带机应定期清洁,每使用30小时(8mm20GB为72小时)或至少每月清洁一次,不要等故障灯亮起后再清洁。
不同类型的带机用要不同的清洗带,不要混用。
用/usr/lpp/diagnostics/bin/utape-c-drmt0-n可查看磁带机使用时数。
4mmDDS3磁带机可读写DDS2,但对DDS1只能读。
8mm20GB磁带机只能读5GB和7GB磁带,而且在读过低密度磁带后需要清洗,所以最好不要使用低密度磁带。
需要清洗时液晶板上有提示信息。
系统健康检查,磁盘阵列状态检查(ssadisk)如果在errlog或mail中发现了ssa的报错,则进入smittyssaraid详细观察,系统健康检查,ListingAllDefinedSSARAIDArraysCOMMANDSTATUSCommand:
OKstdout:
yesstderr:
noBeforecommandcompletion,additionalinstructionsmayappearbelow.hdisk3095231779F0737Kgood3.4GRAID-5arrayhdisk409523173A02137Kgood3.4GRAID-5arrayF1=HelpF2=RefreshF3=CancelF6=CommandF8=ImageF9=ShellF10=Exit/=Findn=FindNext,系统健康检查,ListingorIdentifyingSSAPhysicalDiskDrives,系统健康检查,ssa在errlog中的报错形式OpenLink;不一定是故障ResourceUnavailable;Pdiskerror;Others.pdisk的状态Good,FailedFree,System,ArrayCandidate,Hotspare,Rejectedssaraid的状态Good,Exposed,Degraded,Rebuilding,Offline,常用操作,常用操作-系统备份,系统备份除每日进行正常的用户数据备份外,建议定期进行系统备份。
备份前先停止业务系统软件和HACMP软件的运行。
其他无关的用户退出,停止无关的操作。
系统备份只备份ROOTVG,除系统基本的5个文件系统外,其他ROOTVG上已mount上的文件系统也会被备份。
每当系统作变更(安装新软件、补丁程序等)前后,都需要做系统备份。
常用操作-系统备份,BackUptheSystemTypeorselectvaluesinentryfields.PressEnterAFTERmakingalldesiredchanges.TOPEntryFieldsWARNING:
Executionofthemksysbcommandwillresultinthelossofallmaterialpreviouslystoredontheselectedoutputmedium.Thiscommandbacksuponlyrootvgvolumegroup.*BackupDEVICEorFILE/dev/rmt0+/CreateMAPfiles?
no+EXCLUDEfiles?
no+Listfilesastheyarebackedup?
no+Generatenew/image.datafile?
yes+EXPAND/tmpifneeded?
yes+Disablesoftwarepackingofbackup?
no+MORE.2F1=HelpF2=RefreshF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=EditEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=Do,常用操作-系统备份,检查系统备份带是否有效用备份带启动机器,但不要进行安装,我们只是验证系统备份带是否能用于启动。
出现以下菜单后,关机即可。
WelcometoBaseOperatingSystemInstallationandMaintenanceTypethenumberofyourchoiceandpressEnter.1StartInstallationNowwithDefaultSettings2Change/ShowInstallationSettingsandInstall3StartMaintenanceModeforSystemRecovery88Help?
99PreviousMenu,常用操作-系统备份,#smittylsmksysb;检查系统备份带的内容。
系统备份不是万能的。
备份最好有两份。
用户数据备份文件系统可用tar命令,切记不要使用绝对路径。
数据库可用数据库的备份方式备。
逻辑卷(LV)可用dd命令smittysavevg用户卷组备份只备份mount起的文件系统。
注意:
不备份逻辑卷(裸设备)。
常用操作-系统备份,磁带机卡带子时可尝试RESET磁带机。
按住磁带机的弹出按钮1530秒,直到磁带机液晶面板显示RESET。
磁带RESET后磁带应能弹出。
(此方法仅适用于8mm20GB磁带机)#diag-cdrmt0#tctl-f/dev/rmt0reset如果上述方法均不奏效,则只有重起机器。
常用操作-镜像,镜像(rootvg)lspv,lsvglrootvg,lsvgrootvg,lsvgprootvg,lslvmlv_name,lsvgMrootvgextendvgfrootvghdisk1chvgayQnrootvgmirrorvgSrootvghdisk0hdisk1bosbootal/dev/hd5d/dev/hdisk1bootlistmnormalhdisk0hdisk1syncvgvrootvg,常用操作-镜像,拆镜像(rootvg)lsvgMrootvg;检查有效的pv,确认hdisk1坏unmirrorvgrootvghdisk1bosbootad/dev/hdisk0bootlistmnormalhdisk0cd0mkbootcd/dev/hdisk1sysdumpdevl;检查dump所在的lv(缺省hd6)sysdumpdevPp/dev/hd6;reducevgrootvghdisk1rmdevdlhdisk1shutdown-Fr,常用操作-HACMP的操作,HACMP的操作启动:
smittyclstart停止:
smittyclstop启动/停止过程可以查看/tmp/hacmp.out文件:
#tailf/tmp/hacmp.out检查Cluster是否运行正常Cluster进程是否运行:
#lssrcgcluster,至少两个进程,且为active。
IP地址是否获取:
#netstati,看bootIP是否变为serviceip。
VG是否varyon:
#lsvgo文件系统是否mount:
#df-k应用进程是否启动:
#psef|grepapp_name,常用操作-HACMP的操作,HACMP相关日志/usr/adm/cluster.log;以事件为单位的纪录/tmp/hacmp.out;hacmpv5.4log:
/var/hacmp/log/hacmp.out详细记录/usr/sbin/cluster/history/cluster.mmdd;历史纪录,常用操作-dump设置,dump的有关设置估算系统dump的大小,在系统最繁忙时(内存使用最多)#sysdumpdev-e0453-041Estimateddumpsizeinbytes:
53477376#lsps-aPageSpacePhysicalVolumeVolumeGroupSize%UsedActivepaging00hdisk0rootvg480MB1yeshd6hdisk1rootvg544MB1yes当前的设置#sysdumpdev-lprimary/dev/hd6-dump的主设备secondary/dev/sysdumpnullcopydirectory/var/adm/ras-dump拷贝的目录forcedcopyflagTRUEalwaysallowdumpTRUEhd6应比估算值稍大。
常用操作-dump设置,/var/adm/ras是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件。
否则机器重起时会提示用户插入磁带。
建立一个新的dump设备#smittylv例如:
lv_name=dump_lv,type=sysdump#sysdumpdevPp/dev/dump_lv,常用操作-磁带机和光驱,共享磁带机和光驱的操作Aix系统上的操作命令:
#lsdev-Clrmt0-Fparent-scsi1#lsdev-Clscsi1-Fparent-sisscsia0#lsdev-Clsisscsia0-Fparent-pci5#rmdev-lpci5-d-R-okHMC需要手工迁移设备:
常用操作-HMC控制台的管理,登录的用户名和密码username:
hscrootpassword:
abc123HMC简要功能:
终端使用查看报错信息划分LPAR升级主机微码在线更换备件,故障处理,故障处理-故障的定义,弄清楚系统发生了什么问题系统现在能做什么?
不能做什么?
故障什么时候发生的?
有没有做平时不同的操作?
故障有没有规律?
定时还是不定时?
发生的频率有多高?
是一台机器出现故障还是多台机器故障?
故障现象是否相同?
最近有没有做改动?
如安装了新的硬件、软件,改变了系统的一些设置(如HACMP配置)等。
故障处理-故障信息的收集,收集故障信息对于判断、诊断故障原因,修复系统非常重要。
系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt命令的使用(普通用户权限也可使用),故障处理-故障信息的收集,控制面板上的LED代码8位代码,通常系统故障灯会同时亮起。
某些机型还会同时显示故障设备位置代码。
(注:
S85正常启动过程中有合法的8位代码。
)4位代码,通常是Exxx。
3位代码,通常为0yyy,只看后3位。
8位和4位代码可查看系统服务手册(ServiceGuide)。
3位代码可查看系统诊断手册(DiagnosticInformationforMultipleBusSystem)。
故障处理-故障信息的收集,控制面板上的LED代码查看DiagnosticInformationforMultipleBusSystems手册,故障处理-故障信息的收集,控制面板上的LED代码(续)闪动的888,系统崩溃,硬件或软件原因造成。
按reset键会显示更多内容。
888-102一般为软件故障(888-102-207例外)系统会产生一个dump。
888-102-xxx-0C9系统正在做dump,请等待。
888-102-xxx-0C0系统dump完成,可关电重启。
888-103或105硬件故障,一般有SRN代码及位置代码。
故障处理-故障信息的收集,SMS(SystemManagementService)故障记录如何进入SMS菜单当主控台出现键盘图标后(LED显示E1F1时)按F1键。
字符终端按1键。
(X80机型则无论是字符主控还是图形主空台,一律按键盘左上角的1键)选择Utilities“,选择ErrorLog,抄下8位故障代码在SMS中还可以更改系统启动顺序表#mail系统会向root用户发mail报告出错信息。
通常系统出现故障后没有进行检查修复,系统会定时提醒root,故障处理-故障信息的收集,其他用于收集系统信息的命令lsdev-C系统设备信息#lsdev-Ccdiskhdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrivehdisk1Available00-06-00-1,04.5GB16BitSCSIDiskDrivehdisk2Defined00-06-00-4,016BitSCSIDiskDrivelspv查看物理卷信息#lspvhdisk00007821160af3d76rootvghdisk1000782117f571294rootvghdisk20000000045c45bdedatavglsvg查看卷组信息,故障处理-故障信息的收集,故障处理-故障信息的收集,故障处理-故障信息的收集,故障处理-系统不能启动,系统不能正常启动可能由多种原因引起,硬件或软件。
观察系统的启动过程。
设备的故障灯是否亮起。
异常的声音,如硬盘的怪声。
注意LED上显示的代码,这是故障分析最重要的信息。
主控台上最后显示的信息也很重要,必须记录下来。
alog-ot系统的启动顺序,故障处理-系统不能启动,故障处理-系统不能启动,系统停在Stage1,可能为电源、系统板、CPU、内存等硬件故障。
记录故障代码通知IBM工程师。
系统停在Stage2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。
可尝试进入SMS菜单检查启动顺序表,并修改。
若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。
若根本没有SCSI设备可选则链路有问题。
系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。
故障处理-系统停在551,555或557,发生在系统启动的第三阶段(Stage3),可能是:
文件系统损坏文件系统日志(jfslog)损坏rootvg中有坏硬盘修复方法用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)启动后选择选项3StartMaintenanceModeforSystemRecoveryAccessaRootVolumeGroupAccessthisvolumegroupandstartashellbeforemountingthefilesystems,故障处理-系统停在551,555或557,格式化文件系统日志(jfslog)#/usr/sbin/logform/dev/hd8检查修复文件系统#fsck-y/dev/hd1(/home文件系统)#fsck-y/dev/hd2(/usr文件系统)#fsck-y/dev/hd3(/tmp文件系统)#fsck-y/dev/hd4(/文件系统)#fsck-y/dev/hd9var(/var文件系统).用exit命令退出,文件系统会自动mount起来。
重建bootimage#lslv-mhd5找出bootimage所在的硬盘,如hdisk0#bosboot-ad/dev/hdisk0#bootlist-mnormal/dev/hdisk0重建启动顺序表。
故障处理-系统停在551,555或557,重启动系统#shutdown-Fr如上述步骤不奏效用系统备份带恢复系统。
如备份带不能恢复,用诊断光盘(DiagnosticCDROM)检查是否坏硬盘。
通知IBM工程师。
故障处理-主控台不能登录,字符终端有时会出现不能登录的情形,可先尝试关掉终端,重开。
如果不行则可能是getty进程运行不正常。
远程telnet登录检查getty进程是否运行正常#ps-ef|grepconsoleroot2917010Jul24lft00:
00/usr/sbin/getty/dev/console如getty正常,查看主控台端口是否正确#lscons查看主控台设备/dev/tty0#lsdev-C-ltty0查看端口是否可用,连线是否正确tty0Available01-S1-00-00AsynchronousTerminal#lsattr-Eltty0看端口参数是否正确,如波特率,故障处理-主控台不能登录,如getty没有运行在主控台上,检查/etc/inittab文件有否cons:
0123456789:
respawn:
/etc/getty/dev/console更正后运行initQ命令激活主控端口。
如getty确实在运行,则可能是终端的硬件问题。
故障处理-CDE图形界面挂死,CDE运行时不要更改网络参数(如:
主机名和IP地址)更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。
如CDE已经挂死远程telnet登录找出所有dt有关的进程用kill命令杀掉#ps-ef|grepdt.#killPID检查当前主机名#hostnameuname-atscf50,故障处理-CDE图形界面挂死,查看主机名是否对应有效的IP地址#netstat-i|greptscf50tr0*15009.185.40tscf5050604902824700更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。
#smittytcpip重新启动CDE界面#/etc/rc.dt,故障处理-系统dump,发生在系统崩溃时,AIX会做dump(系统内存的快照)。
此时机器会显示闪动的888102xxx0cx代码:
0c9系统dump进行中。
0c9状态可能会维持超过2分钟,不要关电和按reset,等待dump做完。
0c0dump成功完成,这时可以断电重起。
0c2手动启动dump功能0c4dump设备空间不足,只有部分信息保存下来0c5不明原因导致dump失败mostlyhdisk