RS6000系统日常管理培训.ppt

上传人:wj 文档编号:8430461 上传时间:2023-05-13 格式:PPT 页数:67 大小:702KB
下载 相关 举报
RS6000系统日常管理培训.ppt_第1页
第1页 / 共67页
RS6000系统日常管理培训.ppt_第2页
第2页 / 共67页
RS6000系统日常管理培训.ppt_第3页
第3页 / 共67页
RS6000系统日常管理培训.ppt_第4页
第4页 / 共67页
RS6000系统日常管理培训.ppt_第5页
第5页 / 共67页
RS6000系统日常管理培训.ppt_第6页
第6页 / 共67页
RS6000系统日常管理培训.ppt_第7页
第7页 / 共67页
RS6000系统日常管理培训.ppt_第8页
第8页 / 共67页
RS6000系统日常管理培训.ppt_第9页
第9页 / 共67页
RS6000系统日常管理培训.ppt_第10页
第10页 / 共67页
RS6000系统日常管理培训.ppt_第11页
第11页 / 共67页
RS6000系统日常管理培训.ppt_第12页
第12页 / 共67页
RS6000系统日常管理培训.ppt_第13页
第13页 / 共67页
RS6000系统日常管理培训.ppt_第14页
第14页 / 共67页
RS6000系统日常管理培训.ppt_第15页
第15页 / 共67页
RS6000系统日常管理培训.ppt_第16页
第16页 / 共67页
RS6000系统日常管理培训.ppt_第17页
第17页 / 共67页
RS6000系统日常管理培训.ppt_第18页
第18页 / 共67页
RS6000系统日常管理培训.ppt_第19页
第19页 / 共67页
RS6000系统日常管理培训.ppt_第20页
第20页 / 共67页
亲,该文档总共67页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

RS6000系统日常管理培训.ppt

《RS6000系统日常管理培训.ppt》由会员分享,可在线阅读,更多相关《RS6000系统日常管理培训.ppt(67页珍藏版)》请在冰点文库上搜索。

RS6000系统日常管理培训.ppt

IBMCQserviceTeamDiaokunhuaMail:

Tel:

13594328895,内容提要,系统健康检查常用操作故障的处理IBM服务热线,系统健康检查,系统健康检查,机房环境检查电源线的母头是否为左零右火电压值是否为220V零地电压是否小于1V温度(摄氏)1823湿度(%)8%80%查看硬件情况检查设备故障灯,一般为橙色并有标志。

有没有异常声响,如硬盘、风扇等。

有没有破损的电缆等,系统健康检查,检查文件系统查看有没有“满”的文件系统。

文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。

如/(根文件系统)满则会导致用户不能登录。

#df-k(查看AIX的基本文件系统)Filesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd424576145295%259922%/dev/hd26144002806896%2296715%/usr/dev/hd9var8192454045%64932%/var/dev/hd31679361579686%891%/tmp/dev/hd116384533268%140235%/home,系统健康检查,除/usr文件系统,其他文件系统都不应太满,一般不超过80%。

处理方法1:

找出(删除)垃圾文件#du-sk*|sortrn|head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。

(要区分哪些目录是文件系统的mountpoint,哪些是文件系统的子目录)删除文件,释放空间。

有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。

只有当这个程序停止后空间才释放,有时甚至需要重起系统。

系统健康检查,处理方法2:

增加文件系统大小#smittychjfs文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。

检查文件系统的完整性#umountfilesystem_name#fsckfilesystem_name#fsck-yfilesystem_name注意:

文件系统必须先umount,再做检查和修复,否则可导致未知的后果。

系统健康检查,查看卷组信息lsvg-lvg_name有没有stale状态的逻辑卷。

用syncvg命令修复。

#smittysyncvg,LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot122closed/syncdN/Ahd6paging48962open/syncdN/Apaging00paging32642open/syncdN/Ahd8jfslog122open/syncdN/Ahd4jfs122open/syncd/hd2jfs32642open/syncd/usrhd9varjfs5102open/syncd/varhd3jfs482open/syncd/tmphd1jfs122open/syncd/home,系统健康检查,检查内存交换区(pagingspace)使用率#lsps-s使用率不要超过70%。

增加交换区,或增加内存。

观察内存大小的命令:

lsattrElmem0,#lsps-sTotalPagingSpacePercentUsed2048MB15%#lspsaPageSpacePhysicalVolumeVolumeGroupSize%UsedActiveAutoTypehd6hdisk0rootvg2048MB15yesyeslv,系统健康检查,网络检查netstat-i查看网卡状态pinghost_name/IPAddress查看是否通和是否有丢包。

路由表#netstat-rn查看路由表是否正确,ping各路由器是否通。

核对主机名#hostname,系统健康检查,#ifconfig-a,en0:

flags=4e080863inet172.40.10.31netmask0xffff0000broadcast172.40.255.255lo0:

flags=e08084binet127.0.0.1netmask0xff000000broadcast127.255.255.255inet6:

1/0,#ifconfig用法ifconfigen0inet11.0.0.1upifconfigen0ns110:

02.60.8c.2c.a4.98up(还有很多),系统健康检查,检查dump设置#sysdumpdevlprimary/dev/hd6secondary/dev/sysdumpnullcopydirectory/var/adm/rasforcedcopyflagTRUEalwaysallowdumpFALSEdumpcompressionOFF若不正确请用下列命令修改:

#sysdumdevPp/dev/hd6s/dev/sysdumpnullORsmittydumpdev,系统健康检查,系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt命令的使用(普通用户权限也可使用),系统健康检查,系统健康检查,系统健康检查,系统健康检查,磁带机磁带机应定期清洁,每使用30小时(8mm20GB为72小时)或至少每月清洁一次,不要等故障灯亮起后再清洁。

不同类型的带机用要不同的清洗带,不要混用。

用/usr/lpp/diagnostics/bin/utape-c-drmt0-n可查看磁带机使用时数。

4mmDDS3磁带机可读写DDS2,但对DDS1只能读。

8mm20GB磁带机只能读5GB和7GB磁带,而且在读过低密度磁带后需要清洗,所以最好不要使用低密度磁带。

需要清洗时液晶板上有提示信息。

系统健康检查,磁盘阵列状态检查(ssadisk)如果在errlog或mail中发现了ssa的报错,则进入smittyssaraid详细观察,系统健康检查,ListingAllDefinedSSARAIDArraysCOMMANDSTATUSCommand:

OKstdout:

yesstderr:

noBeforecommandcompletion,additionalinstructionsmayappearbelow.hdisk3095231779F0737Kgood3.4GRAID-5arrayhdisk409523173A02137Kgood3.4GRAID-5arrayF1=HelpF2=RefreshF3=CancelF6=CommandF8=ImageF9=ShellF10=Exit/=Findn=FindNext,系统健康检查,ListingorIdentifyingSSAPhysicalDiskDrives,系统健康检查,ssa在errlog中的报错形式OpenLink;不一定是故障ResourceUnavailable;Pdiskerror;Others.pdisk的状态Good,FailedFree,System,ArrayCandidate,Hotspare,Rejectedssaraid的状态Good,Exposed,Degraded,Rebuilding,Offline,常用操作,常用操作-系统备份,系统备份除每日进行正常的用户数据备份外,建议定期进行系统备份。

备份前先停止业务系统软件和HACMP软件的运行。

其他无关的用户退出,停止无关的操作。

系统备份只备份ROOTVG,除系统基本的5个文件系统外,其他ROOTVG上已mount上的文件系统也会被备份。

每当系统作变更(安装新软件、补丁程序等)前后,都需要做系统备份。

常用操作-系统备份,BackUptheSystemTypeorselectvaluesinentryfields.PressEnterAFTERmakingalldesiredchanges.TOPEntryFieldsWARNING:

Executionofthemksysbcommandwillresultinthelossofallmaterialpreviouslystoredontheselectedoutputmedium.Thiscommandbacksuponlyrootvgvolumegroup.*BackupDEVICEorFILE/dev/rmt0+/CreateMAPfiles?

no+EXCLUDEfiles?

no+Listfilesastheyarebackedup?

no+Generatenew/image.datafile?

yes+EXPAND/tmpifneeded?

yes+Disablesoftwarepackingofbackup?

no+MORE.2F1=HelpF2=RefreshF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=EditEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=Do,常用操作-系统备份,检查系统备份带是否有效用备份带启动机器,但不要进行安装,我们只是验证系统备份带是否能用于启动。

出现以下菜单后,关机即可。

WelcometoBaseOperatingSystemInstallationandMaintenanceTypethenumberofyourchoiceandpressEnter.1StartInstallationNowwithDefaultSettings2Change/ShowInstallationSettingsandInstall3StartMaintenanceModeforSystemRecovery88Help?

99PreviousMenu,常用操作-系统备份,#smittylsmksysb;检查系统备份带的内容。

系统备份不是万能的。

备份最好有两份。

用户数据备份文件系统可用tar命令,切记不要使用绝对路径。

数据库可用数据库的备份方式备。

逻辑卷(LV)可用dd命令smittysavevg用户卷组备份只备份mount起的文件系统。

注意:

不备份逻辑卷(裸设备)。

常用操作-系统备份,磁带机卡带子时可尝试RESET磁带机。

按住磁带机的弹出按钮1530秒,直到磁带机液晶面板显示RESET。

磁带RESET后磁带应能弹出。

(此方法仅适用于8mm20GB磁带机)#diag-cdrmt0#tctl-f/dev/rmt0reset如果上述方法均不奏效,则只有重起机器。

常用操作-镜像,镜像(rootvg)lspv,lsvglrootvg,lsvgrootvg,lsvgprootvg,lslvmlv_name,lsvgMrootvgextendvgfrootvghdisk1chvgayQnrootvgmirrorvgSrootvghdisk0hdisk1bosbootal/dev/hd5d/dev/hdisk1bootlistmnormalhdisk0hdisk1syncvgvrootvg,常用操作-镜像,拆镜像(rootvg)lsvgMrootvg;检查有效的pv,确认hdisk1坏unmirrorvgrootvghdisk1bosbootad/dev/hdisk0bootlistmnormalhdisk0cd0mkbootcd/dev/hdisk1sysdumpdevl;检查dump所在的lv(缺省hd6)sysdumpdevPp/dev/hd6;reducevgrootvghdisk1rmdevdlhdisk1shutdown-Fr,常用操作-HACMP的操作,HACMP的操作启动:

smittyclstart停止:

smittyclstop启动/停止过程可以查看/tmp/hacmp.out文件:

#tailf/tmp/hacmp.out检查Cluster是否运行正常Cluster进程是否运行:

#lssrcgcluster,至少两个进程,且为active。

IP地址是否获取:

#netstati,看bootIP是否变为serviceip。

VG是否varyon:

#lsvgo文件系统是否mount:

#df-k应用进程是否启动:

#psef|grepapp_name,常用操作-HACMP的操作,HACMP相关日志/usr/adm/cluster.log;以事件为单位的纪录/tmp/hacmp.out;hacmpv5.4log:

/var/hacmp/log/hacmp.out详细记录/usr/sbin/cluster/history/cluster.mmdd;历史纪录,常用操作-dump设置,dump的有关设置估算系统dump的大小,在系统最繁忙时(内存使用最多)#sysdumpdev-e0453-041Estimateddumpsizeinbytes:

53477376#lsps-aPageSpacePhysicalVolumeVolumeGroupSize%UsedActivepaging00hdisk0rootvg480MB1yeshd6hdisk1rootvg544MB1yes当前的设置#sysdumpdev-lprimary/dev/hd6-dump的主设备secondary/dev/sysdumpnullcopydirectory/var/adm/ras-dump拷贝的目录forcedcopyflagTRUEalwaysallowdumpTRUEhd6应比估算值稍大。

常用操作-dump设置,/var/adm/ras是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件。

否则机器重起时会提示用户插入磁带。

建立一个新的dump设备#smittylv例如:

lv_name=dump_lv,type=sysdump#sysdumpdevPp/dev/dump_lv,常用操作-磁带机和光驱,共享磁带机和光驱的操作Aix系统上的操作命令:

#lsdev-Clrmt0-Fparent-scsi1#lsdev-Clscsi1-Fparent-sisscsia0#lsdev-Clsisscsia0-Fparent-pci5#rmdev-lpci5-d-R-okHMC需要手工迁移设备:

常用操作-HMC控制台的管理,登录的用户名和密码username:

hscrootpassword:

abc123HMC简要功能:

终端使用查看报错信息划分LPAR升级主机微码在线更换备件,故障处理,故障处理-故障的定义,弄清楚系统发生了什么问题系统现在能做什么?

不能做什么?

故障什么时候发生的?

有没有做平时不同的操作?

故障有没有规律?

定时还是不定时?

发生的频率有多高?

是一台机器出现故障还是多台机器故障?

故障现象是否相同?

最近有没有做改动?

如安装了新的硬件、软件,改变了系统的一些设置(如HACMP配置)等。

故障处理-故障信息的收集,收集故障信息对于判断、诊断故障原因,修复系统非常重要。

系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt命令的使用(普通用户权限也可使用),故障处理-故障信息的收集,控制面板上的LED代码8位代码,通常系统故障灯会同时亮起。

某些机型还会同时显示故障设备位置代码。

(注:

S85正常启动过程中有合法的8位代码。

)4位代码,通常是Exxx。

3位代码,通常为0yyy,只看后3位。

8位和4位代码可查看系统服务手册(ServiceGuide)。

3位代码可查看系统诊断手册(DiagnosticInformationforMultipleBusSystem)。

故障处理-故障信息的收集,控制面板上的LED代码查看DiagnosticInformationforMultipleBusSystems手册,故障处理-故障信息的收集,控制面板上的LED代码(续)闪动的888,系统崩溃,硬件或软件原因造成。

按reset键会显示更多内容。

888-102一般为软件故障(888-102-207例外)系统会产生一个dump。

888-102-xxx-0C9系统正在做dump,请等待。

888-102-xxx-0C0系统dump完成,可关电重启。

888-103或105硬件故障,一般有SRN代码及位置代码。

故障处理-故障信息的收集,SMS(SystemManagementService)故障记录如何进入SMS菜单当主控台出现键盘图标后(LED显示E1F1时)按F1键。

字符终端按1键。

(X80机型则无论是字符主控还是图形主空台,一律按键盘左上角的1键)选择Utilities“,选择ErrorLog,抄下8位故障代码在SMS中还可以更改系统启动顺序表#mail系统会向root用户发mail报告出错信息。

通常系统出现故障后没有进行检查修复,系统会定时提醒root,故障处理-故障信息的收集,其他用于收集系统信息的命令lsdev-C系统设备信息#lsdev-Ccdiskhdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrivehdisk1Available00-06-00-1,04.5GB16BitSCSIDiskDrivehdisk2Defined00-06-00-4,016BitSCSIDiskDrivelspv查看物理卷信息#lspvhdisk00007821160af3d76rootvghdisk1000782117f571294rootvghdisk20000000045c45bdedatavglsvg查看卷组信息,故障处理-故障信息的收集,故障处理-故障信息的收集,故障处理-故障信息的收集,故障处理-系统不能启动,系统不能正常启动可能由多种原因引起,硬件或软件。

观察系统的启动过程。

设备的故障灯是否亮起。

异常的声音,如硬盘的怪声。

注意LED上显示的代码,这是故障分析最重要的信息。

主控台上最后显示的信息也很重要,必须记录下来。

alog-ot系统的启动顺序,故障处理-系统不能启动,故障处理-系统不能启动,系统停在Stage1,可能为电源、系统板、CPU、内存等硬件故障。

记录故障代码通知IBM工程师。

系统停在Stage2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。

可尝试进入SMS菜单检查启动顺序表,并修改。

若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。

若根本没有SCSI设备可选则链路有问题。

系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。

故障处理-系统停在551,555或557,发生在系统启动的第三阶段(Stage3),可能是:

文件系统损坏文件系统日志(jfslog)损坏rootvg中有坏硬盘修复方法用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)启动后选择选项3StartMaintenanceModeforSystemRecoveryAccessaRootVolumeGroupAccessthisvolumegroupandstartashellbeforemountingthefilesystems,故障处理-系统停在551,555或557,格式化文件系统日志(jfslog)#/usr/sbin/logform/dev/hd8检查修复文件系统#fsck-y/dev/hd1(/home文件系统)#fsck-y/dev/hd2(/usr文件系统)#fsck-y/dev/hd3(/tmp文件系统)#fsck-y/dev/hd4(/文件系统)#fsck-y/dev/hd9var(/var文件系统).用exit命令退出,文件系统会自动mount起来。

重建bootimage#lslv-mhd5找出bootimage所在的硬盘,如hdisk0#bosboot-ad/dev/hdisk0#bootlist-mnormal/dev/hdisk0重建启动顺序表。

故障处理-系统停在551,555或557,重启动系统#shutdown-Fr如上述步骤不奏效用系统备份带恢复系统。

如备份带不能恢复,用诊断光盘(DiagnosticCDROM)检查是否坏硬盘。

通知IBM工程师。

故障处理-主控台不能登录,字符终端有时会出现不能登录的情形,可先尝试关掉终端,重开。

如果不行则可能是getty进程运行不正常。

远程telnet登录检查getty进程是否运行正常#ps-ef|grepconsoleroot2917010Jul24lft00:

00/usr/sbin/getty/dev/console如getty正常,查看主控台端口是否正确#lscons查看主控台设备/dev/tty0#lsdev-C-ltty0查看端口是否可用,连线是否正确tty0Available01-S1-00-00AsynchronousTerminal#lsattr-Eltty0看端口参数是否正确,如波特率,故障处理-主控台不能登录,如getty没有运行在主控台上,检查/etc/inittab文件有否cons:

0123456789:

respawn:

/etc/getty/dev/console更正后运行initQ命令激活主控端口。

如getty确实在运行,则可能是终端的硬件问题。

故障处理-CDE图形界面挂死,CDE运行时不要更改网络参数(如:

主机名和IP地址)更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。

如CDE已经挂死远程telnet登录找出所有dt有关的进程用kill命令杀掉#ps-ef|grepdt.#killPID检查当前主机名#hostnameuname-atscf50,故障处理-CDE图形界面挂死,查看主机名是否对应有效的IP地址#netstat-i|greptscf50tr0*15009.185.40tscf5050604902824700更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。

#smittytcpip重新启动CDE界面#/etc/rc.dt,故障处理-系统dump,发生在系统崩溃时,AIX会做dump(系统内存的快照)。

此时机器会显示闪动的888102xxx0cx代码:

0c9系统dump进行中。

0c9状态可能会维持超过2分钟,不要关电和按reset,等待dump做完。

0c0dump成功完成,这时可以断电重起。

0c2手动启动dump功能0c4dump设备空间不足,只有部分信息保存下来0c5不明原因导致dump失败mostlyhdisk

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2