IBM服务器维护手册范本.docx

资源描述

IBM服务器维护手册范本.docx

《IBM服务器维护手册范本.docx》由会员分享，可在线阅读，更多相关《IBM服务器维护手册范本.docx（51页珍藏版）》请在冰点文库上搜索。

IBM服务器维护手册范本.docx

IBM服务器维护手册范本

第一类、机房环境及物理检查

一、机房环境要求

1. 温度与湿度：

最佳工作温度：

20-25摄氏度

极限工作温度：

10-40摄氏度

湿度:

8-80%（在23摄氏度条件下）

如果不是工作在最佳温度，请注意改善机房环境

2. 同时机房要保证清洁.

机房应保持清洁，若空气灰尘过多，很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。

二、电源要求

电压:

要求电压稳定,尖峰电压会损坏设备

电压围:

220V+/-10%,即200-240V,50-60Hz

电源功率:

视机器类型和系统配置而定

电源线 :

标准的零,地,火三相电,其中零,地电压不得超过3.0V.

电源接驳:

用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS，并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.

三、硬件检查

]检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。

服务器状态检查：

1. 当服务器处于启动和正常工作状态时，其前面板上的液晶显示屏上应无信息显示。

2. 当液晶显示器上出现带数字和字母的信息时，说明有硬件告警。

可以通过查询相关机型的ServiceGuide查到相应告警原因，情况严重的，则要立即通知IBM技术专家进行问题排查。

7133状态检查：

磁阵前面板上有7133机柜的状态灯（与电源灯并排）和各硬盘的状态灯（一排小灯，与各硬盘位置一一对应）。

1.当机柜的状态灯出现橙黄色时，说明有硬件告警，此时要检查磁柜的电源、接线、硬盘等。

如果有硬件故障则立即进行更换和更正，如果查不出具体问题，则需要联系相关专家进一步诊断。

2.当硬盘工作正常时，与各硬盘对应的硬盘灯会呈绿色，如无读写，则绿灯一直亮，如该硬盘有读写操作，则绿灯会不规则闪烁，当硬盘损坏时或SSA环路出现问题时，则硬盘状态灯将熄灭，或者呈闪烁状态：

以1～3秒的频率有规律地、不停地闪烁

第二类、系统日常维护流程

2.1系统启动

系统启动正常顺序如下：

首先对外设（磁盘阵列、磁带库等）加电。

待所有外设加电自检完成后，主机加电正常起机。

主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.

启动主机HACMP，启动后可用命令tail-f/tmp/hacmp.out来检查启动情况，在HACMP未完全启动前不要进行下一步。

检查服务器的网络地址，路由表（可用netstat-i,netstat-rn等），检查文件系统，逻辑卷（可用mount,lsvg-o等）。

检查各项应用是否工作正常。

2.2系统关闭

停止HACMP （smittyclstop）。

查看HACMP的状态，检查服务器的网络地址，路由表（可用netstat-i,netstat-rn等），检查文件系统，逻辑卷（可用mount,lsvg-o等）。

在HACMP未完全停止前不要进行下一步。

关闭主机（shutdown–F）。

重启系统可以使用：

shutdown-Fr

如有必要的话，按磁盘阵列前方的白色按钮关闭磁盘阵列。

2.3查看系统的错误记录

在系统运行时，一些系统错误会记录在errlog中，其中有些错误还会在终端上显示。

检查错误日志可用以下命令：

#errpt|more查看系统所有的记录

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION

E85C5C4C 0426104399 P S CFGLFT SOFTWAREPROGRAMERROR

2BFA76F6 0426104099 T S SYSPROC SYSTEMSHUTDOWNBYUSER

9D4CF6E7 0426104399 T O errdemon ERRORLOGGINGTURNEDON

1E2AC07E 0426103999 T O errdemon ERRORLOGGINGTURNEDOFF

1E5EER4T 0423132999 T O clstrmgr OPERATORNOTIFICATION

其中

IDENTIFIER为错误编号，当需要检查详细信息时常会用到。

TIMESTAMP为时间标签，它记录的是出错时间，其格式:

月月日日时时分分年年

T为Type,它记录的是错误类型

P：

为永久错误，需引起注意

T：

为临时错误。

C为Class, 它记录的是错误种类，如

Hardware

Software

Errlogercommandmessages

undetermined

RESOURCE_NAME 为错误来源

DESCRIPTION为错误描述

#errpt-aj查看系统详细记录容

其中IDENTIFIER为错误编号，如#errpt-aj0426104399

#errpt-dH 查看系统所有的硬件出错记录

2.4系统与数据备份

有效及时的系统备份是系统管理的非常重要的一环。

当系统出现故障时，特别是文件系统被严重损坏或硬盘损坏时，常需要使用系统备份来恢复系统。

在以下情况下应做系统备份：

1、新装机。

在硬件及系统软件安装完成后，应做系统备份。

2、软件改动。

系统软件或应用软件有改动时，应做系统备份。

3、定期备份。

对系统进行定期备份，最好每两或三个月做一次备份

备份注意事项：

进行系统备份无须停止业务，业务可以继续进行。

建议客户进行定期的系统备份（使用命令smittymksysb）。

客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。

smittymksysb只备份rootvg中mount起来的文件系统，其它文件系统或数据并没有做备份，所以数据备份需要另外完成（建议客户使用TAR格式）

在条件允许的情况下，最好有一盘以上备份带，以防止磁带损坏。

系统备份过程中有时候会提示有些/tmp目录下的文件无法备份，显示如下：

Creatinglistoffilestobackup...

Backingup34025files..............................

1694of34025files（4%）..............................

2733of34025files（8%）.........backup:

0511-449Anerroroccurredaccessing./

tmp/sh34736.1:

Afileordirectoryinthepathnamedoesnotexist.

backup:

0511-449Anerroroccurredaccessing./tmp/sh34736.2:

Afileordirector

yinthepathnamedoesnotexist.

backup:

0511-449Anerroroccurredaccessing./tmp/sh34736.3:

Afileordirector

yinthepathnamedoesnotexist.

.....................

15458of34025files（45%）..............................

31920of34025files（93%）...........

0512-003mksysbmaynothavebeenabletoarchivesomefiles.

ThemessagesdisplayedontheStandardErrorcontainedadditional

information.

这是正常现象，备份成功。

2.5系统恢复

当系统发生比较严重的故障以致采取一般性维护手段不能在短期恢复原系统，在与客户进行蹉商后，可将最近一次的系统备份带倒回机器以全面恢复系统到最近一次做备份时的系统环境，然后可将当日的数据备份再倒回系统。

至此，系统可恢复正常运行。

此后，客户应当与IBM工程师再进行整个事件的全面分析与回顾，以期找到故障发生的原因，并采取相应措施以杜绝类似事件再次发生。

2.6DUMP

当系统运行出现软件故障导致系统down机时，机器的液晶显示器会出现888102xxx0c0（xxx可能为700或其它），AIX常会将当时系统的运行情况记录下来，这就是DUMP。

当DUMP产生后，请将磁带放入磁带机，用命令#snap-a-o/dev/rmt0将DUMP文件拷贝到磁带设备/dev/rmt0中。

注明磁带机的blocksize,DUMP产生的日期和机器的型号及序列号。

同时，请用#errpt-a>/tmp/err.log将errorlog记在/tmp/err.log中，并将/tmp/err.log和/tmp/hacmp.*拷贝到软盘或磁带上。

将磁带和软盘交给IBM工程师。

2.7日常检查服务器状态的项目及其相关命令

1运行lsdev命令配以各种参数，所列各种设备状态都应为Available。

lsdev–C–H–Sa 列出系统中可用设备。

#lsdev–Ccprocessor 列出系统中的所有CPU。

#lsdev–Ccmemory 列出系统中的所有存。

#lsdev–Ccdisk 列出系统中的所有硬盘。

#lsdev-Ccadapter|grepent 列出系统中的所有网卡

#lsdev-Ccadapter|grepscsi 列出系统中的所有SCSI卡。

#lsdev-Ccadapter|grepssa 列出系统中的所有SSA卡。

2lspv命令

#lspv 显示系统中可用的PV。

#lspvhdiskn 显示hdiskn的具体信息。

#lsdev–Ccpdisk 显示磁盘阵列的硬盘的具体信息。

对SSA硬盘的检测：

在对主机进行工作之前可以先把磁盘阵列上电，等主机完全启动后，登录到主机上，运行以下命令“lsdev–Ccpdisk“,应该可以看到所有SSA硬盘，并且状态应为Available.。

3 lsattr命令

#lsattr–E–lmem0 列出系统中存mem0的大小，本项目中存有4GB。

4 lsvg命令

#lsvg 列出系统中所有的vg。

#lsvgrootvg 列出rootvg的详细信息。

#lsvg–o 列出激活的vg

5 oslevel命令

#oslevel 显示操作系统版本信息。

6 netstat命令

#netstat–in 显示系统中各网卡的配置。

可查看网卡的IP配置好了没有。

7 #diag命令

运行硬件诊断程序检测主机所有硬件，检测结果为“Notroublefound”显示各部分工作正常。

8 使用#diag命令

（选择：

TaskSelection->SSAServiceAids）对SSA硬盘链路连接的校验，可以通过SSA工具里的LinkVerification来检测。

如有必要，可以用CertifyDisk运行硬盘诊断部分进行硬盘的表面分析测试，由1%至100%，检测结果显示主机置硬盘的所有扇区均读写正常。

9 lsps–a

查看PAGINGSPACE的使用情况，如果使用率超过70%，就需要采取措施。

10 lsvg–o|lsvg–il|grep–istale

查看有无stale的lv，如果输入该命令之后有输出结果，就需要采取措施

11 有否发给root用户的错误报告（mail）。

12 检查双机状态：

lssrc–gcluster

检查ha三个工作进程是否激活，/usr/sbin/cluster/clstat–a检查双机状态是否up，并检查hacmp.out日志，看是否有异常信息。

13 用vmstat,topas，sar命令

检查系统性能，检查cpu\memoyr\IO，是否存在性能瓶颈。

14 检查能否顺利进入CDE界面，如果不能进入的话，要检查/etc/hosts表中有否错误的项目。

15 用smittyssaraid查看磁盘阵列RAID盘的状态是否是Good。

如果是degrade或其他状态表示RAID盘出现问题了

16 用sysdumpdev–l查看系统的DUMP设置是否正常。

17 用instfix–ik|grepML当前操作系统补丁版本补丁程序（PTF）是否满足稳定运行的需要。

一般要求433操作系统补丁要打到10以上，5.1操作系统补丁要打到5以上

18 使用df–kP查看磁盘空间占用率，请确保以下文件系统的占用率高于80%立即上报：

2.8性能监控与调优

通过命令vmstat1来观察.

kthr memory page faults cpu

---------------------------------------------------------------

r b avm fre re pi po fr sr cy in sy csussyidwa

命令解析：

vmstat命令的输出可以反映系统整体运行状况，包括cpu、存、虚拟页面、系统进程和系统调用情况。

检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.

检查MEM是否为瓶颈,分别检查Memory的两项数值和Page的六项数值.

通过命令sar–mu–PALL来观察。

命令解析：

sar可以用来收集反映系统运行状况，在这里主要是查看CPU的运行状况，CPU是否负载均衡,是否存在分配不均的情况。

通过命令psgv|more来观察。

PID TTYSTAT TIMEPGIN SIZE RSS LIM TSIZ TRS%CPU%MEMCOMMAND

0 -A 4:

20 7 1214516 xx 014504 0.0 5.0swapper

1 -A 1:

33 103789527904432768 25 36 0.029.0/etc/ini

命令解析：

ps可以用来查看进程的当前状态。

在这里通过参数的配搭，可以观察目前正在运行的进程所耗的时间,CPU和memory量.其中，%CPU表示进程所占用的CPU资源情况，%MEM表示进程所占用的存情况。

主要检查是否有标示为的僵尸进程耗用系统资源，以及informix数据库的oninit进程的系统消耗情况。

在机器上用dd命令进行磁盘阵列的写操作校验，与此同时用iostat1–d hdiskX观察磁盘。

Disks:

%tm_act Kbps tps Kb_read Kb_wrtn

命令解析:

iostat可以用来查看系统的I/O的输入输出情况，在这里主要查看阵列上的硬盘的每秒读写量，同时估算磁盘阵列读写速度HHhHhh

。

通过命令netstat–a 进行查看。

ActiveInternetconnections（includingservers）

Proto Recv-Q Send-Q LocalAddress ForeignAddress （state

命令解析:

netstat可以用来查看系统的网络情况，在这里主要是查看网络客户端连接的情况和开销，检查参数为state，如有死连接，state状态为fin_wait,这样耗用系统网络资源，从而导致网络性能下降构成瓶颈。

2.9安全工作守则

a.系统定期进行系统备份，系统盘建议镜像。

b.当有系统变更或进行操作系统补丁安装的时候，必须作一次系统备份。

c.在7133和shark发现有硬盘故障的时候，请提醒客户注意当天的数据备份。

在更换硬盘的时候，请确认当天数据备份已经完成。

d.在更换敏感的电子元件，时候一定要防静电。

e.在插拔外围设备的时候，请把外围设备下电。

f.在进行主机微码升级时候，请留意微码的完整性。

g.在进行文件删除的时候，请留意当前路径是否正确。

h.在进行文件解压缩的时候，请留意参数和路径。

2.10维护

在日常维护中碰到问题和疑难，可以致电：

IBM免费技术支持保修热线：

800-810-6677 8-5100

客户技术咨询热线：

800-810-1818

IBM分公司联系：

[本帖最后由mfkqwyc86于2010-11-412:

32编辑]

__________________

################################################################################################

君子务本，本立而道生。

---mfkqwyc86,飞鹰工作室

ITPUT个人空间：

-----------------------------------------------------------

01.【OracleRAC】Linux+Oracle11gR2RAC安装配置详细过程

02.【OracleRAC】OracleRAC更改VIPIP地址_2节点的实验

03.【OracleRAC】OracleRAC删除一个节点_3节点的实验

04.【OracleRAC】OracleRAC增加一个节点_3节点的实验

05.【OracleRAC+DG】OracleRAC+ASM+DataGuard配置实验记录

06.【OracleRAC】OracleRACCRS、OCR、Voting破坏重建

07.【Oracle表分区管理】OraclePartition表分区与分区索引几种方式的实验操作

08.【IBMDB2表空间管理】db2表空间管理—实例讲解之精华

09.【IBMDB2补丁升级】从v9.5.0.1升级到DB2v9.5.0.6

10.【中间件资料下载汇总】WebSphere,MQ,Portal,WebLogic资料下载汇总【PDF格式-共51类】

只看该作者

mfkqwyc86

飞鹰工作室

精华贴数1

个人空间400

技术积分826（3079）

社区积分28（9086）

注册日期2007-4-28

论坛徽章:

使用道具

发表于2010-11-412:

跟贴说明:

大家看了以下日常维护及故障处理汇总方法后,请大家在贴后跟上自己遇到过的错误问题,及解决方法!

第三类、故障定位、故障排除

根据我们在实际商用系统中碰到问题，我们总结出了以下几种常见故障及其定位方式和解决方法。

3.1硬件故障

硬件故障有很多种，对系统产生的影响也不一样，这里按其故障对系统的影响程度分：

致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类：

其损坏对系统产生致命影响（将使机器宕机或无法启动）的硬件包括：

主板、CPU、I/O柜（包含本地盘、光驱、PCI插槽等的柜子）或CEC柜（包含CPU/MEMORY等的柜子）、I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、存损坏等等

注：

I/O柜和CEC柜一般在比较高端的小型机才有，如M80，低端的是合一的。

这些设备的损坏等将使系统无法完成自检、引导和启动，液晶显示屏上都将有错误信息，可根据液晶显示屏上的错误码对照ServiceGuide查的错误原因，如果是工作状态下出现这些硬件损坏，则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响（机器不会宕机并能正常启动）的硬件包括：

网卡、本地硬盘有坏块、显卡、SSA卡和其他

展开阅读全文