H3C核心交换机常见故障定位手册范本.docx

上传人:b****2 文档编号:1991312 上传时间:2023-05-02 格式:DOCX 页数:60 大小:190.39KB
下载 相关 举报
H3C核心交换机常见故障定位手册范本.docx_第1页
第1页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第2页
第2页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第3页
第3页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第4页
第4页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第5页
第5页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第6页
第6页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第7页
第7页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第8页
第8页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第9页
第9页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第10页
第10页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第11页
第11页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第12页
第12页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第13页
第13页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第14页
第14页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第15页
第15页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第16页
第16页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第17页
第17页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第18页
第18页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第19页
第19页 / 共60页
H3C核心交换机常见故障定位手册范本.docx_第20页
第20页 / 共60页
亲,该文档总共60页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

H3C核心交换机常见故障定位手册范本.docx

《H3C核心交换机常见故障定位手册范本.docx》由会员分享,可在线阅读,更多相关《H3C核心交换机常见故障定位手册范本.docx(60页珍藏版)》请在冰点文库上搜索。

H3C核心交换机常见故障定位手册范本.docx

H3C核心交换机常见故障定位手册范本

核心交换机常见故障处理手册

 

1故障处理通用流程

1.1信息搜集

为方便故障快速定位,建议不要关闭设备的信息中心(info-centerenable)。

缺省情况下信息中心处于开启状态。

1.1.1搜集设备日志信息

1.收集diag信息

执行displaydiagnostic-information命令后,请输入“Y”,以选择将diag保存到CF卡中(选择display会出现信息搜集不全)。

设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。

displaydiagnostic-information

Saveordisplaydiagnosticinformation(Y=save,N=display)?

[Y/N]:

y

Pleaseinputthefilename(*.diag)[cfa0:

/default.diag]:

20130517.diag

Diagnosticinformationisoutputtingtocfa0:

/20130517.diag.

Pleasewait...

Savesuccessfully.

也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-lengthdisable,避免屏幕输出被打断,如下:

screen-lengthdisable

%Screen-lengthconfigurationisdisabledforcurrentuser.

displaydiagnostic-information

Saveordisplaydiagnosticinformation(Y=save,N=display)?

[Y/N]:

n

=================================================================

===============runningCPUusageinformation===============

=================================================================

=====CurrentCPUusageinfo=====

CPUUsageStat.Cycle:

19(Second)

CPUUsage:

5%

CPUUsageStat.Time:

2013-05-2110:

06:

25

CPUUsageStat.Tick:

0x19aa(CPUTickHigh)0xa57f44e1(CPUTickLow)

ActualStat.Cycle:

0x0(CPUTickHigh)0x39fb1e03(CPUTickLow)

……

2.其他注意事项

建议记录设备操作时的命令行显示信息,便于后续分析。

明确每一配置操作的影响,保证出现异常时配置能够被恢复。

保证当前配置与保存的配置一致,在IRF分裂、单板Fault、单板重启时请不要保存配置,否则可能会导致配置不一致。

操作执行后请等待一定时间来确认执行效果。

更换主控板时,请确保新、老主控板的软件版本一致。

1.1.2搜集其他运行信息

除设备日志信息外,还需要搜集设备的其他运行信息(包括但不限于以下):

故障现象、故障时间、网络拓扑、配置信息、现场处理措施及其实施后的现象效果;

操作日志记录、抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息等;

设备故障时单板、电源、风扇指示灯的状态或现场图片等

搜集信息越全面、越详细,越有利于故障的快速定位。

1.2故障定位和处理

设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。

如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。

1.2.1故障处理流程图

图1为故障处理的一般流程,可以大致判断出故障的类型。

图1故障处理流程图

故障分析时常用的方法有:

端口报文计数

报文镜像

端口抓包

配置QoS策略进行流量统计

Debug开关信息

对怀疑故障的模块交叉验证(比如:

怀疑某个端口光模块异常,可以将其他正常的光模块装在这个端口、将怀疑异常的光模块装到别的端口进行确认;怀疑某个槽位单板异常,可以将别的正常单板装到这个槽位、将怀疑异常的单板装到本设备其他槽位或装到别的S12500-X上确认)。

1.2.2故障原因分类

1.单板故障

如单板出现异常重启、状态异常、无法启动、反复重启,请参照2.1单板故障处理。

2.电源故障

如设备电源指示灯异常、不断打印告警信息,请参照2.2电源处理。

3.风扇故障

如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照2.3风扇故障处理。

4.温度告警

如设备打印温度告警,请参照2.4温度告警处理。

5.链路端口故障

如端口出现无法UP、频繁UP/DOWN、端口错包,请参照3链路端口故障处理。

6.硬件转发故障

如日志不断出现Forwardingfault、Boardfault:

chassisXslotY,pleasecheckit等打印信息,请参照4硬件转发故障处理。

7.报文转发故障

如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、MPLS业务异常等,请参照5报文转发故障处理。

8.IRF故障

如设备无法形成IRF、IRF分裂等,请参照6IRF类故障处理。

9.CPU占用率高

如设备单板CPU占用率很高,请参照7.1CPU占用率处理。

10.内存占用率高

如设备单板内存占用率很高,请参照7.2内存占用率处理。

11.资源不足

如设备打印Noenoughresource资源不足,请参照7.3资源不足处理。

1.2.3故障模型及影响分析

图2是一个典型网络故障模型,为提高网络的可靠性,便于故障时快速切换恢复,组网中采用双上行链路,两台核心交换机之间互为备份。

图2典型网络故障模型

表1故障点影响分析

故障点

可能现象

影响范围

1(含光模块)

端口down

业务会切换

端口错包增加

影响该链路上的业务(影响范围大)

2

单板fault

业务会切换

单板芯片故障(单板状态正常)

该芯片上的业务异常

交换网板芯片故障会影响整机

软件异常

设备重启,业务会切换

协议模块异常一般会影响业务

3

同1

影响该接入层交换机上的业务(影响范围比故障点1小一些)

4

设备down

影响该设备下的业务

单板芯片故障

影响部分端口或整机业务

软件异常

设备重启,影响设备下连业务

协议模块异常一般会影响业务

5

同1

影响该链路上服务器涉及的业务

6

网络正常,业务异常

影响该服务器涉及业务

1.2.4常见的故障恢复措施

表2常见的故障恢复措施

故障原因

业务恢复动作

故障排除动作

硬件

隔离故障单板;

调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换)

更换备件(备件上线应用前应进行必要的测试)

软件

重启故障设备的协议;

调整业务流向来隔离故障设备

升级版本(含补丁版本);

调整组网或配置消除引发故障因素

链路

调整业务流向来隔离故障线路

检修线路

其他

修改错误配置;

正确连接设备端口;

调整业务流向来隔离故障线路

修改错误配置;

正确连接设备端口;

检修机房的电源、空调等支撑系统

2硬件类故障处理

2.1单板故障

2.1.1故障描述

单板状态异常(比如状态为Absent、Fault、Loading)。

单板出现异常重启、无法启动或不断重启等。

1.单板状态查询

单板状态包括:

Normal、Master、Slave、Absent、Fault、Loading。

Master与Slave分别表示主、备主控板。

Normal表示单板处于正常运行状态。

如果发现单板状态出现Fault、Offline、Loading,或该槽位存在单板但状态却是Absent的,说明单板可能出现故障,请参考2.1.2故障处理步骤处理。

displaydevice

SlotNo.BrdTypeBrdStatusSubslotSftVerPatchVer

0LSX1TGS48EC1Normal0S12510-X-1005None

1LSX1TGS48EC1Normal0S12510-X-1005None

2LSX1TGS48EC1Normal0S12510-X-1005None

3LSX1TGS48EC1Normal0S12510-X-1005None

4LSX1TGS48EC1Normal0S12510-X-1005None

5LSX1TGS48EC1Normal0S12510-X-1005None

6LSX1TGS48EC1Normal0S12510-X-1005None

7NONEAbsent0NONENone

8NONEAbsent0NONENone

9NONEAbsent0NONENone

10LSX1FAB10B1Normal0S12510-X-1005None

11LSX1FAB10B1Normal0S12510-X-1005None

12LSX1FAB10B1Normal0S12510-X-1005None

13LSX1FAB10B1Normal0S12510-X-1005None

14LSX1FAB10B1Normal0S12510-X-1005None

15LSX1FAB10B1Normal0S12510-X-1005None

16LSX1SUP10A1Standby0S12510-X-1005None

17LSX1SUP10A1Master0S12510-X-1005None

2.单板重启确认

可以通过logfile日志或displayversion查看设备启动后运行时间来确认单板有没有出现过重启,出现过重启的单板运行时间会明显短于设备上其他单板。

如果有单板出现过重启,请参考2.1.2故障处理步骤处理。

displayversion

H3CComwareSoftware,Version7.1.045,Release1005

Copyright(c)2004-2013HangzhouH3CTech.Co.,Ltd.Allrightsreserved.

H3CS12510-Xuptimeis0weeks,4days,1hour,55minutes

Lastrebootreason:

Coldreboot

Bootimage:

flash:

/S12500X-CMW710-BOOT-R1005.bin

Bootimageversion:

7.1.045P18,Release1005

CompiledNov11201315:

38:

46

Systemimage:

flash:

/S12500X-CMW710-SYSTEM-R1005.bin

Systemimageversion:

7.1.045,Release1005

CompiledNov11201315:

39:

12

 

LPU0:

Uptimeis0weeks,4days,1hour,52minutes

H3CS12510-XLPUwith1XLP308Processor

BOARDTYPE:

LSX1TGS48EC1

DRAM:

4096Mbytes

FLASH:

0Mbytes

NVRAM:

0Kbytes

PCB1Version:

VER.B

PCB2Version:

VER.C

BootromVersion:

108

CPLD1Version:

002

CPLD2Version:

002

CPLD3Version:

002

ReleaseVersion:

H3CS12510-X-1005

PatchVersion:

None

RebootCause:

ColdReboot

LPU1:

Uptimeis0weeks,4days,1hour,50minutes

H3CS12510-XLPUwith1XLP308Processor

BOARDTYPE:

LSX1TGS48EC1

DRAM:

4096Mbytes

FLASH:

0Mbytes

NVRAM:

0Kbytes

PCB1Version:

VER.B

PCB2Version:

VER.C

BootromVersion:

108

CPLD1Version:

002

CPLD2Version:

002

CPLD3Version:

002

ReleaseVersion:

H3CS12510-X-1005

PatchVersion:

None

RebootCause:

ColdReboot

LPU2:

Uptimeis0weeks,4days,1hour,52minutes

H3CS12510-XLPUwith1XLP308Processor

BOARDTYPE:

LSX1TGS48EC1

DRAM:

4096Mbytes

FLASH:

0Mbytes

NVRAM:

0Kbytes

PCB1Version:

VER.B

PCB2Version:

VER.C

BootromVersion:

108

CPLD1Version:

002

CPLD2Version:

002

CPLD3Version:

002

ReleaseVersion:

H3CS12510-X-1005

PatchVersion:

None

RebootCause:

ColdReboot

2.1.2故障处理步骤

1.单板状态Absent、Fault

(1)确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。

(2)将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。

(3)检查单板面板、内部的指示灯是否发光。

(4)如果单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。

(5)如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。

2.单板状态Loading

(1)检查单板面板、内部的指示灯是否发光。

(2)如果单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。

(3)如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。

3.单板重启

这里的单板重启是指单板出现过重启,而当前单板状态是Normal。

(1)通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。

(2)1005以上版本displayversion命令支持查询单板最近一次重启的原因。

比如下面示例中“Poweron”表示单板最近一次重启原因是掉电重启。

displayversion

H3CComwareSoftware,Version7.1.045,Release1005

Copyright(c)2004-2013HangzhouH3CTech.Co.,Ltd.Allrightsreserved.

H3CS12510-Xuptimeis0weeks,4days,1hour,55minutes

Lastrebootreason:

Coldreboot

……

(3)如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。

(4)确认日志中重启时有无出现“SlotXneedtoberebootedautomatically!

”提示信息,这种情况是不正常的。

请更换单板并搜集故障信息并发送技术支持人员分析。

(5)确认日志中有无Hardwareerror提示信息,设备运行过程中单板出现Hardwareerror是不正常的。

请搜集信息发送给技术支持人员分析。

%@437307%May1522:

03:

02:

1222013S12508-XDIAG/3/ERROR:

Hardwareerror!

chassis=1,slot=7,code=0

%@437308%May1522:

03:

02:

1222013S12508-XDIAG/3/ERROR:

Hardwareerror!

chassis=1,slot=7,code=1

%@437309%May1522:

03:

02:

1222013S12508-XDIAG/3/ERROR:

Hardwareerror!

chassis=1,slot=7,code=2

(6)如无法确认,请搜集故障信息并发送技术支持人员分析。

2.2电源故障

2.2.1故障描述

设备电源指示灯异常或上报fault

2.2.2故障处理步骤

1.检查是否存在Fault或Absent状态的电源模块

使用displaypower命令显示电源模块状态,查看是否存在Fault或Absent状态的电源模块。

displaypower

PowerIDStateModeCurrent(A)Voltage(V)Power(W)

1NormalAC2.6053.81139.90

2Absent--------

3Absent--------

4NormalAC1.6053.8286.11

5Absent--------

6Absent--------

7Absent--------

8Absent--------

如果存在Absent状态的电源模块,请前往步骤3。

如果存在Fault状态的电源模块,请前往步骤4。

2.检查电源异常模块

查看电源异常状态:

Absent或者Fault.使用displayalarm命令。

[HP]displayalarm

SlotLevelInfo

-ERRORFan1isfaulty.

-INFOPower1isabsent.

-INFOPower2isabsent.

-INFOPower3isabsent.

-INFOPower5isabsent.

-INFOPower6isabsent.

-INFOPower7isabsent.

-INFOPower8isabsent.

如果存在Absent状态的电源模块,请前往步骤3。

如果存在Fault状态的电源模块,请前往步骤4。

3.检查Absent状态电源模块

如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。

如果电源模块槽位有电源模块在位且显示为Absent,请将电源模块拆卸后重新安装,然后使用displaypower命令查看对应槽位电源状态是否显示为Normal。

如果仍然显示为Absent状态,请更换新电源模块。

如果更换新电源模块后仍然显示为Absent状态,请前往步骤5。

4.检查Fault状态电源模块

如果存在Fault状态电源模块,表示该电源模块异常,无法供电。

电源处于Fault状态可能有以下原因:

(1).电源线可能没接稳而脱落。

如果电源线脱落,那么电源的电流和电压都会显示为0,电源状态显示为Fault。

请检查电源是否接线,接线后使用displaypower命令查看对应槽位电源状态是否显示为Normal。

如果没有恢复为Normal,请前往

(2)。

displaypower

PowerIDStateModeCurrent(A)Voltage(V)Power(W)

1NormalAC2.6053.81139.90

2FaultAC000/*电源没接线状态显示*/

(2).可能是电源模块本身温度过高导致。

如果电源模块上积灰较多可能引起电源模块温度升高。

请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。

然后使用displaypower命令查看对应槽位电源状态是否显示为Normal。

如果没有恢复为Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。

如果该电源模块仍然显示为Fault状态,请更换电源模块。

如果更换新电源模块后仍然显示为Fault状态,请前往步骤5。

5.寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.3风扇故障

2.3.1故障描述

风扇框指示灯异常,设备打印风扇异常信息,如:

%Sep2220:

38:

32:

9472009H3Cxxxxxxx

2.3.2故障处理步骤

(1)风扇框在位时,用手放在设备出风口,判断是否有出风,如果出风口无风,则风扇异常

(2)检查风扇的入风口、出风口是否被挡住或积累太多灰尘。

(3)检查风扇框是否正常在位,各个风扇的状态是否正常、转速是否相差达到50%以上。

如存在异常,建议通过风扇框拔插、更换交叉进一步确认。

(4)如果故障不能恢复,需要更换该风扇框,但当前没有风扇框,请关闭设备以免发生温度高导致单板烧坏;如果有降温措施保证系统工作在xx度以下,可以暂时继续使用设备。

displayfan

Fan-tray1:

Status:

Normal

Fannumber:

5

Fanmode:

Auto

AirflowDirection:

Front-to-back

FanStatusSpeed(rpm)

-----------------------

1Normal3707

2Normal1909

3Normal2031

4Normal1863

5Normal1921

Fan-tray2:

Status:

Normal

Fannumber:

5

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2