博科存储网络运维指导手册.doc

上传人:聆听****声音 文档编号:1941040 上传时间:2023-05-02 格式:DOC 页数:80 大小:2.22MB
下载 相关 举报
博科存储网络运维指导手册.doc_第1页
第1页 / 共80页
博科存储网络运维指导手册.doc_第2页
第2页 / 共80页
博科存储网络运维指导手册.doc_第3页
第3页 / 共80页
博科存储网络运维指导手册.doc_第4页
第4页 / 共80页
博科存储网络运维指导手册.doc_第5页
第5页 / 共80页
博科存储网络运维指导手册.doc_第6页
第6页 / 共80页
博科存储网络运维指导手册.doc_第7页
第7页 / 共80页
博科存储网络运维指导手册.doc_第8页
第8页 / 共80页
博科存储网络运维指导手册.doc_第9页
第9页 / 共80页
博科存储网络运维指导手册.doc_第10页
第10页 / 共80页
博科存储网络运维指导手册.doc_第11页
第11页 / 共80页
博科存储网络运维指导手册.doc_第12页
第12页 / 共80页
博科存储网络运维指导手册.doc_第13页
第13页 / 共80页
博科存储网络运维指导手册.doc_第14页
第14页 / 共80页
博科存储网络运维指导手册.doc_第15页
第15页 / 共80页
博科存储网络运维指导手册.doc_第16页
第16页 / 共80页
博科存储网络运维指导手册.doc_第17页
第17页 / 共80页
博科存储网络运维指导手册.doc_第18页
第18页 / 共80页
博科存储网络运维指导手册.doc_第19页
第19页 / 共80页
博科存储网络运维指导手册.doc_第20页
第20页 / 共80页
亲,该文档总共80页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

博科存储网络运维指导手册.doc

《博科存储网络运维指导手册.doc》由会员分享,可在线阅读,更多相关《博科存储网络运维指导手册.doc(80页珍藏版)》请在冰点文库上搜索。

博科存储网络运维指导手册.doc

博科存储网络运维指导手册

博科存储网络

运维指导手册

Version1.0

2016年7月

文档修订记录

文档编号:

标题

博科存储网络运维指导手册

摘要

本文档是为博科存储网络定制的运维指导手册

当前版本

V1.0

创建日期

2016-7

文档作者

舒磊

文件名称

博科存储网络维指导手册.doc

修改记录

日期

修改人

编写者

摘要

目录

文档修订记录 II

目录 III

前言 1

文档目的 1

编写环境 1

适用人员 1

内容范围 1

一、网络架构描述 2

二、主要运维场景 4

1.端口故障 4

具体现象 4

故障信息确认 4

故障处理 7

影响范围 14

预计处理时间 14

验证方案 14

2.磁盘访问故障 15

具体现象 15

故障信息确认 15

故障处理 15

影响范围 17

预计处理时间 17

验证方案 17

3.端口板故障 18

具体现象 18

故障信息确认 18

故障处理 19

影响范围 20

预计处理时间 20

验证方案 21

4.引擎故障 21

具体现象 21

故障信息确认 21

故障处理 22

影响范围 24

预计处理时间 24

验证方案 24

5.风扇故障 24

具体现象 24

故障信息确认 24

故障处理 26

影响范围 26

预计处理时间 27

验证方案 27

6.电源故障 27

具体现象 27

故障信息确认 27

故障处理 28

影响范围 29

预计处理时间 29

验证方案 29

7.CR故障处理过程及方法 29

具体现象 29

故障信息确认 29

故障处理 30

影响范围 32

预计处理时间 33

验证方案 33

8.边缘交换机整机故障 33

具体现象 33

故障信息确认 33

故障处理 34

影响范围 34

预计处理时间 34

验证方案 34

9.核心光纤交换机整机故障 35

具体现象 35

故障信息确认 35

故障处理 35

影响范围 36

预计处理时间 36

验证方案 36

三、主要变更场景 37

1.微码升级 37

配置备份 38

微码升级 38

校验微码升级 40

微码升级常见问题 40

2.新设备上线 43

3.新增ZONE配置 62

4.修改CFG、ZONE、Alias的名字 64

5.删除ZONE或Zone的成员 65

6.板卡扩容 66

7.交换机扩容 69

补充命令介绍 71

Framelog--show指令:

71

Fabriclog--show指令:

72

75

前言

文档目的

此文档主要用于工行博科存储网络的日常变更操作、故障处理以及存储网络的规模扩展,帮助行内博科SAN岗维护人员快速定位修复故障、熟悉日常变更操作流程,以及提高博科SAN日常运维效率。

编写环境

此文档以工行上海数据中心SAN网络为基础编写。

适用人员

此文档主要面向工行SAN岗运维人员。

内容范围

内容范围涉及博科存储交换机的多个部件的故障维护处理以及常用变更操作等。

一、网络架构描述

工行的SAN网络架构由双冗余的Fabric构成,单路Fabric采用Core-Edge经典架构。

工行SAN网络大致分为以下两种,如下:

第一种:

以存储交换为目的的存储子网,如:

外高桥存储子网L2。

第二种:

以灾备为目的备份子网,如:

平台灾备、主机灾备等。

图1:

L2存储子网

Ø外高桥L2存储子网中,由四台DCX两两组建单路存储核心Core层,用于磁盘接入;单路四台DCX组成服务器接入Edge层。

Ø数据中心L2存储子网中两路Fabric的ISL均采用Trunk模式互联。

Ø所有的DCX导向器均运行相同的Firmware版本:

v7.2.0d_cvr_brcd_491687_05。

Ø博科SAN网络目前使用CLI命令行方式对所有设备进行配置和管理。

ØDCX导向器统一采用高性能、无超载比板卡FC8-32。

Ø每路fabric当中的Core和Edge由8条8G速率ISL连接,8条链路组成一个trunk,总带宽为64G。

图2:

平台灾备网络

Ø平台灾备网络,由三个数据中心组建,每个数据中心由两台相互冗余的DCX组成。

Ø外高桥与嘉定数据中心通过广域网链接组建FCIP通道与北京数据中心互联;嘉定和外高桥通过DWDM互联。

Ø六台DCX导向器均运行相同的Firmware版本:

v7.2.0d6。

ØFCIPTunnel通道由DCX导向器加FX8-24板卡构建。

二、主要运维场景

1.端口故障

具体现象

网管平台发现接口异常告警或SFP模块异常告警信息。

故障信息确认

通过zbcheck账户登入交换机使用命令errshow–r或errdump查看对应的错误日志和相应接口的状态。

DCX:

network#errshow-r

2016/06/04-22:

45:

30,[C2-1001],65547,SLOT5|CHASSIS,ERROR,GD48SN02-N1,Port79portfaultedduetoSFPvalidationfailure.PleasecheckiftheSFPisvalidfortheconfiguration.

2016/06/04-22:

45:

30:

000155,[C2-5254],855486/0,SLOT5|CHASSIS,WARNING,GD48SN02-N1,PHYSM[OID0x43428017](079)(PP06):

Portfault,reasoncode=13.PleasechangetheSFP,OID:

0x43428017,proto_physm.c,line:

1365,comp:

emd,ltime:

2016/06/04-22:

45:

30:

000145

2016/06/04-22:

45:

30:

000165,[C2-1001],855487/65547,SLOT5|CHASSIS,ERROR,GD48SN02-N1,Port79portfaultedduetoSFPvalidationfailure.PleasecheckiftheSFPisvalidfortheconfiguration.,OID:

0x43428017,proto_physm.c,line:

1368,comp:

emd,ltime:

2016/06/04-22:

45:

30:

000163

使用switchshow命令查看端口工作状态:

DCX:

network>switchshow

switchName:

GD48SN02-N1

switchType:

42.2

switchState:

Online

switchMode:

Native

switchRole:

Principal

switchDomain:

1

switchId:

fffc01

switchWwn:

10:

00:

00:

05:

1e:

36:

17:

24

zoning:

ON(SWITCHB_CONFIG)

switchBeacon:

OFF

IndexSlotPortAddressMediaSpeedStateProto

===================================================

78714014e00idN4No_LightFC

79715014f00idN4Laser_FltFC

8080015000idN4OnlineFCF-Port10:

00:

00:

00:

c9:

9e:

00:

58

正常情况下,连接设备的接口状态应该为up,如果是该接口没有连接设备,接口状态为:

No_Light。

常见接口故障状态列表如下:

Table1接口故障状态列表

接口故障状态

详细描述

Mod_Val

SFP模块处在生效确认过程中

Mod_Inv

SFP模块速率不匹配或不兼容

No_Sync

端口收到光,但无法同步

In_Sync

端口收到光,正在同步

Laser_Flt

SFP模块的激光发射器故障

Port_Flt

该端口被标记为Faulty状态

Diag_Flt

该端口自动诊断失败

Offline

该端口连接不稳定

Lock_Ref

该端口状态正处于锁定状态

通过Portshow命令确定端口状态:

DCX:

network>portshow7/15

portIndex:

79

portName:

portHealth:

FAULTY

Authentication:

None

portDisableReason:

None

portCFlags:

0x1

portFlags:

0x4401PRESENTU_PORTLEDFAULT

LocalSwcFlags:

0x0

portType:

10.0

portState:

2Offline

Protocol:

FC

portPhys:

3Laser_FltportScn:

2Offline

portgenerationnumber:

0

statetransitioncount:

2

portId:

014f00

portIfId:

43720018

portWwn:

20:

4f:

00:

05:

1e:

36:

17:

24

portWwnofdevice(s)connected:

Distance:

normal

portSpeed:

N4Gbps

LEdomain:

0

FCFastwrite:

OFF

Interrupts:

2753780Link_failure:

0Frjt:

0

Unknown:

0Loss_of_sync:

0Fbsy:

0

Lli:

2753780Loss_of_sig:

649661

Proc_rqrd:

0Protocol_err:

0

Timed_out:

0Invalid_word:

0

Rx_flushed:

0Invalid_crc:

0

Tx_unavail:

0Delim_err:

0

Free_buffer:

0Address_err:

0

Overrun:

0Lr_in:

0

Suspended:

0Lr_out:

0

Parity_err:

0Ols_in:

0

2_parity_err:

0Ols_out:

0

CMI_bus_err:

0

如果接口portHealth参数状态为Health,表明该接口正处于正常运行状态,其他状态表明端口可能发生故障。

故障处理

a.SFP模块故障

当确认是SFP模块故障后,建议立即收集Supportsave,并联系博科工程师协助执行RMA更换流程,Supportsave命令如下:

switch:

admin>supportsave

ThiscommandcollectsRASLOG,TRACE,supportShow,\

corefile,FFDCdataandthentransferthemtoaFTP/SCP/SFTPserver\

oraUSBdevice.Thisoperationcantakeseveralminutes.

NOTE:

supportSavewilltransferexistingtracedump\

filefirst,thenautomaticallygenerateandtransferlatestone.\

Therewillbetwotracedumpfilestransferredafterthiscommand.

OKtoproceed?

(yes,y,no,n):

[no]y

HostIPorHostName:

192.168.126.115/***FTPServer地址****/

UserName:

admin/****FTPUser****/

Password:

*******/****FTPUserPassword****/

NetworkProtocol(1-auto-select,2-FTP,3-SCP,4-SFTP)[1]:

2/****选择使用FTP协议****/

RemoteDirectory:

/temp/support/****指定数据上传的目录***/

Savingsupportinformationforchassis:

HL51,module:

RAS...

Savingsupportinformationforchassis:

HL51,module:

TRACE_OLD...

Savingsupportinformationforchassis:

HL51,module:

TRACE_NEW...

Savingsupportinformationforchassis:

HL51,module:

FABRIC...

Savingsupportinformationforchassis:

HL51,module:

CORE_FFDC...

Savingsupportinformationforchassis:

HL51,module:

DIAG...

Savingsupportinformationforchassis:

HL51,module:

RTE...

Savingsupportinformationforchassis:

HL51,module:

ISCSID_DBG...

............................................

b.端口状态为No_Sync解决方法

这种情况说明光纤链路信号同步异常,该端口所连接设备和交换机光传输信号不能正常同步,交换机端口和所连接设备无法正常通讯,解决方法参照步骤:

1. 先检查SFP工作是否正常。

switch:

admin>sfpshow9/1-f

Identifier:

3SFP

Connector:

7LC

Transceiver:

540c4020000000002,4,8_GbpsM5,M6swInter_dist

Encoding:

18B10B

BaudRate:

85(units100megabaud)

Length9u:

0(unitskm)

Length9u:

0(units100meters)

Length50u(OM2):

5(units10meters)

Length50u(OM3):

0(units10meters)

Length62.5u:

3(units10meters)

LengthCu:

0(units1meter)

VendorName:

BROCADE

VendorOUI:

00:

05:

1e

VendorPN:

57-1000117-01

VendorRev:

A

Wavelength:

850(unitsnm)

Options:

001aLoss_of_Sig,Tx_Fault,Tx_Disable

BRMax:

0

BRMin:

0

SerialNo:

UAA312074330032

DateCode:

120213

DDType:

0x68

EnhOptions:

0xf0

Status/Ctrl:

0x0

Alarmflags[0,1]=0x0,0x0

WarnFlags[0,1]=0x0,0x40

AlarmWarn

lowhighlowhigh

Temperature:

43Centigrade-15100-1095

Current:

7.124mAmps2.00010.5002.00010.500

Voltage:

3287.4mVolts2800.03800.02970.03630.0

RXPower:

-3.3dBm(465.3uW)0.0uW6550.0uW49.0uW1100.0uW

TXPower:

-3.0dBm(506.5uW)50.0uW800.0uW100.0uW700.0uW

SFP的收发光功率TXpower和RXpower一般在,-10~0之间。

小于或大于这个范围,说明SFP模块工作异常。

2.如果TXPower值不正常。

TXPower值不正常,基本可以确定SFP模块故障,常见SFP模块激光发射器故障,通过Switchshow命令显示端口状态为Laser_Flt.

DCX:

network>switchshow

switchName:

GD48SN02-N1

switchType:

42.2

switchState:

Online

switchMode:

Native

switchRole:

Principal

switchDomain:

1

switchId:

fffc01

switchWwn:

10:

00:

00:

05:

1e:

36:

17:

24

zoning:

ON(SWITCHB_CONFIG)

switchBeacon:

OFF

IndexSlotPortAddressMediaSpeedStateProto

===================================================

78714014e00idN4No_LightFC

79715014f00idN4Laser_FltFC

8080015000idN4OnlineFCF-Port10:

00:

00:

00:

c9:

9e:

00:

58

3.如果TXPower值正常,而RXpower工作不正常。

当RXpower不正常时,可使用排除法,把故障端口光纤线插在其他端口上,观察RXpower的工作状态,如果RXpower依然不正常。

说明故障出在光信号发射端口或光纤线上,然后检查光纤线是否老化,检查信号发射端口主机或存储HBA工作是否正常。

c.光纤线故障

如果switchshow显示端口工作状态正常;Portshow显示端口为Health;Sfpshow显示SFP模块收发光功率正常,但主机或存储端口显示该链路数据传输异常,如:

错包率较高、应用响应缓慢等。

这种情况下,首先检查故障端口计数器值,使用porterrshow命令如下:

porterrshow:

framesenccrccrctootoobadencdisclinklosslossfrjtfbsyc3timeoutpcs

txrxinerrg_eofshrtlongeofoutc3failsyncsigtxrxerr

40:

296.5m17.9m0000000000000000

41:

000000000000000000

42:

000000000000000000

43:

00000000

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2