博科存储网络运维指导手册.doc
《博科存储网络运维指导手册.doc》由会员分享,可在线阅读,更多相关《博科存储网络运维指导手册.doc(80页珍藏版)》请在冰点文库上搜索。
博科存储网络运维指导手册
博科存储网络
运维指导手册
Version1.0
2016年7月
文档修订记录
文档编号:
标题
博科存储网络运维指导手册
摘要
本文档是为博科存储网络定制的运维指导手册
当前版本
V1.0
创建日期
2016-7
文档作者
舒磊
文件名称
博科存储网络维指导手册.doc
修改记录
日期
修改人
编写者
摘要
目录
文档修订记录 II
目录 III
前言 1
文档目的 1
编写环境 1
适用人员 1
内容范围 1
一、网络架构描述 2
二、主要运维场景 4
1.端口故障 4
具体现象 4
故障信息确认 4
故障处理 7
影响范围 14
预计处理时间 14
验证方案 14
2.磁盘访问故障 15
具体现象 15
故障信息确认 15
故障处理 15
影响范围 17
预计处理时间 17
验证方案 17
3.端口板故障 18
具体现象 18
故障信息确认 18
故障处理 19
影响范围 20
预计处理时间 20
验证方案 21
4.引擎故障 21
具体现象 21
故障信息确认 21
故障处理 22
影响范围 24
预计处理时间 24
验证方案 24
5.风扇故障 24
具体现象 24
故障信息确认 24
故障处理 26
影响范围 26
预计处理时间 27
验证方案 27
6.电源故障 27
具体现象 27
故障信息确认 27
故障处理 28
影响范围 29
预计处理时间 29
验证方案 29
7.CR故障处理过程及方法 29
具体现象 29
故障信息确认 29
故障处理 30
影响范围 32
预计处理时间 33
验证方案 33
8.边缘交换机整机故障 33
具体现象 33
故障信息确认 33
故障处理 34
影响范围 34
预计处理时间 34
验证方案 34
9.核心光纤交换机整机故障 35
具体现象 35
故障信息确认 35
故障处理 35
影响范围 36
预计处理时间 36
验证方案 36
三、主要变更场景 37
1.微码升级 37
配置备份 38
微码升级 38
校验微码升级 40
微码升级常见问题 40
2.新设备上线 43
3.新增ZONE配置 62
4.修改CFG、ZONE、Alias的名字 64
5.删除ZONE或Zone的成员 65
6.板卡扩容 66
7.交换机扩容 69
补充命令介绍 71
Framelog--show指令:
71
Fabriclog--show指令:
72
75
前言
文档目的
此文档主要用于工行博科存储网络的日常变更操作、故障处理以及存储网络的规模扩展,帮助行内博科SAN岗维护人员快速定位修复故障、熟悉日常变更操作流程,以及提高博科SAN日常运维效率。
编写环境
此文档以工行上海数据中心SAN网络为基础编写。
适用人员
此文档主要面向工行SAN岗运维人员。
内容范围
内容范围涉及博科存储交换机的多个部件的故障维护处理以及常用变更操作等。
一、网络架构描述
工行的SAN网络架构由双冗余的Fabric构成,单路Fabric采用Core-Edge经典架构。
工行SAN网络大致分为以下两种,如下:
第一种:
以存储交换为目的的存储子网,如:
外高桥存储子网L2。
第二种:
以灾备为目的备份子网,如:
平台灾备、主机灾备等。
图1:
L2存储子网
Ø外高桥L2存储子网中,由四台DCX两两组建单路存储核心Core层,用于磁盘接入;单路四台DCX组成服务器接入Edge层。
Ø数据中心L2存储子网中两路Fabric的ISL均采用Trunk模式互联。
Ø所有的DCX导向器均运行相同的Firmware版本:
v7.2.0d_cvr_brcd_491687_05。
Ø博科SAN网络目前使用CLI命令行方式对所有设备进行配置和管理。
ØDCX导向器统一采用高性能、无超载比板卡FC8-32。
Ø每路fabric当中的Core和Edge由8条8G速率ISL连接,8条链路组成一个trunk,总带宽为64G。
图2:
平台灾备网络
Ø平台灾备网络,由三个数据中心组建,每个数据中心由两台相互冗余的DCX组成。
Ø外高桥与嘉定数据中心通过广域网链接组建FCIP通道与北京数据中心互联;嘉定和外高桥通过DWDM互联。
Ø六台DCX导向器均运行相同的Firmware版本:
v7.2.0d6。
ØFCIPTunnel通道由DCX导向器加FX8-24板卡构建。
二、主要运维场景
1.端口故障
具体现象
网管平台发现接口异常告警或SFP模块异常告警信息。
故障信息确认
通过zbcheck账户登入交换机使用命令errshow–r或errdump查看对应的错误日志和相应接口的状态。
DCX:
network#errshow-r
2016/06/04-22:
45:
30,[C2-1001],65547,SLOT5|CHASSIS,ERROR,GD48SN02-N1,Port79portfaultedduetoSFPvalidationfailure.PleasecheckiftheSFPisvalidfortheconfiguration.
2016/06/04-22:
45:
30:
000155,[C2-5254],855486/0,SLOT5|CHASSIS,WARNING,GD48SN02-N1,PHYSM[OID0x43428017](079)(PP06):
Portfault,reasoncode=13.PleasechangetheSFP,OID:
0x43428017,proto_physm.c,line:
1365,comp:
emd,ltime:
2016/06/04-22:
45:
30:
000145
2016/06/04-22:
45:
30:
000165,[C2-1001],855487/65547,SLOT5|CHASSIS,ERROR,GD48SN02-N1,Port79portfaultedduetoSFPvalidationfailure.PleasecheckiftheSFPisvalidfortheconfiguration.,OID:
0x43428017,proto_physm.c,line:
1368,comp:
emd,ltime:
2016/06/04-22:
45:
30:
000163
使用switchshow命令查看端口工作状态:
DCX:
network>switchshow
switchName:
GD48SN02-N1
switchType:
42.2
switchState:
Online
switchMode:
Native
switchRole:
Principal
switchDomain:
1
switchId:
fffc01
switchWwn:
10:
00:
00:
05:
1e:
36:
17:
24
zoning:
ON(SWITCHB_CONFIG)
switchBeacon:
OFF
IndexSlotPortAddressMediaSpeedStateProto
===================================================
78714014e00idN4No_LightFC
79715014f00idN4Laser_FltFC
8080015000idN4OnlineFCF-Port10:
00:
00:
00:
c9:
9e:
00:
58
正常情况下,连接设备的接口状态应该为up,如果是该接口没有连接设备,接口状态为:
No_Light。
常见接口故障状态列表如下:
Table1接口故障状态列表
接口故障状态
详细描述
Mod_Val
SFP模块处在生效确认过程中
Mod_Inv
SFP模块速率不匹配或不兼容
No_Sync
端口收到光,但无法同步
In_Sync
端口收到光,正在同步
Laser_Flt
SFP模块的激光发射器故障
Port_Flt
该端口被标记为Faulty状态
Diag_Flt
该端口自动诊断失败
Offline
该端口连接不稳定
Lock_Ref
该端口状态正处于锁定状态
通过Portshow命令确定端口状态:
DCX:
network>portshow7/15
portIndex:
79
portName:
portHealth:
FAULTY
Authentication:
None
portDisableReason:
None
portCFlags:
0x1
portFlags:
0x4401PRESENTU_PORTLEDFAULT
LocalSwcFlags:
0x0
portType:
10.0
portState:
2Offline
Protocol:
FC
portPhys:
3Laser_FltportScn:
2Offline
portgenerationnumber:
0
statetransitioncount:
2
portId:
014f00
portIfId:
43720018
portWwn:
20:
4f:
00:
05:
1e:
36:
17:
24
portWwnofdevice(s)connected:
Distance:
normal
portSpeed:
N4Gbps
LEdomain:
0
FCFastwrite:
OFF
Interrupts:
2753780Link_failure:
0Frjt:
0
Unknown:
0Loss_of_sync:
0Fbsy:
0
Lli:
2753780Loss_of_sig:
649661
Proc_rqrd:
0Protocol_err:
0
Timed_out:
0Invalid_word:
0
Rx_flushed:
0Invalid_crc:
0
Tx_unavail:
0Delim_err:
0
Free_buffer:
0Address_err:
0
Overrun:
0Lr_in:
0
Suspended:
0Lr_out:
0
Parity_err:
0Ols_in:
0
2_parity_err:
0Ols_out:
0
CMI_bus_err:
0
如果接口portHealth参数状态为Health,表明该接口正处于正常运行状态,其他状态表明端口可能发生故障。
故障处理
a.SFP模块故障
当确认是SFP模块故障后,建议立即收集Supportsave,并联系博科工程师协助执行RMA更换流程,Supportsave命令如下:
switch:
admin>supportsave
ThiscommandcollectsRASLOG,TRACE,supportShow,\
corefile,FFDCdataandthentransferthemtoaFTP/SCP/SFTPserver\
oraUSBdevice.Thisoperationcantakeseveralminutes.
NOTE:
supportSavewilltransferexistingtracedump\
filefirst,thenautomaticallygenerateandtransferlatestone.\
Therewillbetwotracedumpfilestransferredafterthiscommand.
OKtoproceed?
(yes,y,no,n):
[no]y
HostIPorHostName:
192.168.126.115/***FTPServer地址****/
UserName:
admin/****FTPUser****/
Password:
*******/****FTPUserPassword****/
NetworkProtocol(1-auto-select,2-FTP,3-SCP,4-SFTP)[1]:
2/****选择使用FTP协议****/
RemoteDirectory:
/temp/support/****指定数据上传的目录***/
Savingsupportinformationforchassis:
HL51,module:
RAS...
Savingsupportinformationforchassis:
HL51,module:
TRACE_OLD...
Savingsupportinformationforchassis:
HL51,module:
TRACE_NEW...
Savingsupportinformationforchassis:
HL51,module:
FABRIC...
Savingsupportinformationforchassis:
HL51,module:
CORE_FFDC...
Savingsupportinformationforchassis:
HL51,module:
DIAG...
Savingsupportinformationforchassis:
HL51,module:
RTE...
Savingsupportinformationforchassis:
HL51,module:
ISCSID_DBG...
............................................
b.端口状态为No_Sync解决方法
这种情况说明光纤链路信号同步异常,该端口所连接设备和交换机光传输信号不能正常同步,交换机端口和所连接设备无法正常通讯,解决方法参照步骤:
1. 先检查SFP工作是否正常。
switch:
admin>sfpshow9/1-f
Identifier:
3SFP
Connector:
7LC
Transceiver:
540c4020000000002,4,8_GbpsM5,M6swInter_dist
Encoding:
18B10B
BaudRate:
85(units100megabaud)
Length9u:
0(unitskm)
Length9u:
0(units100meters)
Length50u(OM2):
5(units10meters)
Length50u(OM3):
0(units10meters)
Length62.5u:
3(units10meters)
LengthCu:
0(units1meter)
VendorName:
BROCADE
VendorOUI:
00:
05:
1e
VendorPN:
57-1000117-01
VendorRev:
A
Wavelength:
850(unitsnm)
Options:
001aLoss_of_Sig,Tx_Fault,Tx_Disable
BRMax:
0
BRMin:
0
SerialNo:
UAA312074330032
DateCode:
120213
DDType:
0x68
EnhOptions:
0xf0
Status/Ctrl:
0x0
Alarmflags[0,1]=0x0,0x0
WarnFlags[0,1]=0x0,0x40
AlarmWarn
lowhighlowhigh
Temperature:
43Centigrade-15100-1095
Current:
7.124mAmps2.00010.5002.00010.500
Voltage:
3287.4mVolts2800.03800.02970.03630.0
RXPower:
-3.3dBm(465.3uW)0.0uW6550.0uW49.0uW1100.0uW
TXPower:
-3.0dBm(506.5uW)50.0uW800.0uW100.0uW700.0uW
SFP的收发光功率TXpower和RXpower一般在,-10~0之间。
小于或大于这个范围,说明SFP模块工作异常。
2.如果TXPower值不正常。
TXPower值不正常,基本可以确定SFP模块故障,常见SFP模块激光发射器故障,通过Switchshow命令显示端口状态为Laser_Flt.
DCX:
network>switchshow
switchName:
GD48SN02-N1
switchType:
42.2
switchState:
Online
switchMode:
Native
switchRole:
Principal
switchDomain:
1
switchId:
fffc01
switchWwn:
10:
00:
00:
05:
1e:
36:
17:
24
zoning:
ON(SWITCHB_CONFIG)
switchBeacon:
OFF
IndexSlotPortAddressMediaSpeedStateProto
===================================================
78714014e00idN4No_LightFC
79715014f00idN4Laser_FltFC
8080015000idN4OnlineFCF-Port10:
00:
00:
00:
c9:
9e:
00:
58
3.如果TXPower值正常,而RXpower工作不正常。
当RXpower不正常时,可使用排除法,把故障端口光纤线插在其他端口上,观察RXpower的工作状态,如果RXpower依然不正常。
说明故障出在光信号发射端口或光纤线上,然后检查光纤线是否老化,检查信号发射端口主机或存储HBA工作是否正常。
c.光纤线故障
如果switchshow显示端口工作状态正常;Portshow显示端口为Health;Sfpshow显示SFP模块收发光功率正常,但主机或存储端口显示该链路数据传输异常,如:
错包率较高、应用响应缓慢等。
这种情况下,首先检查故障端口计数器值,使用porterrshow命令如下:
porterrshow:
framesenccrccrctootoobadencdisclinklosslossfrjtfbsyc3timeoutpcs
txrxinerrg_eofshrtlongeofoutc3failsyncsigtxrxerr
40:
296.5m17.9m0000000000000000
41:
000000000000000000
42:
000000000000000000
43:
00000000