BM TSM 存储备份系统 介质故障原因分析及解决办法.docx
《BM TSM 存储备份系统 介质故障原因分析及解决办法.docx》由会员分享,可在线阅读,更多相关《BM TSM 存储备份系统 介质故障原因分析及解决办法.docx(6页珍藏版)》请在冰点文库上搜索。
BMTSM存储备份系统介质故障原因分析及解决办法
IBMTSM存储备份系统
介质故障原因分析及解决办法
存储备份系统报介质故障是TSM运维过程中常见故障之一;这里不是指硬件设备故障(硬件故障必须报IBM800售后),这里的介质故障指的是TSM备份软件中定义的磁带库设备由于机房断电、SAN交换机ZONE信息更改等原因导致TSM配置信息与系统重新识别到的磁带库设备信息不一致,引起的故障。
一、案例:
1、查看rman备份报错日志
channel t2:
starting piece 1 at 2015.08.24 01:
00:
19
RMAN-03009:
failure of backup command on t1 channel at 08/24/2015 01:
00:
26
ORA-19502:
write error on file "oracle_full_DB_1537363504_1279_1_759978018_20150824"", blockno 1 (blocksize=512)
ORA-27030:
skgfwrt:
sbtwrite2 returned error
ORA-19511:
Error received from media manager layer, error text:
ANS1312E (RC12) Server media mount not possible
channel t1 disabled, job failed on it will be run on another channel released channel:
t1 released channel:
t2
RMAN-00569:
========= ERROR MESSAGE STACK FOLLOWS ========
RMAN-03009:
failure of backup command on t2 channel at 08/24/2015 01:
00:
26
ORA-19502:
write error on file "oracle_full_SBDB_1137363504_1280_1_759978018_20110824"", blockno 1 (blocksize=512)
ORA-27030:
skgfwrt:
sbtwrite2 returned error
ORA-19511:
Error received from media manager layer, error text:
ANS1312E (RC12) Server media mount not possible
2、故障原因
工程师描述:
机房停电,重新启动磁带库和备份服务器后,备份不成功。
分析:
TSM备份软件,在机房异常停电(SAN网络交换机设备连接发生调整)等情况下,容易出现磁带库驱动器、介质变换器在操作系统中识别不到。
也有的时候,在停电重启时,TSM服务器识别到的磁带库设备名称会发生变化,造成与TSM服务器中已经配置的设备名不一致。
这样情况,都会造成TSM备份软件无法操作磁带库,导致备份失败。
3、检查设备状态、及配置信息
在设备管理器中检查磁带库设备状态;
在TSM管理控制台中检查磁带库设备名称;
检查TSM备份系统中磁带库设备配置信息;
对比设备名是否一致。
在设备管理器查看到磁带机设备和 媒体更换器设备状态是正常。
在TSM 管理控制台查看驱动器设备名称:
进入TSM管理命令行,对比之前配置的设备名是否不一致。
tsm:
TSMserver>querypathf=d
SourceName:
TSMserver
SourceType:
SERVER
DestinationName:
DRIVER1
DestinationType:
DRIVE
Library:
3584LIB
NodeName:
Device:
mt0.1.0.3
On-Line:
Yes
LastUpdateby(administrator):
ADMIN
LastUpdateDate/Time:
10/19/14 11:
49:
07
SourceName:
TSMserver
SourceType:
SERVER
DestinationName:
DRIVER2
DestinationType:
DRIVE
Library:
3584LIB
Device:
mt1.1.0.3
On-Line:
Yes
LastUpdateby(administrator):
ADMIN
LastUpdateDate/Time:
10/19/14 11:
51:
07
可以看出,TSM原有配置:
mt0.1.0.3
mt1.1.0.3
与TSM 管理控制台所显示的设备名称:
mt0.0.0.3
mt1.0.0.3
两者不一致,原因找到。
4、重新配置TSM设备
4.1更改配置
tsm:
TSMserver>UPDATEPATHtsmserverDRIVE1SRCTYPE=SERVERDESTTYPE=DRIVELIBRARY=3584LIBDEVICE=mt0.0.0.3
tsm:
TSMserver>UPDATEPATHtsmserverDRIVE4SRCTYPE=SERVERDESTTYPE=DRIVELIBRARY=3584LIBDEVICE=mt1.0.0.3
4.2删除配置,重新定义路径
删除配置
tsm:
TSMserver>delete path tsmserver drive1 srctype=server desttype=drive library=3584LIB
tsm:
TSMserver>delete path tsmserver drive2 srctype=server desttype=drive library=3584LIB
如果配置了存储代理,必须把存储代理的设备路径也得删除。
注意:
如果磁带机设备处于On-Line状态,删除的时候会报错;需要将磁带机设备更改为Off-Line状态,才可以删除。
重新定义路径
tsm:
TSMserver>define path tsmserver drive1 srctype=server desttype=drive library=3584LIB device=mt0.0.0.3
tsm:
TSMserver>define path tsmserver drive2 srctype=server desttype=drive library=3584LIB device=mt1.0.0.3
5、根本原因
出现这种错误的主要原因,一般是SAN交换机ZONE配置有问题;大部分是由于SAN交换机没有规划ZONE,SAN网络中所有设备在一个大ZONE里。