数据大集中分行前置系统VERITAS备份设计方案.docx
《数据大集中分行前置系统VERITAS备份设计方案.docx》由会员分享,可在线阅读,更多相关《数据大集中分行前置系统VERITAS备份设计方案.docx(27页珍藏版)》请在冰点文库上搜索。
数据大集中分行前置系统VERITAS备份设计方案
***银行数据大集中
分行前置系统
VERITAS备份设计方案
维尔软件有限公司上海办事处
第一章概述3
第二章需求分析4
第三章设计方案概述5
3.1配置及说明5
3.2备份时间的估算及备份性能提高的手段7
3.3备份和恢复的定义及实现7
3.3.1备份系统资源的定义7
3.3.2备份策略的定义8
3.3.3备份的复制和异地保存-Vault10
3.3.4数据的恢复11
3.3.5全局统一管理(GlobalDataManager)12
第四章备份的管理13
4.1备份系统管理员的职责13
4.2备份策略制定的角色13
4.3修改备份策略的过程13
4.4恢复的管理14
4.5介质管理15
4.6数据恢复的周期性演练制度16
第五章备份的维护-以VERITAS产品为例17
5.1每日维护工作17
5.2备份检查17
5.2.1确认网络连接18
5.2.2确认带库硬件正常18
5.2.3检查带库和磁带驱动器的状态19
5.2.4查看磁带的状态21
5.2.5确认机械臂能够正常工作21
5.2.6查看备份状态23
5.2.7查看历史的备份报告26
5.2.8NetBackup备份catalog数据库30
5.2.9磁带清洗30
5.2.10用bpps显示当前的备份进程31
5.3解决问题31
第一章概述
经过与***银行总行的交流,以及在合肥分行的现场实施,已基本确定备份系统所涉到的系统,数据库和备份策略。
本设计方案将针对备份系统包括的系统进行规划设计,为即将建立的其他33个分行前置集中备份系统提供参考。
这其中沈阳、石家庄、济南、南昌、武汉、长沙、南宁七家分行将在2005年1月23日上线前完成备份系统的实施,其余26家也将在2005年5月前完成安装。
设计方案将提供备份系统结构、磁带库使用、服务器及数据库备份、磁带使用等方面的建议。
由于***银行总行对大集中分行前置系统进行了详细周密的规划,各分行的系统架构具有相似性,不同的方面主要在主机型号,类型和特色应用,但这些都不影响备份系统的规划,故VERITAS的备份方案基本适用于所有分行,统一的备份规划也有利于系统的维护和人员的培训。
第二章
需求分析
***银行大集中分行数据集中备份主要要求如下:
1.数据的集中备份:
能用统一的方法对前置系统的AIX或HP-UX等操作系统和DB2数据库进行备份和恢复,实现对目前系统的统一备份;
2.备份的集中管理和集中监控:
形成数据管理策略,保证安全系统一致的数据安全性;
3.备份数据的快速恢复:
保证备份速度,可以对大容量数据进行并行备份;
4.建立一个易于管理的、可扩展的备份系统。
随着业务的不断发展,新的系统也将不断上线,备份系统需具备可扩展性。
5.可以对数据进行容灾保护,即整个数据中心如果都瘫痪了仍然可以在短时间内将企业的所有数据恢复回来。
6.在实现集中备份的时,确保不影响业务的正常运行,确保备份过程中备份数据所占带宽不影响正常的业务运行。
第三章设计方案概述
三.1配置及说明
备份系统方案目标:
对***银行大集中分行前置系统建立一个NetBackup集中管理的、自动化的、高速有效的备份手段。
同时,充分考虑到备份系统的扩充性,为今后新业务系统的备份管理打下基础。
∙建议的解决方案涉及以下软件模块:
VERITASNetBackupEnterpriseServer(NBU)
∙NBUMasterServerforUnix
∙备份主服务器,负责备份策略的管理及磁带信息、备份信息的管理
∙NBUSANMediaServerforUnix
∙介质服务器,安装于数据量大的服务器上,可以直接写磁带库
∙Librarytapesupport
∙磁带库支持
∙ShareStorageOption
∙磁带驱动器共享支持,用于LAN-Free备份
∙VaultOption
∙磁带离线保存选项,用于数据中心的灾难恢复
∙Media/Doc
∙光盘及文档
在这个系统中,我们建议采用集中统一的备份策略管理,通过NetbackupMasterServer,对所有系统的数据库和应用系统的备份工作进行集中的管理、监控,同时进行磁带库机械手控制。
我们建议采用一个IBM的LPAR或HP的partition担当MasterServer。
其他连接在光纤存储环境中的LPAR或partition,与MasterServer共享磁带驱动器,通过LAN-Free方式进行数据备份,该LPAR或partition称为MediaServer。
MasterServer配置为HA工作方式。
今后如果加入了其它服务器,可以通过网络或LAN-Free方式进行备份,主要可根据该服务器的数据量和存储结构来进行规划。
DB2数据库现阶段数据量较小,所以通过手工脚本在线备份到磁盘,再从磁盘以文件方式备份到磁带库,在将来数据量增加情况下若需要直接在线备份到磁带库,需要安装相应的NetBackupAgent。
备份系统结构图示如下(以安徽分行为例):
三.2备份时间的估算及备份性能提高的手段
备份时间取决于系统数据量及备份策略。
各分行的数据主要为ICS核心帐务,IFSS报表,PAEA后督,数据量估计为150G,现在的磁带机为两台LTO2,LTO2磁带机的速度平均为30MB/s。
根据以上的数据,也很难计算出准确的备份时间,因为还有磁带mount时间、clients端的数据吐出速度等因素产生影响。
因此,只能根据平均备份速度和每台服务器的数据量计算出大概估算的备份时间。
根据以上备份结构的设计,2个LTO驱动器,其根据经验,150G左右的数据利用2个LTO磁带机并行备份,可以在1小时内完成。
三.3备份和恢复的定义及实现
三.3.1备份系统资源的定义
采用这个系统,我们就可以对系统的关键数据进行自动备份了。
在系统备份以前,我们首先必须定义备份系统,分配次带库资源。
我们可以如下配置备份系统资源:
将带库中所有磁带驱动器定义成一组或几组资源(术语:
StorageUnit)。
这样,当你备份一组数据时,系统就会允许使用相应的磁带驱动器去备份相应的数据了。
对每个数据库服务器,我们可以定义一组磁带,作为一个磁带池(术语:
VolumePool),在自动备份时,备份系统回自动将该数据库备份到这个磁带池中。
例如我们可以定义(具体定义在实施方案中确定):
1.VolumePoolforIFSS报表
2.VolumePoolforICS核心帐务
3.VolumePoolfor操作系统
三.3.2备份策略的定义
定义好备份资源以后,我们必须根据实际需要配置备份策略。
定义备份策略,涉及到以下内容:
1.在什么时间(备份时间,如下午6:
00)、
2.将什么数据(备份内容,如主数据库数据)、
3.以什么方式(备份方式,如全备份或增量备份)、
4.通过哪组磁带驱动器(备份通道,如:
磁带驱动器)、
5.备份到哪一个磁带组(备份目的地,如:
VolumePoolfor主数据库)
在我们对每一组数据、数据库都根据需要定义好备份策略后,系统就会自动的按照我们定义的时间、方式、将需要备份的数据备份到我们指定的带库中去。
对其他一个LPARCluster的备份策略建议如下:
备份策略名
是否激活
Pool名字
备份时间
保存时间
备份主机
文件
Os_system
是
netbackup
手工发起
一年
cluster1
cluster2
cluster3
cluster4
cluster5
rp8420-6
/
/usr
/var
/opt
/home
Cluster1_ifss
是
netbackup
每天一次(2am-4am)
2周
cluster1
/app/ifssdat
/app/ifssbak
/app/paeadat
/app/icsdata
/app/icsdb2bk/arch
/app/icsdb2bk/data
/app/icsbak
Cluster1_db2
否
netbackup
Userbackup
1个月
cluster1
Cluster1_user_backup
否
netbackup
UserBackup
1周
cluster1
三.3.3备份的复制和异地保存-Vault
为了防止灾难事件,需要定期将已备份的数据存放到异地保存。
当本地磁带无法恢复时,可将异地磁带取回或在其它环境中将数据恢复出来。
NetBackup备份软件具有磁带复制功能。
其Vault功能选项更可实现策略化自动的基于备份作业而不是基于整盘磁带的复制功能,大于增加了数据复制和异地存放的灵活性和可管理性。
常规的做法是,在晚间,进行各服务器的备份操作;白天时,由备份服务器根据策略自动对昨晚进行的备份数据进行复制整合,复制后的磁带由管理人员取出磁带库异地保存。
Vault功能具有详细的报表功能,可列出哪些磁带何时被复制取出,哪些异地保存的磁带已到过期时间,可以取回重复使用。
下图为设定Vault的图示:
从上图可以看出,NetBackup的Vault复制可根据策略来复制“什么时间范围内的哪一个client的哪一个policy的哪一个schedule的通过哪一个mediaserver进行的备份”,因此,磁带的选择是由Vault策略来完成的,而不是需要由人工指定的。
同时,还可以根据策略定义一些磁带复制的属性,例如复制到哪一个VolumePool、过期时间是否改变、利用几个驱动器等。
磁带复制后的,原备份环境的catalog也应该异地保存,否则当灾难事件发生后,备份索引也遭到破坏,恢复只能通过import的功能将异地磁带一盘盘读一遍,重新建立catalog,这样将大大增加恢复的时间。
因此,catalogbackup也是Vault策略的一部分,在执行复制时自动进行catalog备份。
NetBackup有一种Policy的类型为Vault,可以选择定义好的某个Vault策略,由schedule调度定时执行。
三.3.4数据的恢复
当发生数据损坏时,我们需要从磁带库恢复数据。
有了VERITASNetbackup,数据的恢复是非常快速和简单的。
对于文件备份,通过Netbackup管理界面,系统管理员只需要选定相应的数据备份项目(备份管理目录下的相应的项目名,对应某个时间点备份的某个文件,并有说明),进行恢复(Restore)即可。
如果恢复整个目录,选择备份项目时,如前所述,首先选定最近一次全备份进行恢复,然后选定最近一次累计增量备份,最后选定这次累计增量备份以后的所有增量备份项目,依时间顺序进行恢复即可。
如果单独恢复某一个文件,只需选中需要时间点的备份即可。
DB2的恢复先将备份文件恢复到磁盘文件系统,再通过db2restore命令进行数据库恢复。
三.3.5全局统一管理(GlobalDataManager)
VERITASGlobalDataManager是功能强大的数据中心级解决方案,***银行总行只用一个图形界面,即可对各分行所有的备份和恢复环境进行广域监控和实时报告。
GlobalDataManager可无缝地集中管理VERITASNetBackup和VERITASBackupExec,系统管理员只要在一个管理控制面板,就可以对行内遍布全国各地的NetBackup系统进行直观的管理、监控和报告。
GlobalDataManager为管理员提供了企业里所有备份服务器的整合视图。
由于管理员能够从一个地点快速、方便地查看备份和恢复操作的重要统计数据和配置细节,因而能够有效监管各分行的备份作业,同时相当于不断进行各行备份系统的健康检查。
GlobalDataManager只需要到各备份服务器的TCPIP连接,其低网络开销不会影响备份服务器或网络。
GlobalDataManager实现了管理功能与备份流程分离,以进一步确保安全的数据保护。
即使GlobalDataManager与NetBackup主服务器断开连接,也不会影响存储域,因为其他地点的NetBackup主服务器仍能控制备份和恢复操作。
第四章备份的管理
四.1备份系统管理员的职责
如同系统管理需要设置系统管理员、数据库管理需要数据库管理员、网络管理需要网络管理员一样,管理备份系统也需要有相应的人员来负责。
备份系统虽然不如这些系统那么复杂,但也需要相当的学习才能对备份系统进行有效、安全地管理。
备份系统管理员可以是专职的也可以由系统管理员、数据库管理员或网络管理员兼职。
或许这些角色都集中在一个管理人员身上。
至少应安排一个备份系统的管理人员,如果条件允许,也可以安排另一个管理人员以防止主要管理员不在的时候有人负责对备份系统进行管理。
尽管备份系统管理员可以对整个备份系统进行任何操作,但实际上备份系统管理员的主要职责应该是协助其它管理者使用备份系统。
四.2备份策略制定的角色
无论是在制定新或改变已有的备份时策略时,备份系统管理员应与系统管理员和数据库管理员进行沟通,由他们决定备份策略的内容,也就是说备份策略的制定者应该是系统管理员和数据库管理员而不是备份系统管理员。
备份系统管理员只是负责协助他们使用备份系统。
由系统管理员和数据库管理员决定对哪些数据进行备份、备份在什么时候进行、备份是使用全备份或增量备份以及备份的保存周期等。
四.3修改备份策略的过程
有时,服务器系统的改变或数据库的改变以及应用的需求等,需要进行备份策略的的修正以适应这些改变。
当需要对备份策略进行改变时,应按一定的程序进行而不是由备份系统管理员自选决定进行修改。
首先,应由应用、系统或数据库管理员提出需求,将需要改变的内容如备份内容、备份时间、备份类型、备份频率和备份保存周期等以书面方式提交给备份系统管理员。
管理员收到修改需求后,需要确定修改内容的合理性以及修改对其它备份部分的影响。
如果确认可以进行修改再对备份系统进行修改。
管理员将备份系统修改的内容以书面方式记录下来,以备后用。
应对修改后的备份部分进行相应的测试。
四.4恢复的管理
恢复的操作直接影响到实际的应用。
如果进行了不正确的恢复操作可能会造成可怕的后果。
因此,恢复操作应严格按一定的操作程序进行,而绝不能由备份系统管理员或某一个应用者进行恢复操作了事。
❒故障确认
在进行恢复之前首先应该确认造成故障的原因。
故障的原因非常多,应该分清是操作系统的故障还是数据库的故障。
如果是数据库的故障,不同的数据库应采用不同的故障分析方法,有时可以使用数据库提供的故障诊断工具进行故障分析。
这些工作应由相应的管理者如系统管理员或数据库管理员负责进行,在完成故障分析后确认需要进行恢复操作时,由相应的管理者提交书面的故障分析报告。
❒制定恢复计划
备份系统管理员在收到故障分析报告后应与相应管理者一起制定详细的恢复计划,包括恢复的内容、恢复的时间、恢复的操作步骤、恢复对应用造成的影响等,最后形成一个书面的恢复计划。
备份系统管理者应将故障分析报告与恢复计划一起提交到相应的主管领导审批。
主管领导应确认恢复对生产造成的影响,在批准执行恢复前应以相应方式与有关部门进行沟通和通知有关部门进行恢复前的准备工作。
❒恢复操作
在进行实际的恢复前,备份系统管理者与相应管理者应再次确认恢复计划的可行性及造成的后果。
确认无误后进入到实际的恢复操作。
在进行恢复前,还应该做的一件事情是对现有的内容作相应的备份。
以防止在恢复的过程中发生更进一步的错误。
这可能是由于恢复计划制定得不合理造成的,也可能是操作失误造成的。
进行恢复操作时应将每一步的执行过程记录下来,以备后用。
❒恢复后的操作
完成恢复后应测试恢复的结果。
在完成恢复结果测试成功后,对恢复后的系统进行相应的备份。
最后,将执行恢复操作的管理者、恢复操作的时间、过程、完成的状况等形成书面报告,报有关领导进行审批。
有关领导确认恢复完成后,通知相应部门恢复有关的应用。
审批后的恢复报告应与故障分析报告、恢复计划、恢复操作报告一起进行存档。
四.5介质管理
❒介质的安全性
存放在备份磁带中的数据的重要性是不言而谕的。
因此,防止因环境、人为等因素对磁带造成损坏,还要防止人为泄密等,需要对备份磁带进行有效安全的保护。
备份系统管理者应随时将磁带库上锁,同时,在可能的情况下防止非有关人员接触备份系统。
备份系统管理者还应该严密保存备份系统管理者的口令,以防止有人无意或恶意对备份系统及备份进行破坏。
❒介质的存放
为了防止灾难的发生,备份的介质必须定期送往异地进行存放。
方案建议对所有关键数据进行介质复制,备份完成后将复制的介质取出存放到异地,将所有备份数据的介质从备份磁带库中取出存放到异地。
对于每天进行的增量备份可以每天完成备份后将备份数据介质从磁带库中取出进行异地存放。
取出数据备份介质的同时也应将备份系统数据库的备份介质一同取出进行异地存放,以便于在灾难恢复时能够快速重建原有备份系统。
❒对长期保存的备份进行校验
应该定期对长期保存的备份进行校验,以防止在需要时备份不可用的情况发生。
四.6数据恢复的周期性演练制度
要能够保证发生数据灾难后进行可靠的恢复,光进行备份是不够的,还要进行数据恢复的演练。
每过一段时间,应进行一次数据灾难演习。
可以利用系统正常维护的停机时间内进行(演练前要做一次系统的全备份),也可以利用淘汰的机器或多余的硬盘进行数据灾难的模拟,以熟练数据恢复的操作过程,并检验所制定的备份策略的有效性和备份的可靠性。
第五章备份的维护-以VERITAS产品为例
VERITASNetBackup和硬件状态必须周期性地进行维护和管理。
虽然备份的执行是自动的,进行周期性的状态检查能够减少问题的发生。
备份工作主要有如下几项:
状态检查–包括检查备份前,备份后和备份过程中整个环境是否正常,保证定时的备份能够成功结束
问题确认–包括确认和解决能够影响备份或恢复能够成功进行的各种非正常因素.
带库维护–包括每日的带库和磁带维护工作
五.1每日维护工作
任务
描述
打开NetBackup图形界面
在管理平台上必须能够使用NetBackup的图形界面
五.2备份检查
备份前的状态检查主要确认所有的备份资源可用,任何可能发生的问题都在备份前预先解决。
这部分的检查工作每日下午4点进行
五.2.1确认网络连接
任务…
结果…
通过ping命令或telnet13782确认网络连接正常.
所有不通过防火墙的主机均应能ping通,通过防火墙的主机应能够通过telnet13782端口连通
对任何有网络连接问题的机器:
问题…
尝试…
Server无法ping通
联系网络支持工程师.
Server连接不上13782端口
确认NetBackup进程在运行
五.2.2确认带库硬件正常
任务…
结果…
通过带库面板查看是否有日志
不能有错误日志
对任何有错误日志的带库:
问题…
尝试…
如果有任何错误日志
联系带库硬件支持工程师.
五.2.3检查带库和磁带驱动器的状态
任务…
结果
在图形界面点击DeviceMonitor或运行”vmoprcmd–d”命令
显示DeviceManagement的图形界面
查看磁带驱动的状态
所有的驱动器必须是UP状态
问题…
尝试…
有个驱动器是DOWN的状态
在图形界面中选择UP这个驱动器或者运行”vmoprcmd–up”
问题…
尝试…
在SSO环境中,“vmdareq”命令没有显示SCAN_HOST
执行”netbackupstop;netbackupstart”重起进程,或是通过图形界面”restartmediamanagerdaemon”
五.2.4查看磁带的状态
在备份作业发起之前,非常重要的是确认有足够的磁带用于备份
任务…
结果…
执行available_media命令
有足够量的磁带在ACTIVE或AVAILABLE状态
五.2.5确认机械臂能够正常工作
这个步骤用来确认带库中的物理磁带和NetBackupcatalog中的一致.
任务…
结果…
打开MediaManagement图形界面,选择RobotInventory来更新磁带的配置信息
可以确认带库中的磁带和NetBackup记录的一致
如果内容正确,会显示如下内容:
-----------------------------------
09/23/9911:
38:
31>Inventory&UpdateforTLD(0)onbkup_pc2650
-----------------------------------
Generatinglistofrecommendedchanges…
Volumeconfigurationisup-to-datewithrobotcontents.
问题…
尝试…
如果有问题发生
联系更高一级的支持工程师
五.2.6查看备份状态
启动Activitymonitor:
任务…
结果
在图形界面上点击ActivityMonitor
Jobs列表显示出当前和完成的备份作业
最主要的信息是State和Status栏.
任务…
结果…
查看State状态
ACTIVE状态表示一个作业在运行;Done表示一个作业已经结束
Elapsed栏和%complete指出备份作业已经运行了多久
Dothis…
Result…
查看STATUS状态
状态应该是0,如果有其它状态,请查看NetBackupTroubleShootingGuide.
下列表格列出了备份作业中每一个栏目的信息
栏目
解释
JobID
AuniquenumberthatNetBackupassignstoeachjob
JobType
Backup,Archive,orRestore.
State
Status
NetBackupstatuscodethatindicatesthecompletionstatus.Therewillbenovalueuntilthejobisdone.Astatusofzero(0)meansthatthejobcompletedsuccessfully.Anyothercompletion