烟草行业信息系统容灾备份建设规范Word文件下载.docx
《烟草行业信息系统容灾备份建设规范Word文件下载.docx》由会员分享,可在线阅读,更多相关《烟草行业信息系统容灾备份建设规范Word文件下载.docx(15页珍藏版)》请在冰点文库上搜索。
7.2.7.时间同步服务部署要求
7.3.预案开发
7.3.1.预案总体要求
7.3.2.预案组成
8.交付阶段
8.1.功能测试
8.2.预案验证
9.运维阶段
9.1.运行维护
9.1.1.运行维护原则
9.1.2.运行维护内容
9.2.容灾演练
附 录 A(资料性附录)
风险等级评估模板
前 言
本标准由国家烟草专卖局烟草经济信息中心提出。
本标准由全国烟草标准化技术委员会信息分技术委员会归口。
本标准主要起草单位:
国家烟草专卖局烟草经济信息中心、中国烟草总公司信息系统上海容灾中心、杭州新世纪电子科技有限公司。
本标准主要起草人:
本标准规定了烟草行业信息系统容灾备份建设应遵循的分析、规划、实施和运行管理要求。
本标准适用于烟草行业各单位开展信息系统容灾备份工作。
下列文件中的有关条款通过在本规范有关部分的引用而成为本规范的条款。
凡注明日期或版次的引用文件,其后的任何修改单(不包括勘误的内容)或修订版本都不适用于本规范,但提倡使用本规范的各方探讨使用其最新版本的可能性。
凡不注明日期或版次的引用文件,其最新版本适用于本规范。
GB/T20988-2007
信息安全技术
信息系统灾难恢复规范
GB/T30285-2013
灾难恢复中心建设与运维管理规范
GB50174-2008
电子信息系统机房设计规范
国烟办〔2016〕339号
国家烟草专卖局关于烟草行业信息系统容灾备份工作的指导意见
3.1
业务影响分析businessimpactanalysis
BIA
分析业务功能及其相关信息系统资源、评估特定灾难对各种业务功能的影响的过程。
[GB/T20988-2007,定义3.5]
3.2
恢复时间目标
recoverytimeobjective
RTO
灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。
[GB/T20988-2007,定义3.18]
3.3
恢复点目标
recoverypointobjective
RPO
灾难发生后,系统和数据必须恢复到的时间点要求
[GB/T20988-2007,定义3.19]
3.4
生产中心
productioncenter
利用数据中心场地和环境支撑机构生产系统运行,对机构的重要信息进行集中管理和处理的场所和组织。
[GB/T30285-2013,定义3.4]
3.5
灾难恢复中心
disasterrecoverycenter
满足机构关键业务运营连续性的要求,利用数据中心场地和环境支撑机构灾难备份系统运行,抵御导致生产系统全部或部分不可用的灾难,用以接替生产中心部分或全部职能,对机构重要信息进行集中管理和处理的场所和组织。
注:
灾难恢复中心也称为容灾中心或灾备中心。
灾难恢复中心按照其风险防范职能及与生产中心的距离,可分为同城灾难恢复中心和异地灾难恢复中心。
[GB/T30285-2013,定义3.5]
3.6
数据备份
databackup
数据备份是利用备份软件将信息系统数据按照既定备份策略定期备份到磁带或磁盘等介质的一种数据保护措施。
3.7
数据级灾备
dataleveldisasterrecovery
数据级灾备用于保护信息系统数据安全,通过数据复制工具在异地建立一个本地数据的可用副本。
当本地生产系统出现不可恢复的故障时,灾备系统提供数据恢复功能。
3.8
应用级灾备
applicationleveldisasterrecovery
应用级灾备是在信息系统数据级灾备的基础上,部署与原信息系统功能相同的后备系统,当生产系统发生灾难时,信息系统切换至后备系统运行,相关功能或服务可快速恢复并承担应用负荷。
根据GB/T30285-2013
4.2定义,灾难恢复项目分为五个阶段:
分析、规划、建设、交付、运维。
图1
灾难恢复中心建设与运维管理生命周期模型
风险识别的结果是列出生产中心面临的潜在风险。
可参考潜在风险包括但不局限以下内容:
a)自然灾害:
如洪水、地震、雪灾、台风、海啸等;
b)机房灾难:
如火灾、供电中断、UPS故障、空调故障、通信线路故障等。
c)系统故障:
如重大软硬件故障、人为误操作、病毒攻击等。
a)风险频率
根据经验或统计数据评估各类自然灾难、机房灾难风险发生的频率,并对风险发生的频率进行等级化处理,不同等级分别代表风险发生的频率的高低。
等级数值越大,风险发生的频率越高。
风险频率等级定义如下:
表1风险频率等级定义表
等级
标识
定义
5
很高
出现的频率很高;
或在大多数情况下几乎不可避免;
或可以证实经常发生过
4
高
出现的频率较高;
或在大多数情况下很有可能发生;
或可以证实多次发生过
3
中等
出现的频率中等;
或在某种情况下可能会发生;
或被证实曾经发生过
2
低
出现的频率较小;
或一般不太可能发生;
或没有被证实发生过
1
很低
几乎不可能发生;
仅可能在非常罕见和例外的情况下发生
b)风险影响力
风险影响力是各类自然灾难、机房灾难风险发生后对生产中心造成损害的严重程度。
将风险影响力进行等级化处理,不同的等级分别代表不同风险造成损害严重程度的高低。
等级数值越大,风险影响力严重程度越高。
风险影响力等级定义如下:
表2
风险影响力等级定义表
如果风险发生,将对生产中心基础设施及系统运行环境造成完全损害
如果风险发生,将对生产中心基础设施及系统运行环境造成重大损害
如果风险发生,将对生产中心基础设施及系统运行环境造成一般损害
如果风险发生,将对生产中心基础设施及系统运行环境造成较小损害
如果风险发生,对生产中心基础设施及系统运行环境造成的损害可以忽略
c)风险评估值
行业单位需要评估生产中心所面临的每一类风险,并得出风险评估值。
风险评估值的计算方法为风险频率和风险影响力等级的乘积。
风险评估值=风险频率等级×
风险影响力等级。
d)风险等级
风险评估结果值根据范围划分为5个风险级别,划分方法见表3。
行业单位需要根据生产中心面临的最高风险等级开展灾备建设工作。
风险等级评估方法参见附录B。
表3
风险评估值
1-5
6-8
9-14
15-19
20-25
风险等级
行业单位应开展本单位信息系统业务影响分析工作,采用定量分析和定性分析相结合的方式来评估各信息系统在发生灾难之后的损失。
灾难损失评估方法参考但不限于以下评估内容:
a)定量损失包括但不限于以下方面:
——由于业务停止导致资金损失,资金支出等;
——由于意外中断时间造成的运行费用支出;
——由于违反合同条款、法规条款招致的资金损失;
——由于违反调整所依赖的资源招致的资金损失。
b)定性损失包括但不限于以下方面:
——导致消费者、零售户、烟农、企业员工对相关信息系统的使用不便;
——消费者、零售户、烟农对企业的信任损失;
——企业市场份额和竞争优势的损失。
明确各信息系统的关联关系及其所必需的配套系统和基础设施。
门户、身份认证、消息中间件、企业服务总线等对于灾备系统切换后正常运行不可或缺,也需将其纳入相应容灾保护范围,并根据信息系统之间的依赖性关系确定其关键度等级。
行业单位根据业务影响分析和信息系统关联分析结果,结合行业单位实际情况,确定各信息系统关键度等级。
根据烟草行业特点,将信息系统划分为核心、重要、一般三个关键度等级。
a)核心:
影响面大、业务连续性要求高,系统中断或数据丢失会造成重大经济损失,对行业经营管理及社会公众服务产生重大影响。
b)重要:
影响面较大、业务连续性要求较高,系统中断或数据丢失会造成较大经济损失,对行业经营管理及社会公众服务产生较大影响。
c)一般:
信息系统对数据丢失或系统停顿具有一定容忍度。
行业单位需要首先完成生产中心加固和本地数据备份,抵御各类系统故障造成的风险。
生产中心加固包括生产中心机房基础设施以及应用支持环境加固,用于抵御应用中断的风险。
本地数据备份要求全面可靠,用于抵御数据丢失的风险。
a)机房环境达到《电子信息系统机房设计规范》(GB50174-2008)B类机房标准,并通过当地消防部门验收。
b)机房具有两路或两路以上的电力供应接入方式。
c)部署冗余的网络通讯接入线路。
d)核心和重要信息系统的应用支撑环境(如主机、存储、网络等)采用冗余部署模式,避免单点故障。
a)备份范围:
生产中心内所有信息系统。
b)备份内容:
各信息系统的数据库、非结构化文件、应用程序包和源代码、配置信息、基础软件等进行系统恢复时必要的数据资源。
c)备份指标:
RTO≤48小时,RPO≤24小时。
d)备份频率:
核心和重要信息系统数据每周至少全备1次,一般信息系统数据每月至少全备1次,其余每日做好增量备份。
e)保留周期:
备份数据保留周期2个月以上。
f)备份介质:
备份介质要求安全可靠,备份与恢复效率高。
有条件的单位应实现主备份介质与冗余备份介质分建筑物存放。
g)恢复手册:
针对各信息系统制定详细恢复操作手册,明确所需资源及详细操作步骤。
h)数据验证:
建立备份恢复环境并开展异机数据恢复测试,确保备份数据可用。
行业单位完成了本地数据保护后仍存在亟待抵御的自然及机房灾难,需要根据各信息系统的关键度等级以及生产中心面临的风险等级有针对性的选择灾难恢复策略,并制定本单位各级信息系统灾难恢复指标。
灾难备份策略包括数据级灾备和应用级灾备。
行业信息灾难恢复参考指标见表4。
表4
行业信息灾难恢复参考指标
信息系统
关键度等级
生产中心
灾难恢复策略
参考恢复指标
核心
应用级灾备
RTO≤6小时,RPO≤30分钟
数据级灾备
RTO≤6小时,RPO≤1小时
重要
很高、高
RTO≤24小时,RPO≤4小时
行业单位结合实际情况,依据国烟办[2016]339号,选择以下三种模式之一进行灾备系统建设。
a)利用中国烟草总公司信息系统上海容灾中心资源。
具备数据集中存储条件的行业单位可利用上海容灾中心资源开展灾备系统建设工作。
备份到上海容灾中心的数据归建设单位所有,未经建设单位同意,任何单位均不得使用和发布相关数据。
b)利用本单位自有资源。
行业单位充分利用本单位和所属单位符合要求、基础环境适用的既有资源开展灾备系统建设工作。
c)利用外部社会资源。
在确保数据与系统安全的前提下,可以选择专业性强、安全保护等级高、运营规模大、费用合理的社会化服务机构进行灾备系统建设。
现状梳理包括全面梳理信息系统总体逻辑架构、基础设施架构及信息系统部署环境和资源需求情况,为项目后期的各项活动提供分析依据。
现状分析内容包括但不局限以下内容:
a)主机设备:
设备型号及配置、操作系统版本、主机名称、网络配置、存储空间及文件系统划分、功能角色。
b)存储设备:
设备型号及配置、微码版本、现有存储空间分配情况。
c)存储交换机:
设备型号及配置、微码版本、现有端口使用情况、端口映射配置信息。
d)网络设备:
拓扑结构、设备型号及配置、互联网、省域网及外联网部署情况。
e)数据库:
数据库类型及版本、实例名称、配置文件、数据文件名称、路径及大小。
f)中间件:
中间件类型及版本、程序包信息。
g)应用系统:
主要功能、用户说明及使用频率、业务高峰时段、部署信息、年数据增量、关联应用及接口方式。
a)数据复制:
采用远程实时数据复制技术。
b)资源配置:
满足灾难发生后完成数据恢复的最低资源配置需求。
满足灾难发生后信息系统正常切换并能提供应急服务的最低资源配置需求。
c)部署要求:
部署信息系统可接管全部功能和服务及必需的关联系统和辅助支撑系统。
数据复制方案可选择连续数据保护技术、数据库复制技术、文件系统复制技术等。
a)站点级灾备(信息系统灾备数量>
3套)宜选择连续数据保护技术;
b)系统级灾备(信息系统灾备数量≤3套)宜选择数据库复制技术或文件系统复制技术;
c)行业省级前置环境相关信息系统宜选择数据库复制技术或文件系统复制技术;
d)在必要情况下,可选多种技术组合作为数据复制方案。
数据复制方案基本要求如下:
a)支持窄带网络环境下的异步数据复制;
b)支持双向数据复制和切换;
c)支持增量回切功能,减少回切数据同步的时间;
d)实现容灾后生产中心性能下降不超过20%;
e)生产中心适应性改造适度;
f)数据复制方案采用冗余设计,避免单点故障;
g)提供集中监控管理工具,开放与第三方运维监控工具的标准接口;
h)数据库部署要求:
需要部署灾备的信息系统单独创建数据库实例,不允许共享其他系统数据库实例。
每数据库实例划分独立存储空间和卷组,用于存放数据文件,不允许不同数据库实例共用同一卷组。
a)数据级灾备系统建设生产中心与容灾中心的互联网络;
b)应用级灾备系统建设除建设生产中心与容灾中心的互联网络外,还需建设各分支机构与容灾中心的互联网络及必要的互联网出口,并建立合理的路由策略。
生产中心部署域名解析主服务器,容灾中心部署备用域名解析服务器。
灾难切换时,通过调整主备域名解析服务器设置,实现应用访问链接的转换。
生产系统和灾备系统时间必须保持同步。
行业单位设立专门的团队进行灾难恢复预案的开发。
灾难恢复预案用于指导相关人员在预定的灾难恢复目标内恢复信息系统的关键数据和业务功能。
灾难恢复预案开发遵循“完整性、易用性、明确性、有效性”原则,并满足以下要求:
a)灾难恢复预案应明确灾难发生时进行灾难恢复的组织管理体系,至少应包括灾难恢复的决策体系、灾难恢复指挥体系和灾难恢复的执行体系。
b)灾难恢复预案应明确灾难恢复的管理和响应流程,应包括:
灾难宣告、人员的通知和集结、评估和决策、灾难恢复技术操作、灾难恢复成功标志等。
c)灾难恢复预案应包括明确的技术操作说明,包括执行权限、操作步骤、操作指令、返回结果、异常处置等,技术操作说明中应明确操作步骤、执行顺序和依赖关系。
d)灾难恢复预案应标明最后更新日期和版本号,明确灾难恢复预案的更新、发放管理办法和负责人;
新版本灾难恢复预案发布后老版本灾难恢复预案应集中收回并销毁。
行业单位的灾难恢复预案应由《指挥手册》和《操作手册》两部分内容组成。
《指挥手册》包含了灾难评估、策略制定、灾难宣告等灾难恢复流程,不涉及详细的技术细节,是行业单位进行灾难恢复决策和指挥的依据。
在灾难恢复过程中,该手册由决策人员、评估人员、指挥人员、协调人员共同使用。
《操作手册》包含了业务系统在各种场景下由主中心切换到容灾中心、在容灾中心持续运行以及业务系统从容灾中心回切到主中心过程中所有施加在信息系统上的技术步骤和操作。
在灾难恢复过程中,该手册主要由指挥和执行人员共同使用,同时作为协调人员的参考依据。
交付阶段是项目建设完成后,对行业单位灾备系统和灾难恢复预案等方面进行全面地验证,以确保灾备系统接数据恢复的能力,是灾备系统由建设阶段向运维阶段过渡的重要环节。
行业单位组织针对灾备系统数据复制的有效性进行测试,包括灾备数据的可用性测试和完整性测试。
a)可用性测试:
采用技术手段对灾备系统的可用性进行验证,确保灾难发生后的数据恢复能力。
b)完整性验证:
采用技术手段对生产中心与容灾中心数据进行一致性比对,确保数据丢失量满足灾难恢复指标要求。
行业单位在灾备系统正式启用前应至少组织一次灾难恢复演练,验证灾难预案的可行性、正确性、有效性,并针对验证过程中出现问题进行修正和更新。
参见GB/T30285-2013
8.1。
a)保障数据同步。
数据级灾备和应用级灾备都需要保障数据同步。
——严格制定灾备系统部署及变更管理流程,确保与主中心系统配置一致;
——定期检查数据库服务器运行状态,确保灾备系统数据库可随时启用;
——实时监测业务数据复制情况,确保灾备系统启动后关键业务系统数据丢失量小于RPO指标;
——定期核查手工恢复应用运行环境所需的软件安装介质、程序包、源代码、配置文件等在容灾中心处于可用状态且版本与主中心保持一致。
b)保障灾备系统可接管。
应用级灾备在保障数据同步的基础上还需要保障灾备系统随时可以接管生产系统的应用功能。
——定期检查应用服务器运行状态,确保应用环境稳定、应用系统可随时启用;
——定期对应用程序版本、系统软件版本、固件程序版本、关键配置参数等与主中心信息系统进行对比与核查,确保灾备系统与生产系统同步;
——梳理应用系统间相互接口关联,应用与集成门户、CA间关系,确保灾备系统功能完整可用;
——定期对灾备系统进行性能测试,保障主备中心系统性能接近,满足实际使用需求。
c)保障网络连通。
数据级灾备需要保障主备中心间的网络连通,应用级灾备还需要保障同用户的网络连通。
——定期检查网络运行状态,验证容灾中心与主中心之间、容灾中心与用户单位之间的网络双向连通性;
——定期进行应用功能测试,模拟业务流程;
——确保灾备系统启用后,用户单位可正常访问。
d)保障生产系统可用。
灾难切换发生后,灾备系统已经转换实际运行的生产系统,对于该类系统的运维参照生产中心的管理要求和规范执行。
a)演练目标。
灾备系统演练的目的包括:
——检验灾备系统、容灾技术架构的可用性;
——检验灾难恢复计划的有效性;
——提高灾难恢复管理组织成员完成职责的熟练程度。
b)数据验证技术要求
每季度至少进行一次灾备系统数据的技术验证。
验证主要由信息化部门及相关运维商开展。
验证内容包括数据的可用性和一致性。
数据可用性验证通过启动灾备系统的磁盘卷组和数据库,确认其运行状态。
数据一致性验证通过比对主备中心同一数据库在相同时间点的数据量,确认数据完整无丢失。
c)应用验证技术要求
每半年至少进行一次灾备系统应用的可用性技术验证。
验证内容包括启动灾备系统的磁盘卷组、数据库及中间件,确认其运行状态;
初步检查灾备系统界面及功能。
d)容灾演练开展要求
——演练组织要求:
每年至少组织一次灾备系统演练。
演练参与人员包括业务部门、信息化部门以及相关灾备系统的运维商。
演练可模拟全局或局部的灾难,涵盖全部或部分灾备系统。
灾难恢复管理组织成员依据《指挥手册》进行灾难情况下的评估、决策、指挥及协调工作,依据《操作手册》执行相关具体操作。
——演练开展方式:
灾备系统演练开展方式应遵循“从易到难,循序渐进”的原则。
系统数量逐步增多,演练难度逐步提高。
——演练参加部门或人员:
信息化部门、运维服务商以及相关业务部门。
——演练职责分工:
信息化部开展演练的计划制定、组织开展、《指挥手册》和《操作手册》的完善、容灾部署的完善。
运维商服务提供容灾演练的技术支持。
业务部门配合信息化部门进行演练的开展,及时告知信息化部门灾备系统存在的问题并协助其改进。
——演练准备工作:
灾备系统演练之前需要做好充足的准备工作,包括:
组织协调、人员培训、系统测试、手册验证等。
如果涉及到对业务的影响,演练应获得管理层和相关业务部门的批准后方可执行,并对可能产生的风险做好应对预案,避免由于演练组织不当对业务造成重大影响。
附 录 A
(资料性附录)
风险类别
风险名称
风险频率
风险影响力
最高风险等级
自然灾难
洪水
地震
雪灾
台风
海啸
......
机房灾难
火灾
供电中断
UPS故障
空调故障
通信线路故障
评估结论