您现在的位置是:首页 > 行业 > 金融 >

“两地三中心”模式的道路之选

2013-01-04 09:25:06作者:来源:

摘要在“两地三中心”已逐渐成为各行灾备建设通行模式的大背景下,“大同城、小异地”、“小异地、大同城”、双活、多活等不同的建设策略和发展道路形成各家商业银行灾备体系的别样风格。...

  近年来,随着金融服务体系对国内经济和社会稳定影响的进一步加深,国际地区性冲突和全球自然灾害频发,国内各家商业银行无不把信息系统灾备建设做为信息科技管理工作的重中之重。在“两地三中心”已逐渐成为各行灾备建设通行模式的大背景下,“大同城、小异地”、“小异地、大同城”、双活、多活等不同的建设策略和发展道路形成各家商业银行灾备体系的别样风格。本文结合光大银行10年来的灾备体系建设和运营实践,希望通过对不同策略选择要素的比较分析为国内银行的灾备体系建设提供借鉴。

  一、背景与现状

  2010年银监会发布的《商业银行数据中心监管指引》首次对国内商业银行同城和异地灾备中心建设等级提出较明确要求。据此,包括5大国有商业银行在内的几乎所有全国性股份制商业银行(总资产规模均超过万亿)均应同时拥有同城灾备中心和异地灾备中心。

  目前,各家银行虽然将灾备体系建设基本统一到“两地三中心”模式上,但在同城和异地灾备中心建设顺序上,以及灾备的范围、等级、规模和技术实现等方面依然存在较大差异,各行灾备体系对业务连续性的保障程度不尽相同。笔者认为,这既有分析之后的策略之选,也有技术架构历史的沿袭。在此,我们可以从银行应用系统入手,通过分析组成应用系统的不同基础设施所呈现的不同特点,了解在灾备中心建设过程中不同策略的选择思路。

  一般来说,我们可以把保障一个应用系统正常运行的IT基础设施简单划分为以下5个部分:存储,通过数据库管理和存放业务数据;服务器,运行应用软件或程序;网络通信,为用户与系统、系统与系统之间进行数据交换提供渠道;建筑物,为上述三项设施提供存放场地,以及配套的供电设施;区域,包括建筑物所在的地理环境和配套交通、通讯、电力等环境因素。

  可以看出,以上五项中的任何一项基础设施发生灾难,都会造成应用系统整体不可用。这里需要注意:各项基础设施发生灾难的概率和面临的风险大不相同;为保证基础设施的恢复效果,所采取的技术手段完全不同;实现不同灾备技术方案所投入的成本差距巨大;即使上述基础设施都建立了相应的灾备系统,其实现业务连续性的效果,或者业务永续运行可依赖于灾备系统的程度也不尽相同。

  二、基于风险的分析

  首先,银行信息系统生产运行集中的数据中心通常面临如下风险(如下图所示)。由于小规模的自然灾害、设施不完备、设备故障和人为操作等原因,造成建筑物内的供电、通信设施、运行设备、人为失误等故障是较大概率事件。此类风险(灾难或故障)事件通过建立高可用性系统或一个与生产中心在供电、通信和生产设备相独立的同城灾备中心即可以解决。国内外银行信息系统生产运营实践表明:信息系统的管理者应该更多关注如何应对信息系统本身的故障,以及直接为信息系统提供保障的机房环境、电力、通信等基础设施的灾难风险。以光大银行为例,多年来一直坚持完善和健全两个互为备份、处理能力相同的同城灾备中心。南于机房基础设施、网络环境和生产设备的相互独立和备份,这些年在机房供电、制冷、通信线路、网络系统和硬件设备上的各类故障都被同域灾备中心所化解。

  其次,同城灾备可以抵御楼宇或园区范围的灾难,导地灾备可以抵御战争、地震、海啸、台风等区域级的人为或自然灾害。目前,国内全国性银行的总部一般位于北上广深等国内一线城市,这些城市不仅是经济重镇.而且是战略要地。如果从区域性灾难风险评估,他们所面临的风险,已经不是一个企业所面临的风险,而是整个国家从战略高度所要应对的风险。做为国家经济命脉的金融业有必要认真研究如何应对此类风险。做为国内银行业支柱的四大国有银行与众多股份制商业银行是否需要投入相同的资源、建设同等规模的异地灾备中心来应对此类风险,是随得谈讨的问题。 银行的灾难恢复能力已成为评价一家银行安全性的重要指标。当发生区域性灾难时,如果某家银行可以一枝独秀迅速恢复对外服务,其竞争力必然得到凸显。美国“9.11”事件中摩根斯坦利银行就是一个有力证明。同样当面临非区域性灾难时,如果某家银行无法从个体上的灾难中迅速恢复业务,即显露其在灾难体系建设和管理上存在的偏差。另外,在众多银行信息系统中,哪些是影响国家经济民生的,哪些是银行服务与支付能力的集中体现,哪些是出现灾难后需要优选恢复的.哪些是只需业务数据备份,可以暂缓恢复甚至等到市场稳定后再恢复的,这些都是我们选择异地灾备系统范围.选择应用级灾备还是数据级灾备的考虑因素。

  三、基于技术实现的选择

  灾难总要发生,只是概率问题。我们建设灾备中心的理念和愿望是正确的,但我们是否能够将一切希望寄托于灾备系统上,目前的技术条件和外部环境是否允许我们把业务永续运行完全托付于本行的IT系统恢复能力,值得深入思考。

  围绕构成应用系统的五项IT基础设施,根据需要保护的设施对象不同.保证灾难恢复所使用的技术手段不尽相同,其实现业务永续运行的效果也有所差异。容灾最基本的方式是冗余:磁盘镜像技术、服务器热切换技术、网络动态路由技术等使得部署在本地机房的冗余设备可以在灾难发生时迅速替代宕机设备,保证应用系统正常运行。上述高可用性技术是解决设备级灾难的有效方案,其技术成熟度足以使灾难恢复瞬间完成,避免数据丢失。即使有业务中断(一般在几分钟内)也可以忽略不计,一般只需IT部门控制和参与,无需业务部门关心。

  为了应对建筑物级和区域级两种灾难,银行建立了同城和异地灾备中心。由于不同灾备方式的生产和备份设备之间的距离不同,所带来的技术问题也有所差异。对于异地灾备的实现,磁盘的本地镜像已无法满足远程的数据复制和恢复要求,即使增加网络带宽,远程镜像技术依然会存在数据丢失;服务器热切换如果没有第三方软件支持,基本无法实现,而且切换时间和复杂度明显增加;网络接人已无法实现在目标地址不变情况下交换和路由像本地一样无缝切换。南于距离给灾备技术实现带来的挑战短期内难于突破,其直接结果是RPO和RTO缩水。异地灾备中心所无法解决的RPO和RTO问题应该由企业的业务连续性管理来弥补,银行需要在此方面做好充分准备。

  近年来,国内银行业诞生的林林总总的中间业务和电子渠道业务已不再是仅基于银行自身系统就可以处理的。如果说传统银行核心系统仅依赖于外部供应商的通信和电力资源,那么目前更多的运营商增值服务、交易对手或第三方应用系统、跨行清算系统以及客户端应用系统已经成为银行应用系统的有机组成部分。对灾备系统进行规划和设计时,除了在灾备中心对本行系统进行拷贝部署外,还必须考虑灾难发生时行外关联系统的灾难恢复能力,以及相关的网络通信恢复能力。如果银行不充分分析和评估上述因素,仅对自身灾备系统进行投入和建设,其结果可想而知。
(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们