您现在的位置是:首页 > IT基础架构 > 计算存储 >
对话灾备专家汪琪 应急预案如何防天灾
2008-09-17 18:37:00作者:施建忠来源:
摘要面对2008年5月12日这场突如其来的特大地震灾害,我们除了灾后紧急救援,积极捐款、捐物之外,还能做什么呢?...
面对2008年5月12日这场突如其来的特大地震灾害,我们除了灾后紧急救援,积极捐款、捐物之外,还能做什么呢?政府机构、非盈利组织、企业,特别是铁路、交通、通讯运营商、电力、银行、保险公司等关系国际民生,担当社会正常运转“脊梁”的单位是否需要反思:针对像地震这种大范围、大破坏性的突发性灾难是否提前有所准备?是否事先能够进行风险分析、业务影响分析,以机构或区域所面临的潜在风险作为制定应急预案的灾难场景?如:地震多发区是否以地震为场景进行预案准备?是否针对预案进行应急演练以检验预案的适用性?这是我们不得不思考的问题。
GDS万国数据服务有限公司副总裁汪琪是国家标准《信息系统灾难恢复规范》(GB/T20988-2007)第一作者;国家金融行业标准《银行业信息系统灾难恢复管理规范》(JR/T0044-2008)主要起草人之一;国家安全标准化委员会“信息系统灾难恢复规划”课题组组长;中国大陆第一位获得DRI International “Certified Business Continuity Professional”认证的业务连续运作专家;作为项目负责人,领导团队为国内多家银行、保险、政府机构提供应急管理、灾难恢复和业务连续性管理咨询服务,在灾难备份以及业务连续性管理领域具有很高声誉。
因此,笔者对汪琪进行了专访,来谈谈我国银行、保险、证券等行业灾难备份建设的现状以及此次地震对我国通讯运营商、电力、银行、保险公司等关系国际民生的单位进行灾备建设的影响及意义。
应急预案如何防天灾?
Q:这次地震对受灾地区的人民生命构成严重威胁,企业、民众财产遭受重大损失。您对这次地震灾难中所反映出的政府、企业应急管理能力怎样看?
汪琪:从应急管理角度看,灾难恢复可以分为灾前预防准备,灾中应急响应、处置,灾后恢复三个阶段。灾前防范强调的是通过事先的准备和预防降低灾害发生可能,减轻灾害可能造成损失;灾中应急响应、处置涉及到检测评估体系、通讯指挥体系、紧急运输体系、备用物资存储和征调体系、各级指挥/实施所需人力资源的储备和召集等灾害应对体系的建立和指挥行动的管理方法、流程等;灾后恢复和重建涉及到抢救恢复行动的监查和评估,改进意见的收集和总结,改进措施的提出和审查,改进措施的监督执行,灾后重建工作的准备和交接等。
在灾前预防阶段,无论是对政府、对公众机构,还是对企业来讲,都应该考虑其所面临的风险,对有可能遭受的风险进行评估,根据评估结果开发、制定相应的应急预案,并做演练和复审工作以保障应急预案的有效性。从此次地震发生后的应急处置情况看,我国政府和非盈利组织在此方面做得还是比较好的,包括国资委、电监会、保监会、证监会、铁道部、银行、通讯运营商等都纷纷启动了应急预案。
第二阶段是应急响应、应急处置阶段,也就是在5月12日地震发生之后所采取的应急措施。从目前的救助情况看,此阶段仍面临不少困难。因为,从应急的角度看,无论是什么样的应急预案,信息的获取,相互之间的协调、沟通的基础条件就是通讯保障。但是从这次地震所造成的危害看,越是受灾核心地区,通讯越困难。而在整个灾区,初期获取信息的主要渠道只有阿坝州政府网站。阿坝州政府与受灾地区联系的主要渠道只有少量海事卫星电话。地震发生两天,仍有不少受灾地区通讯中断,而且受灾越严重的地区,所能得到的信息越少,这对救援工作非常不利。因为受灾情况不清楚,所需食品、水、医药等救援物资数量不清楚,整个救援组织体系无法建立,就无法有效开展救援措施。这警示我们,未来不管是政府、公众事业单位在应对突发性灾难恢复事件还是企业在做应急预案时,通讯保障是我们首先要考虑的问题,必须做好通信保障。
此外,在此次地震的应急响应、处置阶段,应急的组织架构、应急人员、应急物资、应急流程是否能够快速准备好,迅速开展救援工作,对我们来讲也是一次非常大的考验。地震发生后,虽然政府、机构以及救援人员反应非常快,但救援人员直到5月14日才真正到达受灾最严重的汶川及周边县市,甚至部分受灾严重的乡镇救援人员两天后还未到达,救援的最佳黄金时间已经过半(3天之内被认为是最佳黄金救援时间),可见救援工作非常艰难。当然,这是受当地恶劣天气、道路、通讯中断等客观条件决定的。
而在灾后恢复阶段,要想让受灾地区快速恢复生产、经营,银行、证券、保险、税务、交通、电力、水利、铁路、电力、通信等社会运行的基础行业首先要快速恢复。只有社会的基础行业运转正常,人员的调拨,资源的调配,治安、管理体系才能逐步建立、恢复,整个社会生产、生活、运行机制才能逐步恢复。这是灾后救援工作结束后,政府以及关系国计民生的单位需要做的重要工作。
信息沟通渠道是否偏少?
Q:在此次地震救灾过程中,为什么互联网、海事卫星电话能够成为信息获取和发布的主要渠道?信息沟通渠道是否偏少?
汪琪:在这次地震中,互联网、海事卫星电话没有中断,发挥了重要的信息获取、传递和发布作用的原因在于,互联网具有多点、区域性、迂回特性,可以保证一条线路发生问题,另一条线路依然能够继续通信;海事卫星电话则具有高空、点对点通信特性,具有很强的生存能力。
在这次地震中,我们也看到,几大通信运营商的通讯几乎全部中断,通讯保障措施明显不足。从科技角度而言,关系国计民生的政府机构、公众事业单位、企业在灾前的预防、准备阶段,应该在通讯保障方面做足“功课”,准备多种通信手段,比如增加海事卫星电话、微波通讯等通信渠道,这样才能保证灾难发生后,信息获取、传递的有效性。
Q:银行、证券、保险、电力、通讯运营商等是社会组织中重要的组成部分,在此次地震中,受灾地区的银行、证券、保险、电力、通讯运营商受损状况很严重?您对此怎么看?需要进行哪些反思?
汪琪:在地震受灾严重地区,银行、证券、保险、电力、通讯运营商的受损状况确实非常严重,电力、通讯、水等社会运行的基础设施基本全部中断,多家银行、证券、保险公司的经营场所受到重创,人员也有部分伤亡。其中,绵竹市一家6层楼高的国有大型商业银行营业网点在1分钟内被夷为平地,都江堰一家证券公司所在营业部办公大楼有一半坍塌……
因此,在灾后恢复过程中,银行、证券、保险、税务、交通、电力、水利、铁路、通信等单位社会正常运行的基础单位必须尽快恢复。因为,这些单位担当着社会正常运转的“骨架”作用,只有这些单位迅速恢复,整个社会机体才能正常运转。说的直白些,只有银行恢复了,救灾捐款才能调拨到位,企业才能贷款恢复生产、经营,民众才能取款购买生活必需品;电力恢复了,企业才能生产、经营,工人才有工作,后续生活才有保障……
此次地震对银行、证券、保险、税务、交通、电力、水利、铁路、通信等这些担当社会“中流砥柱”的单位、组织提出了严峻挑战:汶川及周边地区位于青藏高原和四川盆地交界处,属地震多发地带,如果做风险评估的话,地震一定是重大风险,那么,怎样应对这种大影响范围、破坏力强的突发性灾难?是否已经有针对地震这种大范围破坏的应急预案?是否有灾难备份的预案,人员组织架构的预案,业务转移、重新启动的预案?如何保证这些预案的执行等等?
从目前我们所了解的情况看,银行、证券、保险、税务、交通、电力、水利、铁路、通信在应对地震等大范围、大破坏的突发性事件制定相应应急预案的还很少。相对而言,国内银行业在灾难备份与业务连续性管理方面做得比较出色,但同国外银行业相比还存在很大差距。
我想强调的是:如果政府、企业、非盈利机构要想充分降低灾难所造成的危害,并快速恢复正常生产、生活的话,必须提前准备,分散风险,做好应急预案和演练。这些成本不一定很高,但效果却显而易见。
Q:在灾难备份与业务连续性管理方面,国内银行业与国外银行业相比,差距主要集中在哪里?如何改进?
汪琪:在应急预案网点覆盖范围方面,我国银行业与国外做得比较出色的银行相比还存在一定差距。目前,我国银行业基本都做了全国大集中,并且部分银行已经针对大集中做了总行、总数据中心的灾难备份和业务连续性管理,解决了有没有的问题。但是,中国还没有任何一家银行做到分行一级,没有一家银行做了分行级的整体灾难恢复预案和灾难备份。在国外,很多银行都做到了分行一级的灾难备份与恢复,比如美国银行,其针对总行、各分行的应对各种突发性灾难事件的应急预案多达7000余份。
另外,在预案本身的覆盖范围方面,我国银行业也存在一定不足,我国银行业灾难备份以及业务连续性管理主要还是IT部门考虑的比较多,投资也主要在IT部门,而且,在总数据中心灾难备份建设过程中,只备份了存取、结算等少部分核心业务系统,还有很多系统没有备份。但是像地震、南方冻雨等大范围灾害已经不仅仅是IT系统问题,它还涉及到业务问题,组织架构问题、营业场所问题、人员伤亡等问题。一旦发生这种大面积的突发灾难,如果仅仅做了IT系统方面的灾备方案,就算IT系统可以很快恢复,也没有办法对外提供服务。
对此,我们需要冷静的看待,其实国外银行业也经历过这样的历程:上世纪七八十年代,国外银行业主要考虑的是IT方面的灾难备份;上世纪九十年代,国外银行业逐渐开始考虑业务方面的问题,进行业务连续性管理建设;现在则进入公司治理、可持续发展阶段。从整体来看,我国银行业仅仅迈出了第一步,未来要走的路还很长。不过,我国银行业需要思考的问题是:是不是需要把别人已经走过的路再走一遍?是不是可以走的更快些,甚至大步前进,迎头赶上国外银行?另外,还需要考虑的是,在考虑自己怎么应对突发性灾难的同时,是否还要考虑周边、上下游供应链,基础环境,比如通信中断怎么办?人员伤亡怎么办?电力、交通中断怎么办?渠道出现问题怎么办?资金调拨出现问题怎么办?
应急预案如何制定?
Q:地震的危害是显而易见的,但是我们在国内很少看到有银行、证券、保险、电力、通讯运营商把地震作为经营风险进行分析、评估的,也没有企业对地震灾害作为应急预案开发场景的?您对此怎么看?
汪琪:其实,在“9.11”事件发生之前,不仅在中国,在国外,也没有人认真考虑过把地震作为应急预案的开发场景,或者说把地震作为重要风险。因为地震影响范围太大,如果以地震作为预案开发场景,房屋倒塌,人员大量伤亡,地区的电力、交通、通信、供水设施中断,其所需要付出的成本代价和技术实施难度都非常高。所以,以前不管是政府、非盈利组织、还是企业都很少把地震作为应急预案开发场景。
“9.11”事件之后,美国对灾难发生的场景进行了大量反思和应急措施改进。美国金融监管三大机构美联储、美国货币监理署和美国证券交易会于2003年5月28日发布的《关于增强美国金融系统灾难恢复能力的可靠措施的跨部门白皮书》,对金融机构在遭到大范围灾难打击之后的恢复能力提出了明确的措施和实施时间的要求。
其实,银行、证券、保险企业在应急预案开发过程中,如果能够将地震危害、业务影响分析透彻、考虑周全,制定适当的应急预案还是可以帮助灾后快速恢复的。比如针对绵竹市被摧毁的那家大型商业银行营业网点来说,一旦交通恢复,是否可以使用移动营业车深入灾区,采用卫星通信方式对外提供金融服务。当然,最有效的应急手段不是灾后恢复,而在于灾前制定针对所面临风险的应急预案,并进行不断地复审、演练,以保证应急预案的有效性。
Q:对这次地震所暴露出的应急管理问题看,应该怎样建立、完善应急预案、应急体制、应急机制和应急法制建设?
汪琪:这是一个非常大的问题,对于应急体制、应急机制和应急法治可以自上而下的进行建设,比较容易达成共识和见到成效,但是应急预案的编制将是一件长期的、专业性极强的工作。应急预案必须结合具体的灾害场景和当地的人文、地理环境、组织情况等进行编制,并且必须符合相关灾害防范、抢救、抢修和灾后安排的技术和科学要求。
我举个例子,比如美国在国家层面就有非常强力的组织:政府曾组建联邦应急管理署(FEMA),在该机构内,不仅有自己的雇员,有自己的预算,甚至有自己的飞机、轮船、汽车以及大量的救援物资,甚至可以调拨国民警卫队,在应急管理方面发挥了巨大作用,实践了“综合性应急管理”全风险管理和全过程管理的应急管理理念(“9.11事件”后,联邦应急管理署被并入国土安全部)。
在应急管理方面,中国政府、企业和非盈利组织也做了很多工作,但还没有这样一个强力部门(机构)来统一协调处理这些事情,未来由统一机构协调、处理应急工作必将是一种趋势。
另外,从实际行动看,国家标准(如《信息系统灾难恢复规范》)、行业标准(如《银行业信息系统灾难恢复管理规范》)以及各行业监管机构制定指引、规范(如《保险业信息系统灾难恢复管理指引》)已经非常多,但有多少企业真正按照标准去实施了,有多少达到标准要求了,这是企业在灾后需要认真反思的。
第三,就是监管方面,可以肯定,管理机构、监督检查机构以前做了很多工作,但能不能进一步完善,把监督机制建立、完善起——我国并不是缺少相关方面的法律、法规,而是缺少监督、检查机制,缺乏执行力度。未来,我们在监督机制建设方面是不是应该行动了?这是我们在灾后需要认真思考的问题。
2008年并不平静,我们已经经历了很多突发应急事件,比如年初发生在南方地区的暴雨雪天气、发生在山东的火车相撞事件以及发生在四川地区的地震事件,它们在警示我们,现在是该对应急管理反思的时候了。我们需要时刻警醒:面对突发性事件,我们准备好了吗?
Q:另外,您作为国家标准《信息系统灾难恢复规范》(GB/T20988-2007)第一作者,国家金融行业标准《银行业信息系统灾难恢复管理规范》(JR/T0044-2008)主要起草人之一,国家安全标准化委员会“信息系统灾难恢复规划”课题组组长,请简单介绍一下这些标准的作用和意义?
汪琪:国家标准《信息系统灾难恢复规范》、国家金融行业标准《银行业信息系统灾难恢复管理规范》等为相关行业企业提供了一套信息系统灾难备份、恢复的方法论。
这些标准具有三大特性,首先是完整性,它将组织架构、恢复职责、恢复流程都做了明确规定,对于怎样作风险分析、业务影响分析,怎样制定应急预案,也都有详细规定,是一套非常完善的方法论。其次是针对性,这些标准都是针对信息系统灾难备份、恢复的,它的适用范围是各个行业、各个企业信息系统以及与信息系统相关的业务灾难备份和灾难恢复,并不适用于企业整体的功能性恢复和公众机构服务的恢复。第三,具有很强的可执行性和可操作性。
这些标准是我国几十年灾难备份及业务连续性管理经验的总结和归纳,按照这套方法去做风险分析、业务影响分析、制定应急预案,我们不会有疏漏的地方。企业应根据这套方法去研究、去分析可能面临的地震、水灾、火灾、恐怖袭击等风险以及对业务的影响程度,以此制定相应的应急预案。
它不能代替企业本身要做的事情。对可能面临灾难的预案开发和应急演练是一项复杂、系统的工程,没有包治百病的“灵丹妙药”。
另外,需要说明的是,这些标准本身也需要不断完善。比如,目前制定的标准大都是针对信息系统方面的灾难恢复,未来,更应该针对业务连续性管理制定相关标准和规范——这将是迈向灾难恢复理论前沿的一大步。
(本文不涉密)
责任编辑:
上一篇:飞康CDP灾备技术的六大技术亮点