您现在的位置是:首页 > IT基础架构 > 计算存储 >
重新审视灾备计划的必要性
摘要要确保数据中心能够经受任何风浪时,没有任何替代方案可以取代详细的计划、测试和冗余能力。但有时即便有最好的规划也是不够的。...
2012年6月29日,华盛顿迎来了一场强暴雨灾害天气。这种名为“Derecho”类型的天气现象非常罕见,大多数人甚至从未听说过它。这种不同寻常的复杂恶劣天气从未跨越过山脉范围,如阿利根尼山脉。但是这次却发生了,自此也将防灾计划带入了世人的眼中。
亚马逊靠近杜勒斯国际机场的庞大数据中心内部是一个完全冗余的系统,并且能够承担电源冗余备份、电网冗余和网络访问冗余,减弱大规模断电时的联合冲击,包括网络中断、电话线路中断和电池系统中断。如果没有冗余系统,不但所有事情将停机,也没有人可以调用备份。当然,即使工作人员已经知道即将发生停机事件,他们也没有任何办法。因为大部分通路已被封锁。
灾害来临的紧迫性
虽然我们经常宣扬灾难备份的益处,但是在灾害来临时,没有人能提前做好准备。当暴虐的天气突然来临时,没有警告和预测,也没有任何人和机构能够做的更多。事实上,亚马逊在遭受该灾害之后能够获得重新联机,并在第二天早上完全恢复其受到影响的客户已经很令人瞩目了。
但是,在面对灾害时能做到像亚马逊这样的企业只有少数几个。对于规模较小的组织,其可用资源更少,在灾难性打击来临时,根本无法应对。截止到7月2日,依然有许多这样的公司没有从停机中恢复,有些可能将永远无法恢复。
当然,那些规模较小的企业也没有灾备计划,最后可能都不了了之。有些企业有计划,但是没有进行测试,导致在紧要关头灾备计划没有起作用。另外有些企业已经进行了足够的测试,但是就像亚马逊,规划人员无法计划出一切。
小型测试实验室的备份计划
在我自己创办的公司中设有测试实验室,能为一些IT杂志和计算机专业媒体撰写评测。我想我可以制定除了玛雅预言,或更有可能的小行星撞击地球等世界末日之外的任何计划。我在实验室测试设备,都采用备用发电机,备用WiFi热点联网及制定空气调节计划。
但是就实验室而言,从我最后一次估算了电力负载还没有对最新的配置进行测试时,整体配置正在发生悄悄的变化。更糟糕的是,我假定了实验室附近的T-Mobile电力会至少会在维持几天才会失效,因为它在近段时间一直正常运行着。
当全世界都停机时,恢复是很难的
当暴风雨在漆黑的夜晚来临,首先提示的是西北方的闪电。然后是比之前任何时候都猛烈的暴风雨降临这片区域。这比我经历过的任何飓风都糟糕,曾经在非洲西海岸的一次经历是我之前见过的最糟糕天气,当它来到时天气状况令人焦虑。45分钟后,电力、互联网服务、电话服务和此前可靠的手机信号全都失效了。
但是我启动了发电机并开始启动实验室的基础设施。一个接一个的,交换机和服务器恢复了正常,风扇的呼呼声和闪烁的灯光让我安心,一切都将顺利恢复。然后,我开启了HP服务器来处理域名系统(DNS)、动态主机配置协议(DHCP)和目录服务。与此同时,低电压报警也开始逐个消失。但是我没有足够的能力让实验室运转,尽管我之前测试过。
所以我关闭了服务器和其他计算机,并完成基础设施的启动。我能够这样做并让一切运行起来,但是这也接近了发电机能力的极限,这绝不是一件好事情。但那个时候我发现这并不重要了。我的实验室可能会运转起来,但它不能与外界沟通,因为外界还没有运转起来。当能够运行时,对世界其他地区并非能有多大的帮助,尤其是当你意识到,你要另外购买发电机并设置负载分担。
事实上,我得买两个完整的N+1功能的发电机。但在此期间,我还记得我不得不更频繁的对整个系统运行测试,尤其是在我添加更多的服务器、新的交换机或网络管理设备之后。我并没有准备好,并且这对于我来说也会产生更多的成本。
在这种情况下,所有的规划将不会有任何区别。当我看到这一切带来的朦胧热量,我的脑海中会不停冒出一件事,那是苏格兰诗人Robert Burns的话:智者千虑,必有一失。
(Robert Burns,罗伯特.彭斯,苏格兰诗人,在他的一首著名的《致老鼠》里,诗人曾经写道:老鼠的冬窝毁在了农夫犁下,但是,老鼠啊,深谋远虑可能只是白费气力的,不只是你。老鼠和人所订最周详的计划,都往往出错。也正应和了中国那句古话“智者千虑,必有一失。”)
(本文不涉密)
责任编辑:
上一篇:重新审视灾备计划的必要性
下一篇:内存计算改变业务运作方式