您现在的位置是:首页 > IT基础架构 > 网络与安全 >
选择数据中心服务提供商所面临的10个问题
摘要对于绝大多数企业来说,选择一家何种类型的数据中心供应商绝对是一项非常重大的决定。毕竟,数据中心的基础设施代表了您企业的关键资产,除非您的企业是一家类似于谷歌或Facebook这样的网络公司(他们在全国各地均有数以万计的办公机构),这样,您可能只需要一两家数据中心供...
对于绝大多数企业来说,选择一家何种类型的数据中心供应商绝对是一项非常重大的决定。毕竟,数据中心的基础设施代表了您企业的关键资产,除非您的企业是一家类似于谷歌或Facebook这样的网络公司(他们在全国各地均有数以万计的办公机构),这样,您可能只需要一两家数据中心供应商。想要改变一家数据中心是相当昂贵而且费时的,所以选择合适的数据中心合作伙伴是至关重要的。
不幸的是,不同数据中心供应商的类型却是很难轻易区分的。每一家服务供应商都声称他们是“安全的”、具有“高可用性”和“高密度。”他们都向您展示了他们的发电机、电池、以及他们的安全防弹玻璃门廊。随便参观任何三家数据中心,您就会开始对各种数据中心类型之间的区别理不清头绪。这最终导致许多企业将报价和数据中心是否邻近企业地理位置作为其主要的决策因素。或者更糟糕的是,他们看重的是诸如在休息室是否有免费的苏打水和Xbox游戏机等非物质设施来作为决定因素。
然而,各种类型的数据中心之间其实是有着一些关键的分歧差异的。如果您没有充分认识到这些差异,长远来说,则可以会使您比选择一家报价较低的供应商花费更多的成本。在过去二十年里,通过购买多家数据中心的服务,并同时与更多的IT顾问打交道使得我已经学会了如何辨别一些硬性的差异,以便能够打破一个长期数据中心合作关系。简单来说,我将在接下来列出10大问题来供您在选择您的下一家数据中心供应商时进行参考借鉴。每一个问题后面都附上了详细的解释,希望这个列表信息能对您有所帮助。
十问您的下一个数据中心提供商
1、数据中心设施的哪些组件可以同时进行容错和维护?
2、如何在维修过程中或计算机房空气调节(CRAC)装置/计算机房空气处理(CRAH)装置运营失败时冷却设置,以维持工作温度?
3、基础设施的平均和最大功率分别是多少?
4、数据中心的负载多久测试一次其发电机?
5、该地区最坏的自然灾害风险是什么,数据中心如何减轻其影响?
6、员工远程操作的最低技能是什么?
7、数据中心是否维护多个冗余燃料和水源?
8、数据中心获得了哪些认证,这些认证是否进行年度审计以便维护?
9、数据中心如何跟踪SLA规则,以及这些SLA规则的跟踪历史记录?他们能否提供最近的5个故障报告?
10、数据中心最重要的5大客户是谁,这五大客户占到该数据中心总收入的百分比的是多少?
数据中心设施的哪些组件可以同时进行容错和维护?
绝大多数的数据中心均声称他们是N+1或N+2冗余,这意味着他们有多余的组件。很多时候,他们会称自己为“第三级”或“第四级”,正常运行所定义的四个层次的数据中心。第三级被定义为同时维护:“一家数据中心有同时维护冗余能力的组件和服务计算机设备的多种分配路径。在任何时间,只有一个分配路径需要服务计算机设备。”第四级被定义为容错:“容错数据中心有多个独立的物理隔离系统,提供冗余能力组件和多个独立的积极传播布局路径,同时为电脑设备服务。冗余能力和不同的路径进行配置,这样,‘N’能力便可以在任何基础设施被破坏之后为计算机设备提供电力和冷却……互补系统和配送路径必须物理相互隔离,防止任何单一事件同时影响系统或分配路径。”
当然,数据中心的第四层满足所有冗余的要求。他们没有解释的是如何在现实世界中将这些组成部分联系在一起,以便在维修过程中处理一个断电问题。例如,一家数据中心,拥有24台发电机、24个UPS、和72个CRAH后轴架。该数据中心需要每季度都对这些设备进行维护,同时又不影响操作,所以他们被配置为N+1或N+2组件配置。问题是,有没有足够的时间在一个季度内完成一个维修项目,因此数据中心只能要么减少其维修周期,要么同时维护多个系统。
您需要了解的是数据中心同时并行维护容错的影响。如果他们在同一时间维护#1发电机,UPS#2和CRAH后轴架#3,并同时遭遇他们遭受发电机#4,UPS#5和CRAH后轴架#6停电,会对客户造成什么影响?第四级指定从一个单一的事件的隔离,但您真正需要做的是保护您的关键IT基础设施与多个同时发生的事件隔离。
如何在维修过程中或计算机房空气调节(CRAC)装置/计算机房空气处理(CRAH)装置运营失败时冷却设置,以维持工作温度?
这个问题其是第一个问题的一个分支。一些数据中心将声称他们的冷却系统N+1或N+2,但那其实是对整个机房或整个数据中心来说的。如果计算机房空气处理(CRAH)装置靠近笼出现故障,多余的后轴架在机房另一边500以外,这对您没有任何好处。数据中心会为自己的机房提供进入冷却区,并为每个区域提供足够的冗余,以便为所有客户在发生故障时在每个区都保持温度吗?甚至更好的情况:他们既容错,同时又在每个区进行维护?如果他们在维护其他后轴架单位时遭受后轴架单元故障,他们仍然可以为所有客户都保持温度吗?
基础设施的平均和最大功率分别是多少?
许多数据中心都显示他们的投产年限。他们在8或10年前设计之初时,将功率密度设计的要低得多。通常,数据中心将引用瓦/柜单位来描述其功率密度,但他们不告诉您瓦/平米单位的数据。举一个例子,一家主要的数据中心提供商,数字房地产信托公司(DigitalRealtyTrust)声称他们的数据中心支持多达15kW/柜,但他们不告诉您这些笼所代表的大小。这是一个基于8-tile间距标准(32平方每柜)或者他们的间距足以实现的其计算能力呢?大多数数据中心的建立均支持平均100–175瓦/平方。更现代的数据中心支持平均225瓦/平方,并可以支持个人客户高达400瓦/平方,更高的密度与贵行内冷却。位于拉斯维加斯的SwitchNAP公司声称他们可以冷却至1500瓦/平方,但他们不会告诉您他们是如何计算的。实际上他们可以冷却48kw/柜(1500瓦/平方*32平方在8-tile间距)是不太可能的。更有可能的是,他们仅计算8-12平方,内阁本身占地和其冷排,并不算热行和死腔。如果我有机会参观他们的数据中心,那将是我的第一个问题。
机柜的功率密度也很重要。数据中心可以为每一个机柜提供冗余三相30A和50A208V电源电路,并收取较高的功率密度电路的溢价吗?如果您需要的功率密度超过6千瓦/柜,您将需要3相电源或很多的电源线,但并不是每一家数据中心都提供这些电路。记住在未来验证您今天的期望。10年前,2千瓦/柜足够供应42U的x86服务器。今天的多核,高密度的刀片服务器,则需要8KW-10KW的整个机架供电。预计电力需求将继续攀升,确保您的数据中心已计划与您的计算密度一起成长。
数据中心的负载多久测试一次其发电机?
大多数数据中心通过定期旋转来测试发电机,但很少将它们有在负载情况下运行一段较长的时间。负载测试是昂贵的,因为它消耗燃料,而且发电机负荷试验设备昂贵。数据中心偷工减料的方法之一是跳过定期负载测试,计算往往不够,他们会得到他们的生产负荷的负载测试。这可能有几个影响。首先,如果他们没有定期负载测试,那么他们很可能只能识别发电机的问题,实用电源失败,这恰恰是错误的时候发现一个问题。其次,发电机有时启动但没有负载,发电机排气系统收集未燃烧的燃料。这也被称为“湿堆积。”如果这发生得太频繁,发电机火灾发生,通常当发电机负载下由于一个实用中断。问问您的数据中心提供商他们是否在每一个发电机上进行扩展的负载测试至少每季度一次,最好每月。
该地区最坏的自然灾害风险是什么,数据中心如何减轻其影响?
每一家数据中心都会受到自然灾害的影响,但其中一些会比其他的数据中心更易受影响。加利福尼亚的数据中心的担心多是关于地震的。向数据中心咨询他们是否处在地震带,他们采取了什么保护措施。同样重要的是,他们已经与他们的供应商,尤其是他们的燃料供应商签订了什么协议。如果数据中心能从大地震中幸免遇难,但公用电力和燃料供应商无法为数据中心提供必要的供应,数据中心仍将在24–48小时内处于黑暗状态。中西部的数据中心则担心龙卷风的问题。东海岸和海湾海岸的数据中心则担心的是飓风。他们如何保护屋顶和关键基础设施免受大风致破坏?发电机外壳、水箱能否经受住龙卷风或高速飞行的碎片的打击。
冬季暴风雪也是一些数据中心所面临的一个重大问题。数据中心关于受冬季暴风雪影响,道路条件限制导致的工作人员无法正常上班有什么规定?至关重要的是,明白灾难情况可能对设施造成的影响;其二与您的供应商一起制定可能的风险的应急计划。例如,在暴雪区,可能需要您额外的投入零配件到您的设备现场,如果可能,在冬季可能会出现现场更换零件延误的情况。
员工远程操作的最低技能是什么?
绝对肯定的是,在某些时候,您的设备将需要物理接触。有时服务器需要电力循环,硬盘需要换零件,磁带需要转动的备份,电缆需要移动。您可以自己开车到数据中心,或使用他们的远程服务。许多数据中心不提供这项服务,推荐您采用第三方外包,而第三方可能不在现场。对于一些提供远程服务的数据中心,一些会在提供安全服务方面偷工减料。除非您可以信任雇佣的关键基础设施,您要确保数据中心提供的员工是IT专业人员。要求最低的工作要求并安排向服务经理了解(通常是NOC经理)谁可以24小时全天候为您提供帮助。此外,如果数据中心提供了范围广泛的IT服务与专业人员,在您的决策过程中,您就可以减少物理选址临近这一点的重要性。如果您自己的工作人员每周都要访问数据中心,您可能会考虑物理选址临近。但如果您可以依靠您的合作伙伴工作,您可以选择最佳的供应商,而不是本地供应商。
数据中心是否维护多个冗余燃料和水源?
数据中心总是吹嘘自己的多个不同的光纤路径,和多个冗余电力来源,但他们很少谈论他们的水供应。水对于数据中心是至关重要的,因为它用来冷却空气。数据中心是否有不同的来源,包括水源?他们的水供应是否有多个输入阀进入冷却器供应?最后,您要确认的是会不会出现一个价值数百万美元的数据中心因为一个只值100美元的阀门没有正常打开而无法正常运转。此外,工厂是否有多种的燃料来源?在应对自然灾害方面,运行数据中心发电机将可能需要每日进行补充。如果他们的燃料供应商未能兑现,他们有什么紧急预案?
数据中心获得了哪些认证,以及这些认证是否进行年度审计以便维护?
数据中心有着包括SSAE16、PCI、LEEDGold、EnergyStar、FISMA、HIPAA、SCIF、TierIV等等众多的认证程序。每一种认证标准都有其价值和缺点,但他们都是有用的工具,指导您进行数据中心的选择。如果您处理信用卡业务,您肯定希望您的上游供应商支持遵守PCI守则。如果您是一家金融机构,您需要您的数据中心符合审计鉴证SSAE16准则(取代了旧的sas70)。如果您的公司具有环保意识,特别是如果您购买碳信用以抵消您的消费,您肯定想要一个高效的数据中心获得能源之星认证和绿色黄金认证。问问您的数据中心是否有相关认证证明。在大多数情况下,他们也将分享他们的审计标准。这一信息是非常宝贵的,因为它代表了独立分析的质量,可靠性和提供服务的安全性。
数据中心如何跟踪SLA规则,以及这些SLA规则的跟踪历史记录?他们能否提供最近的5个故障报告?
大多数数据中心均声称他们具有高水平的可用性。有些甚至给出100%可用性的保证。但所有的数据中心都有问题。所有的系统都有一个失败的风险,所以100%的SLA是谎言。他们不能保证100%的可用性,但他们可以保证如果发生停电的话,向您支付罚款。所有的数据中心均会遭受停电,不管其是否会对客户造成影响。所以您必须了解自己买的是什么,您需要深入详细的研究,了解如何来衡量。更重要的是,数据中心在发生问题时向其客户的透明度水平如何?他们是否诚实和直率的告知故障发生的根本原因和未来的缓解措施?他们会否提前通知您,或者他们在发生故障时是否会等您的电话。问问他们能否提供最近5个故障报告?理想的情况下,要求提供所有通信有关的问题,包括最初的通知、更新消息、分辨率和细节、事后报告。衡量未来的行为的最好的办法是看他们的过去。
数据中心最重要的5大客户是谁,这五大客户占到该数据中心总收入的百分比的是多少?
公司有一个客户群,在很大程度上,如果这些关键客户离开,会对企业造成财务问题。较小的数据中心供应商可能依赖于1或2家主要的租户,这一点尤为重要。询问数据中心前5或前10名客户的一些资料。他们可能无法公开这些客户的具体的名称,但他们应该能够告诉您这些客户的大致行业以及每家客户的收入所占的百分比。如果他们的前5名客户属于同一行业,而且其收入占到该数据中心总收入超过一半,坚决不要选择这家供应商!您选择的是一个长期的合作关系,必须确保他们有长期持续的财政。其资产负债表和损益表今天看起来可能很好,但如果单一客户的损失就可能会使其削弱,务必三思而后行。而如果他们的资产负债表和损益表已经很坏,坚决不要。记住经营数据中心的代价是昂贵的,如果他们削减维护或支援人员以弥补关键租户的损失,您会很遭殃的。
还有很多其他问题您可以问您潜在数据中心合作伙伴,但上面所列出的十大问题将帮助您透过供应商们的营销手段自行分辨。如果您通过上述列出的问题缩小了您的选择范围,但您仍然在超过一家的可接受的供应商之间不知如何抉择,那么,这时您可以考虑诸如免费汽水和邻近办公室的设施之类的因素了。
编者按:本文作者WilliamDougherty目前是加州萨克拉门托RagingWire数据中心信息技术副总裁。在业余时间,他从事各种IT培训的工作,包括数据中心的安全。上述文章仅代表作者个人的观点和看法,并不一定反映其雇主的意见
(本文不涉密)
责任编辑: