您现在的位置是:首页 > 头条新闻 >
山东移动:容灾中心也是生产中心
2009-12-15 15:57:00作者:罗提来源:
摘要在很多CIO眼里,容灾中心的建设是一个吃力不讨好的系统工程,投入大,建设难。如果灾难不来,容灾中心似乎就一无是处。但在中国移动山东公司(以下简称山东移动)账务中心副主任崔可升眼里,容灾系统每天都在发挥作用。在这个系统中,既没有绝对的生产中心,也没有绝对的容灾...
在很多CIO眼里,容灾中心的建设是一个吃力不讨好的系统工程,投入大,建设难。如果灾难不来,容灾中心似乎就一无是处。但在中国移动山东公司(以下简称山东移动)账务中心副主任崔可升眼里,容灾系统每天都在发挥作用。在这个系统中,既没有绝对的生产中心,也没有绝对的容灾中心,每个中心都兼具生产与容灾的功能。
善用容灾中心 降低成本
“山东移动每增加一个新用户,业务支撑系统就需要投资约11元。这一数据在其他省份一般是20~30元,比我们高出了两三倍。移动的客户量很大,这个数目是非常可观的。”崔可升给记者这样算了一笔账。
目前,山东移动的用户数已经高达5500万,平均每天发送近亿条短信,有千万个用户通过手机看报和收发邮件,有20多万家企业应用山东移动提供的话音、数据业务、互联网接入等解决方案。
山东移动BOSS(Business Operation Support System,业务运营支撑系统)作为一个综合业务运营和管理平台,包括了网络管理、系统管理、计费、营业、账务和客户服务等基本功能。承载如此巨大的业务量,山东移动BOSS系统的压力可想而知。
2009年,山东移动BOSS同城三中心容灾信息系统建成。这是一个基于三个物理中心的容灾信息系统,可以把风险分解到三个中心。但是,这三个中心不是简单的备份关系。“在三个中心,生产和容灾的资源相互共享。”崔可升说,“从生产角度来看,这三个中心在资源的分配上基本上是1对2的关系,就是一个中心承担了山东全省1/2的业务量,另外两个中心各承担1/4的业务量。同时,三个中心还承担了互相备份的任务,三个中心中的任何一个出了问题,其他两个都能把业务接过来。这样就大大提升了整体服务质量以及客户的满意度。”
让容灾中心与生产中心协同工作,在没有灾难发生的日子里也能发挥效用,是一个美好的愿景,但要实现它却不容易,这需要一系列复杂的规划和系统架构。山东移动采用了IBM高端Power595服务器和DS8300存储系统搭建的BOSS系统,并采用虚拟化技术。虚拟化技术将资源动态地分成几个小块,山东移动可以根据业务发展的情况进行动态调整,实现了企业级云计算,从而保证了企业的业务连续性,降低了风险,并实现了高投资回报。
业务先行 安全随后
也许很多人会问,山东移动为什么没有像很多企业那样规划两地三中心的异地容灾。对于这个问题,崔可升认为,异地中心要进行远程传输,耗时较长,不利于不同中心间的同步,建还是不建异地容灾中心,取决于企业对安全的重视程度以及投资回报之间的平衡,要具体情况具体分析。事实上,山东移动正在规划第四个容灾中心。这将是一个异地容灾中心,主要用于数据备份,以应对重大地质自然灾害,如地震等。
“容灾规划主要考虑业务的发展——如果连业务发展需求都满足不了,这才是最大的安全问题。我觉得在资金充足的情况下,业务规划和安全规划要放在一起考虑,同步发展。但是如果资金紧张,就首先要考虑业务需求。随着业务对IT的要求变得越来越高,客户服务的期望值也变得越来越高,公司对安全重视程度也就越来越高。”崔可升这样总结了他的容灾策略。
可见,山东移动的容灾策略从一开始就牢牢跟随着业务发展的需要。事实上,那种单纯地把容灾看作是应对自然灾害的需要,以为只要投一大笔钱建成一个系统就万事大吉的想法是一个误区。
崔可升认为,在做容灾规划的时候,首先要对业务进行深入分析,清楚哪些业务是重要的,哪些业务是次重要的,哪些业务是不重要的。业务重要性不一样,基点不一样,投入也不一样。比如说,在计费业务中,如果用户打电话后计费晚几分钟,甚至晚半个小时,感受可能不是特别明显,但是如果用户交了费后不能及时通话,满意度就会大幅降低。
目前同城三中心容灾信息系统的建成是山东移动容灾建设的第四个台阶。此前,山东移动在2004年建设了BOSS应急系统,在2005年建设了主备级容灾系统,在2007年建设了双中心容灾。崔可升指出,不同阶段的容灾策略满足不同阶段的业务需求,这样既考虑到了IT投入产出比,又能在发展中积累宝贵经验。
善用经验 形成后发优势
山东移动的容灾建设是一个循序渐进的过程,但在关键技术和流程得到验证之后,适当利用后发优势,适当超前。
从2005年建设主备级容灾系统开始,山东移动就选择了IBM作为他们容灾建设的长期合作伙伴,接受了IBM为其提供的容灾系统建设咨询与规划等方面的支持。“IBM做过很多容灾项目,拥有很多客户的经验和教训。我们在进行容灾中心建设时,这些经验和教训的帮助非常大。”崔可升并不讳言IBM对他们的帮助。
值得一提的是,有些经验并不一定要求有多先进的技术。很多时候,一个小小的改动就能产生很大的改进。
山东移动与IBM合作,自然会使用IBM的高端服务器和存储产品。原来为了保证美观,山东移动的机房没有做固定的支架。结果机房来了什么设备,就要根据这个设备定做一个支架。这样每来一个设备定做一个支架,每一个支架的批次、标准都不一样,整个机房就变得很不平整。
IBM在设计机房时,用的是一个动态的方式,把支架上支撑的东西做成动态的,设备来了再随时进行调整,并且在这个支架上固定。山东移动所要做的就是把所有的架构规划好,比如说这个机房要放几台设备。把机架全部布局好后,设备来了以后就可以直接放在机架上固定。
与此同时,山东移动的容灾建设也给IBM积累了不少的经验。IBM信息技术架构首席顾问王纪奎告诉记者:“山东移动的成功经验,不仅移动行业可以分享,其他行业,也可以借鉴。山东移动用户规模达到了5000万人,打电话、发短信的频率都很高,而且其电话计费档次又特别多。整个美国的移动电话业务量都不一定赶上一个山东移动。现在有很多IBM资深的专家,都来山东移动参观。他们非常关心IBM的DS8300存储系统在这里用得好不好,会不会出现业务瓶颈。”
关注细节 重视演练
容灾系统建设是一个系统工程,不只是建一个机房,买一堆设备。很多单位在建设容灾系统时,只是重视硬件系统的投资,而轻视在容灾恢复计划(DRP)中的软件投入。这是一个非常严重的错误。
崔可升给我们举了两个非常生动的例子来说明这一点。山东移动在刚开始建设容灾中心时,传输中心用的是双路由:一个主路由和一个备用路由——主路由坏了,可以切到备用路由上。有一次他们发现两个路由都用不了了,一查才发现这是因为工人施工时把整个光纤管道都挖断了。可见,虽然传输用的是双路由,但是物理路由只有一个,也就是说光纤管道只有一个,不管有多少光纤,一挖全都断了。那个事件发生以后,山东移动就明确规定哪个路由走哪条线路。还有一个例子是计算机系统非常好,结果电源却出了问题。这给山东移动的启示是,在建设容灾系统时不能不考虑电源是否符合要求。
“要尽量避免设计上的缺陷。”崔可升明确指出,“在设计之初,就应该尽可能地考虑周到,尽可能采用冗余备份的方式,减少单点故障,以降低故障发生的概率。凡是可能出错的地方,准会出错!”
但不论计划如何周详,灾难都可能比预计的更恶劣,而且持续的时间可能要比预计的更长。容灾系统建设不可能一劳永逸,需要不断完善,唯有演练才能把那些需要完善的地方找出来。
“在演练时首先要保证流程畅通。这样,演练过程也就是发现风险的过程,既能降低风险,又能在演练中发现问题。我们每年都会做演练。”崔可升告诉记者。
(本文不涉密)
责任编辑:
下一篇:个性化医疗服务的IT之功