您现在的位置是:首页 > 数字化转型 >

力登科技周里功:DCIM真实的故事

2015-04-16 16:53:00作者:来源:

摘要2015年4月15日,由中国计算机报主办,中国计算机行业协会、中国计算机用户协会、中国信息化推进联盟数据中心专业委员会协办的“2015年第八届中国数据中心大会”在京召开。以下内容是北京力登科技有限公司中国区技术总监周里功发表的题目为《DCIM真实的故事》的主题演讲。...

  2015年4月15日,由中国计算机报主办,中国计算机行业协会、中国计算机用户协会、中国信息化推进联盟数据中心专业委员会协办的“2015年第八届中国数据中心大会”在京召开。以下内容是北京力登科技有限公司中国区技术总监周里功发表的题目为《DCIM真实的故事》的主题演讲。

  周里功:各位专家、各位嘉宾下午好。我是力登科技公司的周里功,我今天分享的话题是DCIM真实的故事。我在讲之前,先简单做一个调查,就是说这个不知道这个DCIM是什么意思的朋友举一下手我看看。还是有相当多的朋友。我以为这个概念已经都有很大的普及了。我等一会儿我把这部分给大家加强一下。今天我分享的内容有这么几点,当然先简单介绍一下力登科技公司,然后回顾一下数据中心一些挑战。然后会具体讲一下DCIM的一些特点。最后,在从这个特点再落到实地,如果要是我们要做这个DCIM这样的一个项目的话,我应该项目初期该怎么做?在实施的过程中该怎么做?来做一些简单的经验分享。

  力登科技公司相信如果我提力登科技公司比刚才的知名度高一下。我简单的过一下,它是一家美国公司。刚才主持人也提到是北京力登科技有限公司,因为力登公司在上个月的27号我们在中国成立国内的第一家分公司。进入中国已经有超过10年的历史了。力登公司主要有这么几块业务。最传统的像KVM还有电源解决方案,最新的是DCIM的解决方案,是我今天要介绍的。这是力登的解决方案。力登科技在很多领域都有一些创新。今天我向大家汇报的像DCIM,里面有一些关键的技术,比如说资产管理的自动告警,以及自动化的能源的设备。大家看到这个APM在品牌是第一的。

  在DPU的领域我们全球是前三位,亚太地区我们是第二位。在DCIM领域我们是DCIM的主流的供应商,这是在国内的一些获奖的情况。DCIM这个词其实到这个概念的解决方案到今天已经有差不多也有五六年的时间了,所以力登公司在这个产业是我们发起的企业之一。大家可以看到这张图我们在国外已经积累的过多的客户。在国内DCIM现状是刚刚开始,刚刚起步,我也可以给大家透露一下,力登有一套完整的DCIM的解决方案的成功案例。

  首先来看一下数据中心的这个管理和运维的一些挑战。因为我们都知道,现在随着云时代的到来,大数据的到来,所有的东西都数据化,包括今天我们的政府李克强总理提到了互联网+的概念,影响到我们数据中心的运维。这里面有三个挑战跟这个DCIM相关的。第一数据中心的追求在不断的要求不能有停机,业务不能终端,我叫永不停顿。第二个是关于能源方面,因为能源开销是随着这种我们数据中心的这个计算密度的增加,数据中心的规模的扩大,以及能源成本的上涨,所以它的能源的开销也不断的在上涨。

  同样当我们一个数据中心建好的时候,可能我们规划有很多的容量和空间,但是随着数据中心使用的年头越来越长久,它的使用空间也会逐渐的变得非常的稀缺和珍贵的。那么我们要解决哪些挑战了?在解决挑战之前有一个核心问题。就是这些信息是不是安全,这个是我们要来解决问题的一个关键的核心。我们先来看一看关于人们追求一直都在追求无故障高安全的持续的运行,那么这是理想化是这样的。当我们的数据中心出现了一些故障的时候,当这个故障发生的时候,您能否马上就可以知道它的这个潜在的原因是什么?以及当这个故障发生以后,我们能不能了解到对这个故障发生对我的业务系统、应用系统和基础设施它的上下游之间会产生哪些影响?同样对能源的开销,就是应对能源的开销有很多种方法。第一是技术的创新,在我们数据中心里面你要做改造更新,新的服务器的能源的效率肯定比旧的服务器要高,配电系统也是这样。我们的UPS的供应数早就达到九点多了。

  同样的道理第二点是关于这种如何来降低能源消耗。我们是提高能源的利用率,就是所谓的现在非常流行的这个虚拟化的技术,或者是采用高密度部署的方式,包括现在国内一些互联网企业现在非常流行的这种高压的方式,这些都是能够来提高这个硬件效果,来降低能源开销。第三点也是最直接的一种方法,其实国外有一个经验值,每当你的这个温度机房温度要提升一度,可能你就会,如果这个机房的规模是一百个机柜,在国外的话一年下来会节约一百美元的金额。这是很实在的例子。国外流行的一个自然冷却的方式,其实也已经有很久了,包括在国内也有很多的概念,但是在国内为什么行不通呢?因为国外没有考虑到国内有雾霾的问题。因为我们知道计算机对空气质量还是比较敏感,对雾霾天气里面有对计算机的杀手,例如二氧化硫等元素对计算机会有侵蚀。

  我前段时间刚听BAT三大公司之一,他们也做过这个实验。就是如何既能够做这个自然冷却,同时又能够又不对我的计算机系统不伤害。他们采用一种方法是高温的方式。然后他们也做过这样的实验效果还是不错的。当然这可能是在一些特定的行业,可能在互联网公司也这样做。大部分的朋友您的机房是企业的机房,用这样的方法不一定合适。

  那么我们再来看看这个关于机房的这个使用空间。我们知道随着我们机房的运行过程中,我们的服务器和存储都会在搁一段时间会进行不断的更新。如果在座的有一些我们运维的朋友,您有没有考虑过在服务器IT设备更新的时候,你整个数据中心的更新的情况您是否了解?然后这些东西的使用寿命还有多少年?所以这个也直接会导致对我们数据中心如何来优化这样的始终空间。

  我们再看数据中心的运维的状况,我们的机房应该随着技术的发展,应该已经很先进了,比如说我们机房都有部署先进的服务器,都有上虚拟化的设备,甚至还有刚才我说的供配电的这个高压的方式。但是这是有一个工具,据我考察很多机房90%的机房都在用,就是一些电子表格比如我们机房里面做一些资产管理,或者做一些电路管理,我们大多数还是用电子表格,或者用各式各样的图纸,这个基本上是没有摆脱的。

  第二点我们平时的运维工作最通用的方式就是人工的方式要去楼层巡检,要去手动的抄写,看电和空调的状况,这个就是我们数据中心运维的状况,这个状况不改变的话,对我们机房未来的发展它还是有一定的制约的。所以在这样的运维状况下,我不知道我们的运维人员能不能回答这样的问题,比如说你的机房里面到底有哪些设备,这些设备归属哪些部门,这些设备怎么连接?这个是资产管理的问题。

  或者我们看看,我们的机房经常有一些变化,当我们发生了一个变更我如何来监控整个变更的工作,我如何知道这个变更的工作何时完成,这是变更管理。还有刚一用电我们就知道,我能够回答出来我的用电数。我如果是细问到我的某一个机柜,或者某一台设备的真实的耗电,像这些电源管理呢其实也都是我们需要改进的。包括环境管理,刚才也有专家也讲了,我们的机房的环境是不是已经影响到社会的安全的问题。以及说到了我们的能源的成本,今年我记得三月份的时候,国家颁布了一个关于试点绿色数据中心的试点的工作,说明这个能源的问题已经上升到国家战略的层面了。所以包括我们的碳排放是多少。所以这些范畴都是能源管理的范畴。

  还有一个就是容量管理。就是我大概整个数据中心有多少容量,或者我一个模块的机房有多少容量,这个容量不仅仅是包含我机柜的空间,还包含我机柜里面配电、用线的容量,这些容量我能不能有一个时时的预测的工具,能够预测它什么时候可以用完。我如何来优化这样的使用效率,使这个能源经过优化就可以延长这个数据中心的使用寿命。在这我给大家举一个例子,纽约市已经结束给,因为他的客户和他的一些交易系统是有一个规范是必须它的数据中心在离它客户五公里范围之内,它又不能搬走,又没地扩容,我只能通过我内部机房的内部挖掘,使它的用电量减少,同时对机房进行扩容。

  我刚才说了这么多复杂的问题。那么解决这些问题的关键是什么呢?这是就是给大家步入正题的题目就是DCIM。刚才有很多朋友不了解这个DCIM,本来我想把这一页过去的,但是我还是要做一个介绍。DCIM一句话来说就是它对IT设备的效能和基础设施的管理进行了一个统一的管理的这样的一个工具。它是可以来坚决缄口、测量、管理以及控制数据中心的效能,包括使用率还有中间的消耗。目前DCIM在国际商还没有一个统一的标准,所以我引用的这段DCIM的定义,那么DCIM在已经发展了这么多年了,我们看一看这个报告是IBC调查机构对所有的数据中心已经使用的DCIM的用户做了一个使用者调查,就是看看这些用户在用DCIM工具主要是用它做什么?我们看看它的排名。排名第一大多数客户都用DCIM做时时的能耗报告。第二个就是识别耗电的设备。第三是来做这种IT资产的远程监控。第四是做时时的环境报告。第五是做PUE的报告,第六是容量报告,第七报告和分析,第八是做资产管理,第九是做能耗管理。所以我们看得出来,所有部署的DCIM系统的使用者,他们在用这个使用工具的时候就是这几大类。一个是能耗的管理,还有做IP的资产管理是非常多的,还有做环境的管理。

  力登公司这么多年我们也积累了很多DCIM的用户,大家也有看到我们有一个非常庞大的用户群,我们也对我们DCIM的使用者做了调查,就是他们在用力登的解决方案的时候,他们使用最多的方案和功能是什么呢?我们可以看出来,这个排名是不分前后的。首先是资产管理、容量规划,包括做一些能源的消耗的报告,以及能源的优化,在能源的优化里面判断两点,第一是机房的恰当和准确。其实我们的IT设备是没有交汇的。国外有一个著名的组织,今年它会发布一个新的关于温度湿度的标准。它的温度标准经过2011年的温度标准,已经对机房的温度范围做了一个宽泛的规定,今年发布的标准他们会对湿度做一个非常宽泛的规定的规范。所以我们可以看出来,通过这种方式可以做一些能源的优化。

  第二点是寻找幽灵服务器。大家知不知道什么是幽灵服务器?所谓的幽灵服务器就是它一直在用电而没有干活这样的服务器。我们就需要把这种服务器找出来。也给大家举一个国外的例子,国外有一家著名的企业,它的机房里面,它有500台服务器,后来找出来10%的幽灵服务器。它采取的措施第一步把这些幽灵服务器的网线拔掉,然后一个月的时间看看有没有部门问说我的服务器不能用了。第二步是拔电。第三步是让这个服务器彻底下架。它用什么工具做的这个工具呢?它就是在它的机房里面装这个力登科技所提供的职能PPU的这样的产品。

  由于今天的时间关系我不可能把所有的功能都给大家做一个罗列。我就把排名第一的资产管理给大家做一个汇报,看看我们的使用者如何用这个资产管理做一些管理。其他的功能会后有机会我们也可以进行交流。

  我们来看一看什么是一个精确的资产管理。如果要具备一个精确的资产管理。首先第一步你要有一个非常智能的一个模型库,这是作为所有的DCIM系统必须都具备的。这个中心库首先是容量非常大,力登科技超过了三万点的规模。第二这个中心库是可以自定义的。第三是可以每周更新的。第四这个模型库是非常人性化的时候。如果有一台设备是非标准的,它可以自己来导入这台特殊设备的面板以及其中的一些细节。

  在管理的模块,我必须是一个智能的模块。大家可以看到你们这个照片很显然是一个服务器,为什么我们把它称之为叫 ,比如说这个用户肯定要有详尽的尺寸、重量,甚至它的位置信息,甚至前后面板,在这些信息过去传统的监控系统和往返系统都已经有了。为什么叫SMART?同时在看到网络断口,甚至这个服务器的串型口的断口我们都赋予了智能化的模型。你在使用的时候会知道它走得是什么协议,包括它的网络速率是多少。

  有了模型库以后,还有一个我如何来进行精确的资产管理呢?还有一点非常重要的就是可视化。DCIM这个工具有一个跟以往的数据中心管理工具,最大的不同就是可视化管理这一块。这个图是一台服务器的一个配置图,非常形象,大家可以看到这个机柜的这个左边有一些竖的条,那个就是我们高电服务器每一个服务器进行配置。所有的配置都是可视化,,同时我们可以看到在这个表格里面的信息,不论是它的设备的基本的信息,还是它各个断口的信息都非常的丰富。这样就方便我们对资产进行新的添加和管理。

  第三点也是DCIM这套工具给我们带来的变革。就是所谓的叫做资产管理的电子标签化。在这套系统里当你部署了这个电子标签的传感器,它可以时时的追踪我这台服务器当前的位置,一旦这个服务器有了变更的话,我可以检测到这个服务器变更的趋向和位置。

  还有一点关于资产管理,在数据中心里面资产管理基本上不是被人重视的。主要的这个管这个资产是我们的财务部门,可能到了年底要做一些台帐。但是在数据中心的资产管理,我们可能不仅仅是一个年底台帐的问题,我们要考虑到数据中心这些设备的整个的生命周期的管理。大家从这个图上看出来,最左边是这台设备的计划。开始要采购这个设备的时候,它已经纳入到我的机房管理范畴。这个家电、安装还有最后这台设备的生命的终结,就是要做到这种生命周期的资产管理,这样才对我们的数据中心的运维和管理人员有一些实际的帮助作用。

  最后,再给大家分享一下关于DCIM的调研和实施方面的一些问题。这也是一些经验教训。因为我们力登科技公司也做了这么多年的DCIM的项目,和客户联合起来。所以我给在座的一些朋友,如果您想计划实施DCIM的项目,要考虑哪些问题。第一您还需要去看一些实施的案例,因为毕竟这个DCIM是一个比较全新的一个概念,只有当您去了解到了一些案例,无论这个案例是国内还是国外的,可能对你的项目的决策会有很大的帮助。

  第二在你试试大的项目部署的时候,我建议你先做一个小规模的POC,就是先验证一下就是这套系统是不是符合我计划要求的系统。

  第三,我们做一个项目要报预算,你在报预算的时候一定要非常仔细的注意一些隐藏的成本。不是说某厂商给你这个DCIM这个软件这么多钱就完事了。您一定要了解这个体系,这个有没有附加的模块,要不要增加第三方的一些程序,以及是不是要跟变更管理做对接。最后一点尤其重要。因为DCIM大家上这个系统的时候,一定要抱着您要实施ERP系统,CIM系统这样的心态来对待这件事情,所以它的部署实施会在你整个的预算部署里面会占的比较高。尤其是整合的服务、专业的服务。这个成本是取决于您现有机房的数据库的情况。所以这也是给大家一些DCIM项目调研的一个建议。

  我们决定来实施DCIM的项目的时候,我们最佳的一个实践应该是怎么样的?很显然您需要把您机房里面将来要使用这个工具所有的人员都要把它集中起来。很显然你不能自己去干很多事情,一定要找一些外面的人,无论是找厂商还是找我们业内的专家,这个POC非常重要,在你实施DCIM的时候,你的机房有500个机柜,我建议你先拿出50个机柜做一个实验,等这个实验成功之后,你再做一个扩容。为什么做这个POC,因为你做POC的时候你会把很多你的机房特有的一些东西拿过来做一些测试,比如说你的数据库的情况,还有设备的模型库是不是跟我现有的模型库的设备能够有一个匹配。包括我产品的整合,你DCIM如何和我现有的资产管理系统做一个整合。这个在POC里面就可以得到一个很好的验证。

  这种项目实施坦白讲,按照我们过去的经验也有很多的失败的经验和教训。这里面给大家有这么几个建议。第一作为我们使用方自己内部要定一个牵头的人,否则这个项目实施起来就非常的麻烦。我给大家举一一个例子,就是去年我们一个同行业做的一个项目是一个国企,当时这个DCIM花了三百万,到今年为止已经宣布这个项目破产,很简单,就是因为在做这个数据导入的时候,第一连一个统一的资产管理的编号他们内部人员都沟通不下去,每个部门财务部有财务部的资产编号,人事部有人事部的财产编号。所以这个人员分工和定义要非常的明确。

  第三点就是数据,如果你的数据是一堆垃圾,你输入的是垃圾,输出的也是垃圾。我们做DCIM的时空的时候,我们会跟我们的使用方把这个数据再核验一遍,专门有实施的步骤,拿着这个数据去对。最后也是给咱们使用方的建议,一般一个项目实施完了以后,你的项目的集中方,实施方就走了。所以在项目实施结束之前,我们的内部人员一定要培养出一个专家来。因为当你的项目实施完毕尾款都打完了,你再找集成商就不一定能够对您有及时的服务。所以在内部培养出DCIM的专家也是非常重要的环节。所以这是给大家做了一个实施经验的一个交流。

  由于今天时间的关系,我也不能分享更多的内容。力登公司有专门一个网站。这个网站上有很多DCIM的电子书,如果大家对DCIM的这个概念和技术感兴趣的话,希望大家前去下载。力登公司DCIM的理念,我们是从机柜的智能化开始,在我们的展台大家也看到了这个图片,就是当我们把数据中心的每个机柜都智能化,那么这个DCIM实施起来就非常简单了。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们