您现在的位置是:首页 > 数字化转型 >

广通信达徐育毅:混合数据中心的运维和管理

2015-04-15 13:47:00作者:来源:

摘要2015年4月15日,由中国计算机报主办,中国计算机行业协会、中国计算机用户协会、中国信息化推进联盟数据中心专业委员会协办的“2015年第八届中国数据中心大会”在京召开。以下内容是北京广通信达科技公司董事长徐育毅发表的题目为《混合数据中心的运维和管理》的主题演讲。...

  2015年4月15日,由中国计算机报主办,中国计算机行业协会、中国计算机用户协会、中国信息化推进联盟数据中心专业委员会协办的“2015年第八届中国数据中心大会”在京召开。以下内容是北京广通信达科技公司董事长徐育毅发表的题目为《混合数据中心的运维和管理》的主题演讲。

  徐育毅:各位大家好,今天两位介绍都介绍混合云的建设,接下来我给大家回报一下混合云怎么样进行管理。云计算发展了一段时间,特别是互联网企业的拉动导致了整个计算模式快速的变化,原来是从虚拟化,现在到云计算,云计算之后又像整个协议变成虚拟化孤岛,现在阿里云又搞了重返地球,原来公有云和公有云,私有云是私有云,互相不干涉,现在好象都搅合在一块了。现在既有公有云又有私有云,怎么样管理和编排呢,我接下来给大家汇报一下内容。

  互联网推动软硬件重构,华为的已经介绍了,不仅仅是硬件重构,软件也进行了重构,我们软件定义网络到整个阿里云这种架构的给完全颠覆性的统一解决方案。阿里云重返地球计划之前就开始动手介入企业网,现在看跟很多部委和企业沟通,上个月也跟一个很重要的国家部委完成了招标采购了他们阿里云系统。环境可能是两方面,第一个是既有传统架构又有虚拟化,通过虚拟化转化进步成长未定义网络。另一方面直接采购大数据云,阿里云这种架构的,就成了两种计算模式并存,我们云来说储备、灾备,原来建设一个项目,一个应用,一台服务器应用绑定硬件资源和虚拟化建设到现在多国的数据中心主备灾备概念单薄了,基本上两地三中心多活的机制统一的管理。

  面临着这么一种体系架构,计算模式,我们运行管理也需要有一些变化,运营管理方法论跟这个模型还是比较一致的,早就提出来这种模式,从人治服务导向,业务价值几个阶段。我们也是跟很多部委银行在沟通,在做运维管理,大部分国内的政府机关,企业等等信息化程度,从模型来说,还大部分在被动和主动之间。数据中心一体化解决蓝图包括几个方面,包括安全管理,资源管理,整个运维管理,还有规划管理,大概分成四个方面。我们公信部搞能力模型的时候主要是分成五个能力域,一个是组织能力,一个是流程能力,一个是技术能力,还有平台能力等,这五个能力通过各维度可以把一个信息中心运行管理水平量化出来,这个量化起来才能进行有效的管理。我们最近也做了一些项目,其中有一个项目还是比较有代表性的,就是国家海关总署的信息中心的运行管理我们首先量化起来,之后管理,我们接下来回报一下运维管理经验。我们也做了十几年,整个体系架构分成这几个框架,首先是CMDB,这是资源牌照,以这个为核心,然后面向监管控三个维度。整个体系架构展开来讲是这么一个架构,接下来我大概花十分钟时间给大家详细回报一下,每个架构,每个部件到底解决什么问题。

  CMBD是整个系统的核心,这个建设比较复杂,一方面是传统的架构,一方面是虚拟化,现在又搞多活云中心,这种混合云架构下面,你对CMBD资源牌照的梳理会更加的困难,所以就必须要采用自动化的手段,对整个信息中心的资产配置系统,配置进行管理,有序的管理。

  这个资源的管理的话,一直是整个系统核心,为整个日常运营管理提供支撑。我们刚才说了CMBD是核心,我要把整个数据中心包括传统的,包括多活云中心等等这些配置情况统一纳入到CMBD,整个CMBD又面向三个维度,一个是面向监控,因为我所有牌照,就进入CMBD库之后,我就可以把那些设备,哪些资源纳入监控,就推到监控管理子系统去,在监控管理子系统可以对这些资源进行配置监控策略。咱们CMBD还有面向配置,配置的话是什么呢?这里面有一个概念,咱们的信息中心的CMBD资产配置库是做的越大越好,还是越小越小,我们要做的越小越好,我们把核心系统,会影响核心系统运行这一部分资源配置要纳入到严格管控。所以我们把重要的影响系统运行的配置信息,就送到配置库里面,配置CMBD管理。把整个软硬件资产,我就配到资产管理模块里面,对资产进行全生命周期的管理,整个CMBD是核心,它会面向监控,整个数据组织之后面向监控,面向配置,面向资产。

  下面这是一些专项金融工具,这实际上对基础设施的监控采集,这里面包括几个方面,包括网络层面的监控,包括虚拟网络的监控,还包括传统的服务器数据库中间件监控,还包括云计算向虚拟化平台的监控,还有业务应用的监控,就是ATN这些监控。所有监控的工具,每一个单位他有历史现状和使用情况工具很多,这些产生的数据是五花八门,格式不统一,我们要做集中监控报警子系统,把各种各样的监控产生的数据和设备产生的数据统一收集上来—我们需要建一个集中监控子系统,他主要包括几个方面,第一个要统一报警,因为不同的监控工具有不同的报警,这个格式都不一样,这样需要有一个平台,把所有的报警都收集起来,让这个平台非常灵活的,因为不同的报警格式不一样,我要进行灵活的识别处理,有的一秒钟几千几万报警上来,他需要很好性能的报警模块。

  第二,需要有一个资源库,这个资源库我们叫PMDB资源库。这个资源库要求把所有的监控的数据统一汇到这个上面之后,整个监控有一个字表库,这要求容纳高性能的,病人一台不够,可以两台扩充的,因为底层监控产生更多的性能指标数据,这些数据放到这里面统一存储,我可能会增加一些管理对象,这可能有不同的监控属性,我可以灵活的建模对数据进行存储。

  各种性能的数据上来之后,你要进行分析,分析监控数据有两种类型,一种是有固定的,比如说机房温湿度可以进行出力。还有一种动态的,比如说弹性机上,白天上班时间就是忙,晚上就是空,我这样指标负荷率比较高是正常的,但是空的时候资源符合高是不正常的,所以有一个动态的预值做各种各样性能指标动态的计算。

  报警上来之后我需要进行识别,我性能要好,并且要很灵活,对各种报警要进行很好的识别,把报警展现出来。展现出来的报警,各种各样的报警都需要在这上面,统一派单处理,这也要支持分类型,各种类型的管理需要,来进行组织。

  最后需要有一个展现模块,需要把各种监控的东西,按照管理需求维度统一展现出来,包括网络展现,业务展现,比如说海关各个关口,各个海关的业务网点的运营情况,要统一展现出来。要把一些核心业务系统情况展现出来,每天报关多少,什么地方有积压,什么地方有延迟,整个曝光趋势进行横向比较,各个业务情况进行比较。银行通过大屏方式,把整个交易运行态势展现出来,这样就可以看到整个银行交易环节运行情况,都可以看清楚。

  还有面向机房环境,机房动力环境,从虚拟现实上机房展现整个基础设施的运营情况。前面讲的主要是监控层面,我们要有一个比较强的PMDB,我们资产监控指标库,这个非常灵活,各种不同的监控对象可以纳入进来管理,某个指标不具备可以灵活增加,并且可视化建模,还有统一实验平台,对报警进行识别、分析、处理。还有一个动态预值做各种性能的分级出力。

  服务流程,大家可能都比较熟悉了,这里面流程尽量的一些日常服务,去服务交互,这是运维核心目标,我们这个项目有一千多台虚机,整个虚拟化资源也是通过流程平台进行交互,要什么样操作系统,什么样硬件,什么网络配置,需要什么内存资源可以进行审批,审批之后自动交互出去,我们把整个虚拟化整合起来在上面做日常的管理。

  还有集中控制,我们在很多用户里面发现,70-80%故障都是比较容易恢复的,这一类故障要去处理很累,我们做一个集中子系统,我们有一个知识库,一旦出现这个故障,我派一个工单出去带着脚本,我们针对不同故障有脚本库,我出现一个故障出一个工单,审核确定以下自动调用脚本把故障恢复,恢复之后整个系统就顺畅了,通过自动集成控制系统解决日常重复出现故障,70-80%的故障通过自动化手段恢复。

  整个运行中心,我们混合云架构下面,各种计算资源,存储资源,网络资源,整个情况我统一监控起来,量化起来,这样各个资源环节还有多少情况,我都能够掌握很清楚。刚才我前面讲了CMBD,刚才跳过去几页我再给大家汇报一下。CMBD我们整个资源,我们说这个很重要,能够自动的进行发现,发现之后统一纳入管理,比如说大量的报警,报警的时候经常一个系统报警,应用报警,网络报警,服务器有报警,各个环节都有报警,这样通过CMBD可以进行对故障自动化分析,可以通过CMBD同步上去做各种各样展现,我们做虚拟化机房的时候数据可以自动同步上去,不用最后人工做调整。

  监控,刚才讲了针对基础设施监控,我们还提供声音监控,我们把端口镜像,把一些运行情况,交易情况,业务量,吞吐率错误情况进行监控,这样保证业务系统深入监控,我们大部分是监控设备层面,就是网络服务器中间件存储,但是整个业务情况怎么样,特别是有的业务一方面在虚拟化平台里面,有的在传统的数据库里面,这样通过交易监控,能够看出来每一个环节,到底哪一个环节出了问题。这个在云计算上面,虚拟化平台上面也可以,比如说阿里云上面,这样把每一个虚机用户情况采集过来。

  我最后讲一下华为伏兴平讲的生态系统,我也汇报一下生态系统。我们发现全国统计了一下有几百家做监控系统,运维管理系统,都是从开源软件上做起,做了很多,我们也做了十多年,做这个东西确实不太容易,我们系统也是比较开放的,我们希望被集成,大家不需要从头开始做,利用我们平台来做。我们这个平台也是比较开放的,定了各种不同接口,针对这个我们在监控层面,资源配置层面,资源展现层面,CMBD层面,流程层面都有非常规范的接口,这样的话很容易在我们平台上面做定制开发,来满足不同的需求。比如说做平安城市的监控,就应用我们的平台对摄象头,对DVI进行监控,纳入进来可以统一管理了,有一些做雷达监控,军方也用了这个东西来做,这样做采集就行了,做采集做数据的建模和展现,大部分工作都我们给解决掉。

  比如说监控的话,我们有专门的监测插件,做一些监控设备比较特别的时候,可以在插件上面做一些定义脚本,采集数据之后就可以数据送到监控指标库里面,报警数据,我们有各种规则引擎,你报警送上来通过我的规则引擎进行识别,识别之后就会产生报警,我监控的资产和数据库,性能数据直接送到性能指标库里面去,通过这三个温度,指标建模,数据采集,展现,我就把你一些个性化的监控,我统一管起来。

  最后我给大家简单介绍一下我们公司,是做运维管理软件,做了十多年,有300多号人,还是比较专注做了一些运维,这是我们获得证书,我们也做了一些项目,比如说金融行业也做了很多,还有政府行业做了海关总署等等一些项目,我们也希望在混合云管理下面怎么样进行日常管理,能够和大家展开比较多的合作,谢谢大家。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们