您现在的位置是:首页 > 数字化转型 >
崔维力:让中国工业用上世界级的国产数据库
摘要2016年5月26日,以“促进两化深度融合 服务制造强国建设”为主题的“2016中国软件和信息技术服务业发展高峰论坛”在京召开。...
崔维力:大家下午好。我讲演的标题是让中国工业用上世界级的国产数据库。我对于中国工业现在已经是外行了,我年轻的时候是干工业,在北京第三机床厂干过车工,这叫制造工业,我在MBA以后,又在石油部石油研究院做过研发工程师,据说那叫流程引进,所以我年轻的时候在,但现在离开了。这次是我第一次在工业型的会议上讲数据库,为什么讲?是这样,就是中国的工业正在从劳动密集型走向技术密集型,大家都在谈工业4.0或者叫中国制造2025,其中最常听到的一个是叫智能化,其实智能化的第一步一定要数据化,否则你很难智能化,也就是说在工业4.0也好,还是叫中国制造2025也好,数据对于工业变得非常关键,在关键技术上我们有没有国产的数据库,能够支撑关键性的技术。
我说的有点大,我估计你们第一次听国产数据库的讲演,标题你们一定认为是赵本山写的,因为一个中国的厂商自吹可以让中国的企业用上世界级的数据库,我希望当我讲演讲述的时候你知道我不是赵本山,我今天20页PPT,两页讲工业的数据类型,9页讲数据库,再有用5页讲工业数据的应用架构,用4页讲一下嵌入式应用。
工业数据的类型这个是从咱们数据使用者的角度看,无非是三种类型,一种是管理数据,这里包括供应链、销售链、经营分析,第二类是生产数据,这是制造业特殊的,有很多传感,有很多控制阀门,压力表,温度表,流量表,像酸碱度,产生大量的实际数据。另外更先进一点的工厂,不但要做控制,还要做展示,咱们看到先进的大厂都有大屏随时显示设备的状况,流水线的情况。所以这块是制造企业比较特殊的,另外一类就是你们可能有些人卖的产品里面就需要数据库,比如你是做军舰的,那一定是有舰载的数据库,你做飞机的,一定需要机载数据库的支持。包括今天上午三一重工讲的非常好,他们的挖掘设备里面现在都有数据库,这样把设备的使用信息和运用信息随时的收集和分析。
这是第二种分类,这就是我们说数据库的,刚才咱从用户的角度,那么从我们做数据库的角度,我们是这么看,第一你们会有实时数据,有时候收集速度或者反映速度,需要微秒级,超过秒级就不叫实时数据了。还有一些历史数据,历史数据不变的时候,成静态数据的时候我们就叫冷数据。这么分从数据库的角度,需要不同的技术最好处理和使用这些数据。数据类型就分一分,我可以讲关于20页数据类型的分,但是我觉得大家不需要。另外我们看大量的数据分类,我们看看我们能用哪种数据库服务好你们,我顺便讲讲我们的产品系列。数据分类怎么分,我不知道大家对数据库的了解深度,一般说就一个数据库嘛,是,那是以前的事,或者你没仔细想,实际上这是在大约八年前,这个人获得计算机界的诺贝尔奖。他说一个数据库大部分应用的数据类型都能支撑,这在十年前基本是真实的,但是这十年最大的发展是什么,是大数据和云计算,大数据在挑战这种一个架构支持所有应用的思路,现在叫多种架构支持多类应用,在事务交易这个角落,Oracle也还行。
这个角落,Oracle本来擅长的角落现在开始冲击了,原来就有但是开始应用内存的数据库,比磁盘再快十倍。我做好准备了,架构分裂,现在分裂成这样,现在在实际上卖的数据库,现在已经是六类,中间是最为传统的,叫事务数据库或者叫通用数据库,如果你追求用汽车来比喻,这个数据库就是通用型汽车,宝马、奔驰、奥迪A6,非常大的时候我们又追求机制性能,出现另一个车型,路虎,重要空间大,用另外一个车型满足我们的需求,数据也一样,出现了分析类数据库。这边是内存数据库,这个相当于保时捷,数量不大,但是要求速度很快,证券的高频交易,比如说电信的实时计费,Oracle已经不行了,小国家的还可以,像一个省几千万用户的计费,而且实时的,边打电话边计费,这个就得用内存数据库,这个数据都装在内存里,大家知道物理内存比磁盘要快一千倍。当然了,有的人说我这个数据太重要了,不能让别人偷走,坦克车,开着没人能干掉你。我们有安全数据库,这边专门对存储进行加密,其实大量数据的丢失往往是你的数据库被人端了,通过加密他端走没事,解不开。
那么中间这个是工业,这两个是工业制造业常用的,一个时序数据库,一个嵌入式数据库,待会分别讲他们的用处。大家就记住,有六个汽油桶,就是六类数据库你们可以选用。我现在分别讲讲这几类数据库,那么第一类数据库就是新型的分析型数据库,我们公司的产品都叫G Base,为什么叫G,就是国嘛, Base就是库,我们早就起了,不是新起的。我们敢说这类数据库,特殊的数据库我们是国产第一,世界一流,这个数据库有两大新技术,一个是叫列存储,我问一下在座的有多少人用过数据库,谁知道什么是SQI,还可以,大约有30%,那我就讲两句,大家知道,传统的数据库在存数据往磁盘上存的时候是按行存储,按列切割适合交易,结帐往往需要一列数据的加和,一列加在一块知道我的余额总计是多少,如果按行存,在磁盘上存的时候,这些数是不连续的,是调着存的,这样行存储做统计的时候,效率非常低,而列存储在统计的时候,效率极高。所以专门做分析的数据库大部分是列存的,常见的运算是求和,求平均值,求最大值,最小值,一般都是针对列,所以别小看存储结构的改变,能大大提升速度,能提升10倍,对于有些东西能提升一千倍。
第二个技术互联网时代有大规模集群,应用主要是结构化数据的复杂分析,价值是提速,我们经常可以给你提速10倍以上,第二个是省盘,列存储的时候另外一个好处是易于压缩,因为一类数据类型是一致的,我们压缩经常可以做到1:10,我们压缩存储,这样原来一台机器只能存一个T,我现在可以存10个T的数据。第三个集群干嘛,支持云计算,我们对标的产品,因为是创新型的数据库,100T以上结构化数据,我们现在是惠普做数据库了,中国市场是三家血拼,对标者真正面对面的厮杀,价值差不多,技术也一样。所以这是自主创新研发经过六年时间,大约投入了2.5亿元,在今天为什么我说世界级的,中国现在四大行业的最大存储仓库都是用这款产品支撑的。我举个例子,农总行的数据仓库指数400节点,4个P的数据,如果你们懂数据库,4个P是很大的数据量,我想我们做到三千个节点是很有可能的。
下面我们讲讲事务型数据库,我们在一年半以前获得了IBM数据库叫Informix的授权,我们可以自主演进,自主发行,自主定价。8T已进入国家农业结算中心,兴业银行,华夏银行,贵州移动等高端用户。下面介绍一下保时捷,这个我们认为是国内第一世界最快,这个是我们去年又花钱从韩国的一家公司买的,所以我们拥有完全的知识产权。这个是传统的事物型数据库,处理速度和吞吐量可以提升10倍以上,100%兼容Oracle。另外一个就是时间序列数据库,名字还是8T,这就是因为8T里面有四个数据库引进,是非常好的架构,专门有一个引进就是时间序列。这个特点就是更快,反映更快,加载更快,这样可以反馈控制嘛。
我们还有一个数据库就是坦克,这个坦克就是在通用型数据库上面加了四个模块,数据加密、传输加密,访问控制和安全审计,一般数据库是没有数据加密的。这个我们可以说是最高安全等级,国家有一个计算机系统的安全保护等级,最高级是5级,一般没人会用,因为那级没法用了,四级是还可用的最高级,中国管安全是有多个机构,安全部是一个,公安部是一个。
我把产品讲清楚,下面看数据和产品结合起来,对于咱们工厂里面生产数据,很清楚就是用时间序列数据库对应生产控制,用事务型数据对应生产管理,如果数据量不大,就用管生产管理的事务型数据库做分析,不到10个T的数据做通用数据做分析也挺快的,数据量大的时候才会慢下来,如果又想做管理又想做分析,你觉得数据库慢,这时候可以用分析型数据库。对于管理数据,也是同样,如果你业务系统都用8T,如果你觉得慢了,可以把数据导出来,专门用分析型数据做分析。
我举个例子,这是雅砻江水电站,听起来名字不大,后来我一查,为什么提这个案例,我才知道这个水电站是中国第三大水电站,当它的三级工程建设完毕以后,整个流域的装机流量会超过三峡水电站,三峡水电站的装机量是1800万千瓦,如果他做完了加起来是三千万千万,这是一个基本的架构,在企业数据中心用的数据库全是G Base,这个我还是比较震撼的,因为毕竟是一个很重要的控制、生产、分析都用的G Base。这个是如果有更大的数据库,这么大的数据量,比如企业的数据量到了几百T,这个时候要用这种架构来做,就是现在由于很好的免费的开源的东西,那边有8A做高端复杂分析,这样基本能满足世界大部分大数据的分析需求。
另外我花四个PPT最后一节讲讲嵌入式应用,嵌入式应用8T这个产品比Oracle,在全世界嵌入式应用上是广泛的应用着,这是嵌入式的一个定义,经过安装,内存的占用,高度灵活口号,近于零的管理,可编程的管理界面,所以需要自我配置、自我优化,自我保护,自我修复。应用里面有传感器,嵌入式,内在也可以做,我们内存也可以做嵌入式,如果需要提高性能。这是一个例子,这是一个什么例子,就是一个实验车队,几百辆车去跑实验,是为了润滑油,我以前干过这事,配出一个汽车润滑油,在实验室要做各种测试,当时用卡车,装到卡车的上面去,最远跑到海南岛,新疆的沙漠,黑龙江的冰天雪地去实验润滑油,是不是能把车润滑好,这种车就可以用机载的数据库,因为这时候作用就是大量的过去都是人工记录,现在是一个实验车上可以装上千个传感器,然后收集起来做分析结果。
另外这个例子智能楼宇,智能楼宇现在是节能,你对外部感知越实时,越准确节能效果越好,所以现在智能楼宇都有自己的风向台,可以收集风速、温度、降雨和光照数据。我的讲话完了,谢谢大家。
(本文不涉密)
责任编辑:
下一篇:张劲松:电力物联网研究及应用