您现在的位置是:首页 > IT基础架构 > 软件与服务 >
新挑战 新技术 新产品——2011数据仓库市场盘点
摘要数据仓库是面向决策分析的数据库,数据仓库将来自于各种数据源的数据,根据不同的主题进行存储,并对原始数据进行抽取、转换和加载等一系列筛选和清理工作。一个完整的BI应用通常涉及数据仓库引擎及其相关的设计建模工具、ETL工具和前端展现工具等。数据仓库引擎是BI中的核心...
数据仓库是面向决策分析的数据库,数据仓库将来自于各种数据源的数据,根据不同的主题进行存储,并对原始数据进行抽取、转换和加载等一系列筛选和清理工作。一个完整的BI应用通常涉及数据仓库引擎及其相关的设计建模工具、ETL工具和前端展现工具等。数据仓库引擎是BI中的核心,它的性能高低直接决定了BI的表现。
在数据仓库市场,近年来并购一直在不间断地进行着。IBM收购了Netezza,EMC收购了 Greenplum,SAP和Sybase两家公司完成了合并,Oracle收购了SUN,微软收购了DATAllegro。在现有的企业级数据仓库工具厂商中,Teradata、IBM/Netezza、Oracle/Exadata、Microsoft、SAP/SYBASE都发布了新的数据仓库设备产品。企业级数据仓库工具市场竞争已经趋于白热化。
新挑战
纵览最近几年数据仓库的发展,数据仓库领域存在的一些新挑战已经得到了大家的普遍认可。
1、 大数据时代及非结构化数据的处理
IDC研究报告称未来十年全球大数据将增加50倍,数据仓库面临的最大挑战就是爆炸式增长的数据量。新兴的数据类型层出不穷,更多的业务提出了实时需求,而向这部分业务提供的数据缺乏足够的敏捷性,数据仓库在业务运营以及决策支持方面显现出"疲态",快速处理大数据成为每一个企业急需解决的难题。
另一方面,越来越多的企业从社交媒体信息中发现了价值,希望可以充分利用好这一部分价值,这也是数据仓库工具需要考虑的。包括社交媒体信息在内的所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等非结构化数据的存储和分析也是数据仓库所需要面对的问题。为满足这些需求,数据仓库工具需要纳入非结构化数据源,融合数据库内的数据挖掘和文本分析,建立混合存储的体系结构,增加内存执行、分布式缓存、复杂事件处理、固态硬盘、地理数据集以及丰富的元数据等。
2、 实时ETL的挑战
对于企业级数据仓库而言,从繁杂的数据源进行提取、转换和加载(ETL)操作是另一个挑战,特别是实时的ETL操作。因为大多数ETL工具都是基于批处理模式的,一个传统的批量处理的提取、转换与加载(ETL)的过程需要四个小时或更多的时间来完成。这就给数据仓库提出这样的要求:在给定的时间内移动必要的数据量,例如,让业务交易后一个小时,甚至几分钟到几秒钟后就得到数据。
另一方面,由于OLAP和查询工具在设计上都是是针对那些非实时变化数据的,所以实时操作可能会导致数据不一致的结果,无法保证数据质量。
新技术
为了应对以上的挑战,数据仓库市场出现了以下的新技术:
1、 内存计算技术
内存计算是指直接从内存,而不是硬盘上读取数据,并进行计算、分析,是对传统数据处理方式的一种加速。内存计算非常适合处理海量的数据,以及需要实时获得结果的数据,比如可以将一个企业近10年的几乎所有财务、营销、市场等方面的数据一次性地保存在内存里,并在此基础上进行数据的分析。当企业需要做快速的账务分析,或要对市场进行分析时,内存计算就能够快速地按照需求完成。
SAP收购Sybase之后推出了内存分析设备HANA,Oracle在收购TimesTen后,发布的类似产品Exalytics,都是内存技术的一种创新发展。
2、 数据库内分析(In-Database Analytics)
对于传统的分析方法来说,如何在大数据量、吞吐量与准确性之间维持平衡一直都是巨大的挑战,因为传统的方法在进行数据分析时要求将数据从数据库中移出然后再进行分析,这种数据移动占用了整个分析进程75%以上的时间,对所提交业务所需的结果带来了严重的限制。
数据库内分析数据在结果被过滤和处理之前不会离开数据库,也就是说,数据分析在数据库内可以即时完成,这就大大节省了数据移动所占用的大量的时间;同时通过将数据保持在数据库内,还大大提高了数据安全的级别。数据库内分析能够提供一个同时实现所有三个目标的分析平台。
3、 非关系型数据库(NoSQL)的快速发展
传统的关系数据库在应付web2.0网站,特别是超大规模的和高并发的SNS类型的web2.0纯动态网站等方面已经显得力不从心,暴露了很多难以克服的问题,这也致使非关系型的数据库成为了一个热门的新领域,发展非常迅速。非关系型数据库的优点有:可以处理超大量的数据,能够运行在便宜的PC服务器集群上等。目前大型的数据库厂商开始将目光集中在NoSQL领域,Oracle推出了基于BerkeleyDB的NoSQL数据库,IBM也将推出具备NoSQL功能的DB2旗舰数据库。有了大厂商的支持,NoSQL走上商业的道路似乎已经成为定局,而这也给数据仓库市场带来了一些机遇。
4、 实时操作性数据复制 (ODR) 和低冲击变化数据捕捉 (CDC) 技术
实时操作性数据复制(ODR)能够完美地快速拷贝数据并能确保交易的完整性。它在从提取、转换与加载(ETL)向ELT(数据先复制到数据仓库然后再转换)转变的趋势里也起着非常重要的作用。变化数据捕捉(CDC)通过仅捕捉和提供对企业数据源做出的变更,能缩短等待时间,并且对源数据库服务器产生最小或边缘的影响。
实时操作性数据复制 (ODR) 和低冲击变化数据捕捉 (CDC) 技术作为对传统数据ETL的补充可以用来创造一个更为稳健的数据管理和整合环境。
5、 Hadoop技术
Hadoop是一项专门应对大数据的技术,特别是在应对非结构化数据方面,比如社交网络以及Web应用中,文本信息,应用、网络和安全日志数据等。Hadoop是基于免费许可、支持数据密集型分布式应用的软件框架,建立在MapReduce技术上,使应用可以处理数千个节点和PB级数据,让数据处理和数据分析变得更加方便快捷,应用于企业中将改变很多企业的业务模式,它包括但并不局限于分布式计算Hadoop。
Hadoop在可伸缩性、强健性、性能和成本上具有无可替代的优势,已成为当前互联网企业主流的大数据分析平台。
新产品
1、 SAP HANA
SAP HANA(SAP High-Performance Analytic Appliance)是SAP高性能分析应用软件的简称,它使用基于内存计算的软件技术来实时分析海量数据,充分发挥内存数据处理的威力,使分析应用软件获得了前所未有的效能,由此开启了一个全新的应用软件类别。
SAP HANA不只是一个数据仓库,而是一个平台,在这个平台之上用户可以构建数据仓库或集市、报表和仪表盘等。HANA可以提供数据插入、修改和高效的查询功能。同时,作为一个平台,在HANA之上,BO报表系统可以提供更好的用户体验,用户几乎不需要等待数据返回。用户可以使用HANA的建模工具直接访问ECC或其它数据源,避开BW。
2011年,农夫山泉已经成功上线SAP HANA,这是中国企业首次采用SAP HANA内存计算解决方案。
2、 Oracle Exalytics
甲骨文在今年的OpenWorld大会上发布了In-Memory商业智能运算系统─Exalytics。
Exalytics是全球首款采用In-Memory的软/硬件系统,它结合了强化虚拟能力与最佳化效能的Business Intelligence Foundation商业智能工具与平台,以及具有分析能力的TimesTen In-Memory Database,再加上可扩充的服务器,将商业智能(BI)能力从报告、仪表板功能延伸到建模、规划、预测与事前分析,而且可即时呈现。
3、 IBM InfoSphere大数据分析平台
IBM InfoSphere BigInsights v1.3和Streams 2.0分析平台,这是IBM最新推出的两款大数据分析软件平台。
BigInsights指利用大数据获得更多的洞察力,用来处理磁盘中的静态数据,而Streams则表示流动数据的分析,用来对内存中的流动数据进行实时的分析。
4、 IBM Netezza
Netezza是专门的数据仓库数据库。Netezza将存储、处理、数据库和分析融入到一个高性能数据仓库设备中,该设备专为使大数据高级分析更简单、更迅捷和更易用而设计。它是软件与硬件不可分离的紧密结合体,无缝的整合数据库管理系统(DBMS)、服务器(Server)和存储设备(Storage)。不需要复杂配置和调优就可以取得非常优异性能。
作为全球数据仓库设备的发明者,Netezza公司创立不久即成为全球数据仓库、分析和监测设备领域的翘楚,为客户提供集存储、处理、数据库和分析软件于一体的解决方案,受到包括QVC、CSN Stores、时代华纳(Time Warner)、雅诗兰黛(Estee Lauder)、全美保险(Nationwide Insurance)近600家客户的青睐。
5、 Teradata Aster MapReduce
Teradata今年收购了Aster Data。Aster Data 是高级分析和管理各种非结构化数据领域的市场领导者和开拓者。
今年9月,Teradata新推出了 Teradata Aster MapReduce平台,将大数据分析语言MapReduce与商业分析语言--结构化查询语言 (SQL) 相结合,其中包括Aster Database 5.0、新版 Aster MapReduce Appliance(这将扩大 Aster 软件部署的选择范围,超越纯软件和云的限制),以及适用于Teradata 与Aster数据系统之间高速数据传输的Teradata-Aster Adaptor。
Teradata Aster 使多结构数据更加简单,大数据分析不再是少数专业数据分析员或企业 MapReduce 专员的专利,任何业务人员都可以轻松查看、研究并理解这些数据。
6、 EMC GreenPlum统一分析平台
EMC12月推出了业界用于支持大数据分析的下一代平台――EMC Greenplum统一分析平台(UAP)。Greenplum UAP是一个唯一的统一数据分析平台,可扩展至其他工具,其独特之处在于,它将对大数据的认知和分享贯穿整个分析过程,实现比以往更高的商业价值。
Greenplum的大数据分析技术,可充分利用企业所有的结构化和非结构化数据,以及新一代工具,来武装数据专家和其他已成为数据专家团队一部分的专业人士。为了从大量数据中获益并采取正确行动,企业需要做的不仅仅是同时处理结构化和非结构化数据,还需确保处理数据的人员能够尽可能高效地在数据集上进行重述与合作。EMC Greenplum Chorus满足了这一需求,它提供单一界面,以及虚拟数据库和社交协作,对企业的所有数据进行挖掘、创新使用和分析。
7、 Sybase IQ 15.1 数据库内分析功能
对于传统的分析方法来说,如何在大数据量、吞吐量与准确性之间维持平衡一直都是巨大的挑战。Sybase IQ新增了数据库内分析功能,这一功能能够提供一个同时实现所有三个目标的分析平台。对于业务来说,这不仅意味着企业可以对未来业务风险与机会进行更好的预测、同时能够在基于更即时的结果的前提下做出更明智的决策,还意味着能够更及时的捕捉趋势与异常,使运营决策更有效、更经济。
同时,数据库内分析可以立即提升业务性能与可扩展性。通过使用该机制,数据在结果被过滤和处理之前不会离开数据库,也就是说,数据分析在数据库内可以即时完成,这就大大节省了数据移动所占用的大量的时间;同时通过将数据保持在数据库内,还大大提高了数据安全的级别。更进一步的好处还在于分析代码与模型在整个企业中共享,允许即席分析,并且可以应用于最当下的数据集。
(本文不涉密)
责任编辑:
上一篇:商业智能系统应用的策略选择