您现在的位置是:首页 > IT基础架构 > 软件与服务 >
主流数据仓库产品对比分析
摘要数据库市场已经逐渐的由数据管理阶段发展到数据分析阶段,数据仓库技术是进行数据分析的关键基础。本文从主流数据仓库的支撑技术、成熟数据仓库产品的市场情况等角度对主流数据仓库进行对比分析。 ...
1 介绍
数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据仓库系统可以看作是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具,也是一种达成“数据整合、知识管理”的有效手段。随着数据仓库技术应用的不断深入,越来越多的企业开始使用数据仓库技术建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。
目前主要的数据仓库产品供应商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business Objects(已被SAP收购)等。Oracle公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,能够提供一系列的数据仓库工具集和服务,具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力,及快速和便捷的数据移动机制等特性;IBM公司的数据仓库产品称为DB2 Data Warehouse Edition,它结合了DB2数据服务器的长处和IBM的商业智能基础设施,集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件,提供了一套基于可视数据仓库的商业智能解决方案;微软的SQL Server提供了三大服务和一个工具来实现数据仓库系统的整合,为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能,可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能;SAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系,适应于对企业级的数据进行重新整合,支持多维、快速查询,提供服务于OLAP操作和决策支持的数据采集、管理、处理和展现功能;Teradata公司提出了可扩展数据仓库基本架构,包括数据装载、数据管理和信息访问几个部分,是高端数据仓库市场最有力竞争者,主要运行在基于Unix操作系统平台的NCR硬件设备上;Sybase提供了称为Warehouse Studio的一整套覆盖整个数据仓库建立周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品;Business Objects是集查询、报表和OLAP技术为一身的智能决策支持系统,具有较好的查询和报表功能,提供多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。
根据IDC发布的2006年数据仓库市场分析报告,上述公司占据了全球近90%的市场份额,提供的数据仓库产品的功能特性已经成为市场的主流。这些公司在推出各自的数据仓库产品的同时也提供了相应的数据仓库解决方案。本文后续内容将针对这些数据仓库产品和解决方案的主要支撑技术进行比较,并结合IDC和ChinaBI相关报告给出相应的市场情况分析。
2 支撑技术
在数据仓库系列技术中,主要的支撑技术包括数据库技术、ETL技术、OLAP技术、报表技术、数据挖掘技术。
2.1 数据库技术
数据库技术是支撑数据仓库技术的基础技术。尽管在数据仓库技术存储模型方面,基于数据库技术而发展的关系模式的理念已经被颠覆,取而代之是各种各样的数据仓库数据模型,如星型模型,雪花模型等。然而,在已有的数据仓库实践中,关系数据库仍然是实质的数据库存储工具,只是将数据库表改称为了事实表和维表,将属性域之间的关系重新定义为维度,量度,层次,粒度等。
成熟的数据仓库后台数据库包括Oracle、DB2、SQL Server、Teradata和Sybase IQ。在查询效率方面,Sybase IQ由于采用了列存储技术,查询效率比较高;在兼容性方面,Teradata从软件到硬件都必须是专用的,因而兼容性最差;在管理平台和海量数据管理方面,Oracle、DB2和SQL Server都提供了一系列完整的工具,相对于其它产品有着明显的优势;在磁盘空间利用方面,Sybase IQ的压缩比是所有数据库中最好的,而Teradata最为浪费。
另外,SAS公司和BO公司也拥有自己的数据管理能力,但对于大型数据仓库的数据管理,仍然需要使用上述数据库产品,SAS和BO都提供了与这些数据库进行连接的专门接口。
2.2 ETL技术
数据仓库系统是集成的、与时间相关的数据集合,ETL作为数据仓库的核心,负责将分布的、异构数据源中的数据进行抽取、清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。要实现数据仓库中数据的自动更新运转,ETL技术是必不可少的关键技术之一。
主流数据仓库产品供应商都拥有各自的ETL能力。IBM的ETL工具称为IBM WebSphere DataStage,它为整个ETL过程提供了一个图形化的开发环境,支持对多种操作数据源的数据抽取、转换和维护,并将其输入数据集或数据仓库;Teradata的ETL工具称为ETL Automation,它利用Teradata数据库本身的并行处理能力,通过SQL语句实现数据的转换,提供对ETL流程的支持,包括前后依赖、执行和监控等;SAS的ETL工具称为ETL Studio,提供管理ETL流程和建立数据仓库、数据集市和OLAP结构的单控制点。其他几家公司则将其工具融合在大的数据仓库组件中,如Oracle的Oracle Warehouse Builder (OWB)、SQL Server的Integration Services、Sybase的Data Integration Suite、BO的可扩展数据整合平台Data Integrator。
上述各公司提供的ETL相关工具功能相近,在易用性、效率、价格等方面各有千秋,但就工具的二次开发、集成和开放性而言,与专业的数据集成平台,如Informatica公司的PowerCenter,相比还是存在一定的差距。
2.3 OLAP技术
联机分析处理(OLAP)是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求,由此出现了多维数据库和多维分析的概念。
(本文不涉密)
责任编辑:
上一篇:乐百氏商业智能系统鞭打快牛收效高