您现在的位置是:首页 > IT基础架构 > 软件与服务 >
基于数据仓库的目标市场营销支撑系统的设计
2009-08-24 18:01:00作者:徐景嵩 陈志刚 来源:
摘要该文围绕目标市场营销支撑系统的开发,首先阐述了目标市场营销支撑系统在今天市场竞争中的必要性,以及建设此系统之核心内容——数据仓库的关键技术,OLAP分析,研究了该系统的具体设计思路。...
1 数据仓库简介
1998年才发展起来的数据仓库(Data Warehouse)技术对许多人来说也许还很陌生,而它在国外已是如火如荼了。数据仓库之父W.H.Inmon将其定义为:数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。
数据仓库与传统的数据库系统相比有着本质的区别,数据库是一种通用平台,建立于严格的数学模型之上,用来管理企业数据,进行事务处理,完成相关业务。而数据仓库没有严格的数据理论,更偏向于工程,它不是花钱就可购买到的成品,而是企业一个日积月累的建立过程,它的应用对象是不同层次的管理者,它的数据源是多种数据源,库中数据无须修改删除,主要是大规模查询和分析,因此要求有大量的历史数据和汇总数据。
2 数据仓库的特点
2.1 面向主题
主题是一个抽象的慨念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整的、统一的、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。
目前,数据仓库的实现主要是摹于关系数据库,每个主题南一组关系表或逻辑视图实现。这些表和视图的内容与原来各个运行系统数据源的数据本质上是一致的,但为了方便支持分析数据处理,对数据结构进行了重组,其中还可能会增加一些数据冗余。
2.2 集成的数据
数据仓库中存贮的数据是从原来分散的各个子系统中提取出来的,但并不是原有数据的简单拷贝,而是经过统一、综合。其一,数据仓库的数据不能直接从原有数据库系统中得到。原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理,在进入数据仓库之前必须经过综合、计算,抛弃分析处理不需要的数据项。增加一些可能涉及的外部数据。其二,数据仓库每一个主题所对应的源数据在原分散数据库中有许多重复或不一致的地方,必须将这些数据转换成全局统一的定义,消除不一致和错误的地方,以保证数据的质量。否则,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业作出科学的决策。
对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。
2.3 数据随时间不断变化
数据仓库数据的不可更新是针对应用而言,即用户进行分析处理时不对数据进行更新操作,但不是说,数据从进入数据仓库以后就永远不变。数据仓库中的数据随时间变化而定期地被更新,每隔一段固定的时间间隔后,运作数据库系统中产生的数据被抽取、转换以后集成到数据仓库中,而数据的过去版本仍被保留在数据仓库中,如同“定期摄影术”,每隔一周、一月或适当的间隔就照一张像;随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析妨要求;当数据超过数据仓库的存储期限,或对分析不再有用时,这些数据将从数据仓库中删去。
关于数据仓库的结构信息、维护信息被保存在数据仓库的元数据中,数据仓库维护工作由系统根据元数据中的定义自动进行,或由系统管理员定期维护,用户不必关心数据仓库如何被更新的细节。
3 数据仓库的关键技术——OLAP技术
当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)和联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的操作型数据库的主要应用,主要是基本的日常事务处理,例如计费帐单交易等。OLAP是数据仓库系统的主要应用,侧重决策支持,支持复杂的分析操作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”(dimension)这个概念,通过把一个实体的多项重要属性定义为多个维。使用户能对不同维上的数据进行比较。
OLAP的基本多维分析操作包含钻取(roll up和drill down)、切片(slice)、切块(dice)以及旋转(pivot)等。钻取是改变维的层次,变换分析的粒度,它包括向上钻取(roll up)和向下钻取(drill down)。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。ROLAP表示基于关系数据库的OLAP实现(Relational OLAP),以关系数据库为核心,以关系型结构进行多维数据的表示和存储:MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP),以多维数据组织方式为核心,多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术;HOLAP表示基于混合数据组织的OLAP实现(Hybrid 0LAP),如低层是关系型的,高层是多维矩阵型的,这种方式具有更好的灵活性。
4 系统建模方式
4.1 第三范式
范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解,这个过程也称为规范化(Normalize)。在数据仓库的模型设计中目前一般采用第三范式,它有非常严格的数学定义。如果从其表达的含义来看,一个符合第三范式的关系必须具有以下三个条件:
1)每个属性的值唯一,不具有多义性;
2)每个非主属性必须完全依赖于整个主键,而非主键的一部分:
3)每个非主属性不能依赖于其他关系中的属性,否则这种属性应该归到其他关系中去。
我们可以看到,第三范式的定义基本上是围绕主键与菲主属性之间的关系而作出的。如果只满足第一个条件,则称为第一范式;如果满足前面两个条件,则称为第二范式;依此类推,因此,各级范式是向下兼容的。
4.2 星型模式
星型模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据:而维大都是文字、时阃等类型的数据。
5 对象概述
在目标市场营销支撑系统中,所定义的实体以企业及客户的关系及各类产品(包括各类服务的概念)为核心,通过营销、销售、客服、分析等过程实现的,
根据这样一个实际应用背景及目标市场营销支撑系统涉及到的业务需求,及现有企业及技术发展的客观实际,充分利用面向对象的设计理念,在设计整个目标市场营销支撑系统的数据模型时,得到以下的总俸框架。如图2所示。
因此划分几大类实体:1)客户信息类;2)产品信息类;3)员工信息类;4)活动流程类;5)流程单类;6)资料档案类。
在此系统中,根据自己所进行设计的模块,客户信息类、产品信息类是我的主要设计对象,此两类为经营分析的主要对象。
6 概要设计
6.1 逻辑设计
6.1.1 维度的设计
通过通用、产品类型、功能、帐目类型、客户类型、客户服务几大类维度的灵活组合,对经营分析指标进行深入分析,以满足经营分析工作开展的要求。经营分析指标体系的总体架构如图3所示。
6.2 数据仓库的设计方法
6.2.1 传统数据库与数据仓库的比较
传统的关系数据库RDB遵循一致的关系模型,其中的数据(记录)以表格的方式存储,并且能用统一的SQL语言进行数据访问,因此它的应用常被称为联机事务处理OLTP。其重点在于完成事务处理,在瞬间的时间里给予用户响应。关系数据库能够处理大型数据库,但不能将其简单地堆积就直接作为数据仓库进行使用。
数据仓库主要操作对象是多维数据,因此也称为多维数据库。多维数据库的情形正好与传统的关系数据库相反,其数据以阵列方式存储,既没有统一的规律可遵循,也没有统一的多维模型可遵循,更没有统一的存取数据语肓或编程语肓接口(API)可利用,多维数据库只能按其所属类别进行归类。对于应用来说,多维数据库应该具备极强的查询能力,因此与关系数据库相比,多维数据库中存储的信息多而广,但由于其完成的是一种联机分析处理OLAP,因此不追求瞬间响应时间,在有限的时间里给予响应即被认可。实际上。0LAP包含交互式的数据查询,伴随着多种分析方法,例如下钻(drill-down)式成功地钻入到最底层的细节信息上。因此数据仓库中的信息尽管是多维的,它仍然可以用形象化的表格表示。表1给出了传统数据库存储的数据与数据仓库存储的数据之间的区别。
尽管数据仓库与传统数据库之间存在着如此大的差异,但我们设计数据仓库并不是完全另起炉灶,而是利用现有的传统操作数据,从中进行信息的集成,从而构造出满足不同需求的数据仓库,即数据从动态的、当前事件驱动的传统操作数据流向静态的、历史数据的数据仓库。从理论上说从操作数据中策略性地引入到期的数据可以完成这个转变,但是由于受到实际存储容量和技术的限制,实际上是不可能的,而必须从操作数据中分离和提取数据进入数据仓库。
鉴于以上各种因素。为保证OLTP的性能,必须将数据仓库与传统操作数据相分离,为了获得数据仓库中的数据,首先必须进行数据仓库的设计。
6.2.2 数据仓库的设计模式
数据仓库的设计方法同传统的数据库设计一样经历了概念模型设计、逻辑模型设计和物理模型设计三个阶段,对于面向主题的数据仓库,分别对应数据仓库中的信息包图设计、星型图模型设计和物理数据模型设计。表2给出了数据仓库和数据库开发过程中建立数据模型各阶段采用的设计方法。
7 总 结
数据仓库的实施虽还处在初级阶段,但随着技术创新的发展,它将储存大量的信息来帮助人们重新体验一种经历——缩短了解过去、并且在许多方面是了解将来的学习周期。对所有这些的一个有趣经历足数据仓库能将我们的知识扩展到我们从来没有熟悉或经历的领域。数据仓库不仅能从你个人那里获取信息。还能从作为一个整体的商业——或许对你更重要——从他人的信息中获取。这些数据包括了成功的和失败的信息,并且人们町以进入到这个知识库。随着人们逐渐进入到不同的商业领域,前辈们将会通过他们在公司数据仓库中的记录来帮助现代的人们。他们的遗产就是他们所留下的商业信息。
(本文不涉密)
责任编辑:
上一篇:商业智能技术将从BI走向商业分析