您现在的位置是:首页 > IT基础架构 > 软件与服务 >
基于数据仓库的决策支持系统结构分析
摘要本文从决策支持系统(DSS)的结构和功能切入,详尽介绍了DSS的发展演变过程,分析了DSS发展的必然性和可行性,最后探讨了极具发展前景的基于信息管理系统新兴核心技术——数据仓库(DW)的集成化IDSS的发展框架。 ...
1 决策支持系统发展各个阶段的对比分析
计算机技术的迅猛发展及各行业的迫切需求,给决策支持系统的发展提供了基石和动力。综观国内外决策支持系统的研究领域,DSS的发展演变过程有很强的逻辑基础(如图1所示),从时问的先后来看,具有十分明显的分界线。
DSS的分类并不意味着实际应用中的DSS必然属于某一种类型,恰恰相反,它们相互联系,紧密结合存在于某一实际系统中,这种相互之间的联系和结合将伴随着计算机科学、人工智能、神经网络的发展更加紧密。因此,其分类不可能十分严格,由此总结出DSS的特点(如表1所示)。
2 DSS发展中各个阶段的演变
计算机技术、专家系统(ES)、人工智能(AI)、神经网络等学科的发展,使计算机辅助决策系统向着智能化、高效、准确全面的方向发展。每一层的出现和发展都基于前层之上,取长补短,不断完善。
·EDP的发展
利用EDP计算机能够提高单项数据处理能力,但这种能力能否有效发挥,还取决于系统的协调一致及与其它各种任务和各种因素的配合,即需要从系统的观点出发,综合考虑各种因素及各种问题。
·MIS的发展
管理信息系统(MIS)产生于这种历史背景,它从系统的观点出发,从系统分析入手,是规范的基于计算机的系统。它从各种来源获取系统中信息处理所需的全面数据,并对其进行检索、筛选和组合以便及时地为管理决策过程提供必要的信息。由于采用的模型是数学模型,它辅助决策的能力主要体现在定量上。在长期的MIS实践中,MIS并未创造预期的社会经济效益。究其原因主要是:
(1)缺乏丰富的数据资源,使模型和算法没有坚实的数据基础,阻碍了DSS模型库和数据库的发展。
(2)缺乏分析工具,支持DSS的分析程序只能由用户自己开发。
(3)在DSS发展史上,各种库有机结合的问题一直未得到很好的解决。
MIS是计算机参与决策的初级阶段,要直接面向决策满足信息需求,必须建立DSS。
·DSS的发展
DSS是以管理科学、运筹学、控制论和行为科学为基础,以计算机技术、仿真技术和信息技术为手段,面对复杂的决策问题,辅助中高层决策者决策活动的,具有一定智能行为的人机交互系统。它使数值计算和数值处理融为一体,提高了辅助决策的能力。但仍表现在定量分析上。最早于70年代初由美国M.S.Scott Morton教授在《智能决策系统》一文中首先提出。
德国学者D.H.Bonczek等人认为,决策支持系统与MIS的不同在于以下几个方面:(1)把模型并入信息系统软件中。(2)为高级管理决策人员提供解决非结构化决策问题的有用信息。(3)为用户提供一种功能很强且使用方便的问题求解语言。
·ES的发展
60年代末兴起的另一个研究领域——专家系统(ES)是50年代人工智能(AI)的进一步发展,专家系统是利用专家的知识在计算机上进行推理,达到专家解决问题的能力。专家系统的出现使人工智能走上了实用化阶段。专家的知识表示为产生式规则和语义网络等形式。专家系统也是一种有效的辅助决策系统,它的决策方式属于定性分析,专家系统的发展使它逐步深入到各个领域,并取得了很大的经济效益。专家系统的发展也遇到一些困难,最大的困难是知识的获取,专家系统需要大量的专家知识,最初的方式是由知识工程师和专家座谈获取知识。80年代后期,人工神经元网络技术的兴起为知识获取开辟了一条新的途径,同期,机器学习技术也得到发展,达到了机器能自动获得知识的效果。
·IDSS的发展
AI和DSS几乎是同时兴起,但沿着不同道路的发展起来,都具有辅助决策的作用,但辅助决策的方式完全不同,人工智能采取定性分析,DSS采取定量分析,这两者结合起来,辅助决策效果大大改善。这种AI和DSS结合起来形成的系统成为智能决策支持系统(IDSS) ,目前认为给DSS赋予智能的人工智能技术主要有专家系统(ES),自然语言处理(NLP),人工神经网络(ANN)。
3 DSS发展中各个阶段系统结构的演变
DSS的组成,是在不断完善和发展中充实起来的。它由最初的雏形——二库系统,逐步发展成三库系统,传统的四库系统、五库系统,至目前集成化的四库系统。
·二库结构
1980年Sprague提出了二库框架,确定了DSS基本结构的雏形(如图2)。按照该基本框架结构,一个系统由下列部分组成:
(1)数据管理子系统。该子系统包括数据库和数据库管理系统。数据库中包含着与实际问题相关的数据。
(2)模型管理子系统。它是一个包含财务、统计、管理科学或其它可提供系统分析能力的定量模型的综合性软件包,另外还包含一个相应的管理软件,即模型库管理系统(MBMS,Model Base Management System)。
(3)用户接口(对话子系统)。该子系统是DSS与用户之间的界面,通过这个子系统,用户可以同系统通讯,向系统发布命令,因此也叫通讯(Communication)子系统或语言(Language)子系统。
这些子系统构成了DSS的软件部分,他们被送人计算机中,并能通过附加的硬件(外围设备)加强其功能,最后,管理者或用户也看作是系统的一部分。R.H.Bonczek认为:决策制定是由DSS和它的用户共同完成的。
·三库系统
在我国国家经济信息系统数据方案中,提出了建立三库的规划方案(如图3)。这三库是数据库、方法库和模型库。在决策过程中,往往以某种模型(模型组合)为基础运用一定的方法,达到管理决策的目的,由于方法具有共享性,不同的模型可能采用某些相同的方法,而且多数是规范的、较稳定的数学方程、算法、解法。因此,将方法从模型库中分离出来,可以使系统结构更加清晰,使方法的通用性和灵活性更大。
·IDSS的四库系统
IDSS是将AI技术与传统DSS集成而形成的。原则上讲,只要在DSS基本结构中的任一子系统中使用了AI技术,系统就可称之为IDSS。仅将接口子系统智能化的IDSS在辅助决策功能上并没有增加创造性,属左脑型。只有增加知识部件后才形成具有右脑功能的IDSS。关于这类结构,1985年R.R.Belew提出了一种四库结构框架(如图4),其中除DB、MB外增加两个库,文本库和规则库子系统,Belew称它为可演进的DSS。Belew认为,一个DSS建立在信息结构的基础上,随着信息结构的增加以及信息的不断精炼,可把加工过的信息依次存放于文本库一数据库一模型库一规则库中。由这些库对共同问题的描述使得它们之间存在一种联系。Belew称之为演进链,演进链可用来支持用户的学习过程和问题的识别过程。
朱晓云提出了另一种基于四库的IDSS体系结构(图5)。这四库结构是在三库的基础上增加知识库。知识库系统在解决定义不明确间题时展开问题求解,其功能为:(1)提供知识对象的组织与表达方式。知识包括:领域中可构造备选方案的知识,建立候选方案,评价模型的知识,确立评判标准的知识及领域的专门知识等,从而构成一个对象网。(2)提供对知识对象网的检查和实例化,并在此基础上完成基于知识的求解。(3)提供基于知识的多种推理机制,如正向推理,反向推理,混合推理等。
·五库结构
在Belew四库框架的基础上,姚卿达等于1988年提出另外一个IDSS的框架结构,这是一个基于五库的系统。整个库由五个库子系统、信息字典系统及用户接口组成。五个库之间有一种层次顺序联系,即文本库→数据库→模型库、方法库→知识库,这一顺序反映了信息结构化程度以及精炼化程度的提高,这种联系用演进链来表示(如图6)。
从二库系统、三库系统直至发展的IDSS的四库系统、五库系统,不管各库之间的关系是从低级到高级逐步演进的,还是并列和相互调用的,无论采用什么样的体系结构,其实质都是AI技术或AI相关技术与传统DSS结合或集成的产物。
4 决策支持系统发展的新焦点——集成化的IDSS
90年代以来,数据仓库(DW) 、联机分析处理(OLAP)和数据挖掘(DM)技术的兴起,为DSS的研究和开发提供了一条新的途径。目前的DSS框架以DW为基础,以OLAP和DW工具为手段提供了一套可操作、可实施的DSS解决方案。这套技术包含DW、OLAP、MDD(多维数据库)和KDD(知识发现),它将DSS的研究推向了实用化阶段,同时也促进了相关技术的发展和应用。
·基本结构
(1)数据仓库(DW)
①DW的含义
严格来讲,DW技术并非新概念,在DSS的研究中的EDS(数据析取系统)的定义和DSS中DBMS描述都具有了数据仓库技术的很多特征。但没有从理论上和实践上进行系统化的深入研究。SO年代初,W.H.Inmon在“记录系统”、“原子数据”(atomic data)和“决策支持系统”等专题研究报告中提出了数据仓库或信息仓库的概念并给出了基本框架描述,当时,IBM也正在从事一项“以关系数据库为基础的公司数据的集成化仓储’的计划。1991年,IBM宣布了该项计划“信息仓库框架”-INDEPTH,对数据库产业带来很大的震动。W.H.Inmon认为,数据仓库是90年代信息技术(IT)体系结构中一个重要组成部分,是数据库产业发展的重点。W.H.Inmon是世界公认的DW概念的创始人,在他写的《Building the Data Warehouse》一书中给出的定义是:“DW就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。”并作出了以下描述:“DW是90年代信息技术框架的新焦点,它提供了集成化和历史化的数据,集成种类不同的应用系统;DW从发展和历史的角度来组织和存储数据,以供信息化和分析处理之用。”由于他在DW发展中的作用,上述描述在技术性的文献中不断地被引用。
②DW体系结构
面向主题的数据仓库DW概念的提出,不但为有效地支持企业经营管理决策提供了全局一致的数据环境,也为历史数据综合数据的处理提出了一种行之有效的解决方法。数据仓库的主要贡献就在于:它明确提出数据处理的两种不同类型,操作型处理和分析型处理,并将两者在实现中区分开来,建立起DB-DW两层体系结构。但在很多情况下,DB-DW的两层体系结构并不能涵盖企业所有的数据处理要求,因为企业的数据处理虽然可以粗略地划分为操作型和分析型两部分,但这两种类型并不是径渭分明的。实际的处理往往是多层次的,即有些处理是操作型的,但不适合在操作型DB中进行,而又存在一些分析型处理,但不适合在DW中进行。这种信息处理的多层次要求导致了一种新的数据环境一操作数据存储(Operating Data Store)(ODS)和数据集市(Data Mart)的建立。Inmon在其著作中反复强调ODS-Data Mart-DW的发展过程是企业应用DW的一种理想的推广策略。所以,完全可以先在局部建立ODS,然后在部门一级根据管理需要建立数据集市,取得成效后再逐步推广,在更高层次上形成企业数据仓库。
③关于数据仓库的实现策略(设计方法)
在王珊等编著的《数据仓库技术与联机分析处理》一书中,提出CLDS方法,它与传统数据库设计方法系统生命周期法(System Development Life SDLC)不同:
SDLC的步骤为:收集应用需求→分析应用需求→构建DB→应用编程→系统测试→系统实施
CLDS的步骤为:DW建模→数据获取与集成→构建数据仓库→DSS应用编程→系统测试→理解需求
这种方法基本符合原型法的特点,但又不同于一般意义上的原型法,数据仓库的设计是数据驱动的。它在现存DB的基础上进行开发,着眼于有效地抽取、综合、集成和挖掘已有DB的数据资源,服务于企业高层领导管理决策分析。
随着DW技术的发展,如今DW的实现策略有了进一步发展。北京邮电大学计算机学院的艾波教授在其撰写的《DW实施策略》一文中提出六种实施策略,分别为:“自顶向下”模式,“自底向上”模式、“平行开发”模式、“有反馈的平行开发”模式、“有反馈的自顶向下”模式、“有反馈的自底向上”模式。
④数据仓库设计的三级数据模型
数据模型就是对现实世界进行抽象的工具,抽象的程度不同,也就形成了不同抽象级别的层次上的数据类型。数据仓库的数据模型与操作型数据库的三级数据模型又有一定的区别,主要表现在:
数据仓库的数据模型不包含纯操作型的数据;
数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分;
数据仓库的数据模型中增加了一些导出数据。
可见,上述三点差别也就是操作型环境中的数据与数据仓库中数据之间的差别。同样是DW为面向数据分析处理所要求的,虽然存在这样的差别,在数据仓库的设计中,仍然存在三级数据模型,即概念模型、逻辑模型和物理模型,这种观点在Tom Hammergren的《Warehouse Technology》一书中有清楚的解释。对于面向主题的数据仓库,分别对应数据仓库中的信息包图设计、星形图模型设计和物理数据模型设计。表2给出了数据仓库和数据开发过程中建立数据模型各阶段采用的设计方法。
(2)在线分析处理(on-line analytical processing OLAP)
OLAP这一术语是关系数据库之父E.F. Codd于1993年在《计算机世界》的一篇文章中引入的。由于OLAP的关系数据库已经达到了他们能力的极限,当要求关系数据库回答相对简单的SQL问题时,将产生大量的计算需求。进一步,在EIS(Executive Information System)及DSS中人们需要回答的是有关部门管理的问题,OLAP难以满足这样的需求。
OLAP的基本思想是使管理者能够通过各种角度操纵企业数据,从而了解当前所发生的变化。1993年,E.F.Codd在《Providing OLAP to User Analysis》中提出了有关OLAP的十二条准则,这也是他继关系数据库和分布式数据库提出的两个“十二条准则”后提出的第三个“十二条准则”,尽管世界对这个十二条准则褒贬不一,但其主要方面如多维数据分析、C/S结构、多用户支持及一致的报表性能等得到大多数人的认可。目前,对OLAP工具分类标准并不统一,大致上,可以把OLAP工具分成多维数据库工具(Multi-dimension Database MOLAP)、关系型OLAP工具(Relational OLAP简称ROLAP)和桌面型OLAP工具三类。
(3)知识发现(Knowledge Discoveryin Database KDD)
众多文献认为KDD=数据预处理+DM+解释评价。由于预处理和解释评价都比较成熟,目前KDD的研究和实现难点、重点都集中在核心的DM上,KDD主要通过人工智能技术来发现新的知识。
①数据采掘的任务
被采掘知识的类型在多数文献和DM软件中被称为数据采掘任务。通常任务有:总结规则采掘、关联规则采掘、分类规则采掘、聚类规则采掘、预测分析、趋势分析、偏差分析。
②数据采掘的方法
为完成上述任务,人们从统计学、人工智能和数据库等领域借用基础研究成果和工具,提出了多种方法,主要的采掘方法有:统计分析方法、决策树法、神经网络、遗传算法、粗集、可视化技术。
③现有的KDD系统
KDD研究日新月异,下面仅列出了部分我们所知的KDD系统:Quest系统、Intelligent Miner、KEFIR系统、SKICAI系统、IMACS、DBMiner。
·集成化的智能决策支持系统
产生于90年代的数据仓库是现代信息管理系统的核心,它的兴起,奠定了一种新的DSS解决方案:“数据仓库+联机分析处理(On-Line Analysis Processing简称OLAP)+数据挖掘”的基础:这种方案较好的解决了传统四库结构的决策支待系统中的数据基础问题,成为当前普遍流行的DSS的解决方案。北京航空航天大学的王冰清、怀进鹏在此思想基础上,通过分析研究,提出了一种集成化的智能决策支持系统(如图7)的开发环境。它以数据仓库、模型库、方法库和知识库为主要结构,支持联机分析处理,并将数据挖掘作为一种特殊的模型应用于数据库中的知识发现。这种机制有效地集成了上述两种解决方案的优点,既解决了IDSS的数据基础和知识获取问题,降低分析模型和算法的设计复杂性,又使智能决策支持系统具有清晰的结构和较强的模型构造和分析处理能力,同时在系统上实现了采用分布式对象技术,将模型库、方法库、知识库、联机分析处理方法以及数据仓库接口构件化,实现接口规范和应用程序相分离,为进一步研制群体决策支持系统实现计算机协同工作提供了技术基础。数据仓库应用于决策支持系统中,主要有以下几个方面的作用:(1)增强了决策的客观性。(2)增强了决策的实用性。(3)提高了数据查询、分析效率。(4)具有强大的数据分析工具。(5)具有动态扩展能力。
5 结束语
在实际应用中,决策支持系统的各种类型综合运用,它的发展并不是对某一种类型的摒弃,但目前最新型、最高效的是数据仓库基础上的集成化的IDSS。由于DW技术是90年代诞生的一门新技术,其理论仍处于发展中,对于数据仓库技术的不断深入研究,必将促进信息管理系统的发展,也必将在DSS中起到越来越重要的作用,并得到更广泛的应用。
(本文不涉密)
责任编辑: