您现在的位置是:首页 > IT基础架构 > 软件与服务 >
联机分析挖掘(OLAM)技术的现状与发展
2009-11-02 22:56:00作者: 蒲晓湘 刘文才来源:
摘要从联机分析处理技术与数据挖掘技术的互补性出发,介绍了联机分析挖掘(On-Line Analytical Mining,OLAM)技术的形成原因、功能特征、分析操作方法以及模型结构,分析了目前该技术存在的主要问题以及实现的关健技术,并展望了OLAM未来的发展方向。 ...
联机分析挖掘,又称为OLAP Mining,它是联机分析处理技术与数据挖掘技术在数据库或数据仓库应用中的结合,是联机分析处理技术的新发展,也是近年来数据库领域的研究重点和热点。
而数据仓库、联机分析处理和数据挖掘则是20世纪90年代中期国外兴起的3种决策支持技术。
数据仓库(Data Warehouse,DW)是在数据库的基础上发展起来的。1992年,W.H.Inmon首次提出数据仓库概念:“支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合形式”。数据仓库为复杂分析、知识发现和决策提供数据访问。数据仓库在规模、历史数据、数据集成和综合性、查询支持等方面都和传统数据库有着本质区别。作为一种新型的数据存储地,数据仓库为数据挖掘和数据分析提供了新的支持平台。基于数据仓库的数据挖掘,面对的是经加工和概括的数据,简化了数据挖掘过程的某些步骤,大大提高了数据挖掘的工作效率。同时,数据仓库事先收集、归纳、处理了整个企业范围内的数据,为数据分析提供高质量的数据源,更好地支持管理决策。
数据挖掘(Data Mining,DM)是在人工智能、机器学习中发展起来的,也称为数据库中的知识发现(KDD)。1995年在美国计算机年会(ACM)上首次提出数据挖掘概念:是从大型数据库或数据仓库中提取隐含的、未知的、具有潜在使用价值的信息或模式的过程。DM通过分析大量的原始数据,作出归纳性的推理,挖掘出潜在模式并预测客户的行为,为企业的决策者提供决策支持。
联机分析处理(On-Line Analytical Processing,OLAP)是由关系数据库之父E.F.Codd于1993年提出的,是共享多维信息的、针对特定问题的联机数据访问和分析技术,具有快速性、可分析性、多维性、信息性、共享性5个特点。OLAP具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据分析变得轻松而高效,以利于迅速做出正确的判断,辅助决策。
OLAM正是在这3种技术的基础上建立起来的。它的出现为企业管理和决策活动提供了一个新的工具,也为决策支持系统的研制提供了新思路。为了让大家对OLAM技术有一个全面的认识,笔者就目前OLAM的发展现状进行了归纳分析,并展望了它未来的发展趋势。
1 OLAM技术的现状
1.1 OLAM技术的形成原因
OLAP与DM虽同为数据库或数据仓库的分析工具,但两者侧重点不同。同时,随着OLAP与DM技术的应用和发展,数据库领域在OLAP基础上对深层次分析的需求与人工智能领域中数据挖掘技术的融合最终促成了联机分析挖掘技术。
一方面,分析工具OLAP功能虽强大,能为客户端应用程序提供完善的查询和分析,但它也存在以下不足:
1)OLAP是一种验证型分析工具,是由用户驱动的,即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,这很大程度上受到用户假设能力的限制。
2)OLAP分析事先需要对用户的需求有全面而深入的了解,然而用户的需求并不是确定的,难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时间,而且可能产生一些无用的结果。
3)即使搜索到了有用的信息,由于缺乏应有的维度,从不同的视图得到的结果可能并不相同,容易产生误导。
另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型以辅助决策。但它也存在一些缺点:
1)DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知识的。
2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,导致搜索空间太大,计算机将处于长时间的工作,而且结果中可能会生成很多无用信息。
3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用户也可能不太清楚。
可以看出,两种技术各存在不足,但同时也可以相辅相成。如果将OLAP同DM配合集成,一方面OLAP的分析结果给DM提供挖掘的依据,引导DM的进行;另一方面,在数据挖掘的结果中进行OLAP分析,则OLAP分析的深度就可拓展。这样用户就可以灵活选择所需的数据挖掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。鉴于OLAP与DM技术在决策分析中的这种互补性,促成了OLAM技术的形成,其中所包含的关键技术可用公式(1)来表达:
OLAM=DW+OLAP+DM (1)
但OLAM不是这3种技术的单纯叠加,而是指多种技术的无缝集成,这种集成将带来OLAM技术与其构件技术在基本概念、原理、技术、方法、机制、结构、使用等方面本质上的不同。
1.2 OLAM概念的提出
正是由于OLAP与DM技术的相辅相成性,在OLAM概念提出之前,实际应用中试图将OLAP与DM结合起来提供更加优质的数据分析和决策支持的思路早也有之。有文献提出“只有将OLAP技术、DM技术和DW中的庞大数据相结合,与企业先进的管理决策方法相结合,才能使DW在企业的经营管理决策中发挥巨大的作用”。一些厂商也开始在OLAP的基础上添加数据挖掘功能,如Business Object公司的Business Object产品中的决策树分析、DBMiner系统中的数据挖掘算法工具箱等,初步实现了两者的结合。而另一些是把数据挖掘算法集成在系统的底层功能中,如Micorsoft公司的SQL Server 2000中的关联分析方法在数据库端的集成就是实现OLAP与DM紧密结合的初步尝试。
联机分析挖掘概念正式提出是在1997年,由加拿大Simon Fraser大学教授Jiawei Han等在数据立方体的基础上提出多维数据挖掘的概念,称为OLAP mining。这实际上是在OLAP系统的基础上,把数据分析算法、数据挖掘算法引入进来,解决多维数据环境的数据挖掘问题。因此这时的OLAM实际上还是OLAP和DM的松散结合。之后,国内外研发人员在这方面展开了积极的工作,试图将OLAP与DM技术有机结合起来形成真正的OLAM技术和产品。有文献对OLAM的概念进行了扩展,将其定义为联机分析挖掘处理(On-Line Analytical Mining Processing),其分析和挖掘的数据基础也扩大成包括多维数据模型和关系数据模型等在内的多种模型的异构环境,研究重点在如何实现OLAP与DM技术紧密集成。
1.3 OLAM的功能特征
OLAM融合了3种技术,兼有OLAP和DM的优点,在DW上的数据挖掘和分析更具灵活性和交互性。其功能特征如下:
1)相对OLAP和DM技术,OLAM具有较高的执行效率和较快的响应速度。
2)OLAM能对任何它想要的数据进行挖掘。OLAM建立在OLAP的基础之上,因此应能方便地对任何一部分数据或不同抽象级别的数据进行挖掘,甚至还可以直接访问存储在底层数据库里的数据。
3)OLAM中,用户可以动态选择或添加挖掘算法,并可以动态切换挖掘任务。
4)OLAM中挖掘任务具有多样性、算法具有复杂性,因此应具有标签和回溯功能。标签功能即是标记用户的操作状态功能,回溯指的是退回到上次操作状态。OLAM这种功能可以避免用户因算法的复杂性而在超立方体中“迷失方向”。
5)OLAM具有灵活的可视化工具。可视化工具以丰富的图文有效地显示分析和挖掘结果给用户,从而实现交互式处理。
6)良好的扩展性。这是指OLAM应该高度模块化,能与其他多个子系统集成。
7)友好的人机交互能力。OLAM的决策分析过程是要在人的指导下进行,人作为系统的组成部分和系统应用密不可分。人与计算机分别承担各自最擅长的工作,实现资源的合理配置。
1.4 OLAM的模型结构
就目前来看,OLAM的结构体系还没有统一的模式。国内一些文献在这方面作了一定的研究,提出了一些OLAM模型。如认为OLAM体系结构和OLAP并没有本质区别,结构可以同一,并结合Web技术,提出了基于Web的OLAM模型;还有的给出了OLAM概念模型、逻辑模型和物理模型,其中的概念模型指出了必须执行的功能以及这些功能之间的关系,逻辑模型把概念模型中所定义的结构映射到可用软件、过程和体系结构的环境中,它是基于技术类型对基本设计原则的细化,是连接概念模型和物理模型的桥梁;提出了基于影响域的OLAM模型;将OLAM的体系结构分为4层:数据存储层、多维数据库层、OLAP/OLAM层和用户接口层。这些都是对建立OL AM模型结构的可喜探索。
总之,设计一种高效、优化的OLAM体系结构,是OLAP、DM和DW 3种技术完善集成的重要保证,也是支持OLAM系统提供灵活可靠决策功能的硬件基础,这已成为研究人员正在努力解决的重点问题之一。
1.5 OLAM的分析操作
从OLAM的定义来看,它是建立在多维数据视图基础之上的。因此,对于OLAM的操作应是超立方体计算与传统挖掘算法的结合。这里所说的立方体计算方法一般指切片、切块、上卷、下钻、旋转等操作;而挖掘算法则是指关联规则、分类、聚类等挖掘算法。根据立方体计算和数据挖掘所进行的次序的不同组合可以有以下一些模式:
1)先进行立方休计算、后进行数据挖掘。在进行数据挖掘以前,先对多维数据进行一定的立方体计算,以选择合适的数据范围和恰当的抽象级别。
2)先对多维数据作数据挖掘,然后再利用立方体计算算法对挖掘出来的结果做进一步的深入分析。
3)立方体计算与数据挖掘同时进行。在挖掘的过程中可以根据需要对数据视图做相应的多维操作。这也意味着同一个挖掘算法可以应用于多维数据视图的不同部分。
4)回溯操作。OLAM的标签和回溯特性,允许用户回溯一步或几步,或回溯至标志处,然后沿着另外的途径进行挖掘,这样用户在挖掘分析中可以交互式的进行立方体计算和数据挖掘。
1.6 目前OLAM技术存在的主要问题
OLAM技术现在已取得很大的发展,但总的来说,目前研究工作仍处于起步阶段,很多间题还没有得到解决或重视。其中,OLAM技术面临的主要问题是:
1)关于OLAM技术的界定模糊。系统体系结构标准和参照还没有出现,无法区别和衡量现有的所谓的OLAM系统。
2)OLAM模型中信息的表示是OLAM技术的数据基础,目前还没有统一的标准来解决OLAM环境中多种信息如数据、模式等的规范问题。
3)OLAM系统的数据基础是包括多种数据模型在内的异构数据环境。传统的基于关系数据模型或多维数据模型的OLTP和OLAP的任务/事务模型已不适合于OLAM系统。
4)OLAM基于DM和OLAP,但不同于两者的单纯叠加,目前还没有一种优化的管理策略来成功融合这两种技术,实现无缝连接。
总的来说,OLAM目前存在的主要问题是技术理论研究滞后于OLAM产品的开发。关于OLAM技术的基本原理、关键技术,系统整体组织结构、应用开发技术等问题的研究相对较少也不系统。
2 OLAM技术的发展
2.1 OLAM实现的关键技术
为了成功实现OLAM交互式探索性的数据分析,联机选择数据挖掘功能,动态交换数据挖掘任务,除了解决以上的OLAM技术界定、信息统一表示等规范问题外,以下关键技术尚待解决:
1)OLAM环境中的数据结构是复杂多样的,以支持不同的数据分析方法以及挖掘算法。因此,支持复杂数据环境的数据组织存储是实现OLAM技术的关键之一。
传统的数据仓库已不适合于OLAM。这方面,针对工作仓库的概念,其中的数据和信息称为工作对象。它是数据仓库的扩展,扩展为包括多种数据模型在内的异构环境,以支持不同的OLAM任务,提供灵活的数据类型定义和快速的数据组织方式。工作仓库具有独立性,其数据的存储和组织都由用户来定义,生存期也是基于该用户权限自定义的。
2)OLAM建立在多维数据库和OLAP的基础之上,因此基于超立方体的高性能挖掘算法应是其核心所在。开发出支持复杂维度和度量的高性能数据立方体技术、以及基于这种立方体的数据挖掘算法应是研究的重点。
这方面,有影响域(Influence Domain)的概念,影响域是一种广义的数据立方体。立力一体上计算的是聚合(Aggregation),而影响域上计算的是蕴涵(Implication),即数据中隐藏的模式。影响域同立方体一样具有属性和值,不同点在于它具有置信度(Confidence),立方体将维映射至度量,而影响域将维和度量映射至置信度。因此影响域更适合于OLAM分析。第一,基于一维数组的高效数据立方体,并由它构建一种HOLAP,在其基础上提出了关联规则的挖掘算法,这种HOLAP实现了快速性和灵活性的平衡,同时也为数据挖掘提供了较好的数据空间;第二,基于数据立方体的关联规则挖掘算法— 维内关联规则算法Intradim_asso_mining,它类似于Aprioi算法,区别就是它扫描的数据是立方体的一个切片。
3)开发出新的适合于OLAM的任务/事务模型,规范数据挖掘分析任务定义语言。
OLAM中的任务具有多样性和复杂性,兼有数据查询任务、OLAP任务、DM任务等多种任务,传统的定义在关系数据库基础上的任务语言如DMQL(Data Mining Query Language)语言、MINE RULE操作符等已不适合OLAM任务定义的要求。因此需要一套任务定义语言来支持OLAM任务的定义和管理。这方面,基于一种基于约束的OLAM任务定义语言,它的设计基础是“约束”,通过对OLAM任务描述相关信息的分类,形成多种“约束”,这些约束的联合表示了一个OLAM任务和执行方式。
4)OLAM的挖掘过程是对复杂数据环境不断深入的过程,应具有书签和回溯功能。因此,完善的原数据存储和管理以及中间结果缓存是支持OLAM这种功能的基础。
5)OLAM应具有快速的响应能力和较高的执行效率,这是OLAM中最为困难的问题。由于一般挖掘算法都复杂而且耗时,加之OLAM与用户频繁交互,因此在执行效率与挖掘的准确性之间应该协调好,选择合适的挖掘算法和数据搜索空问是很必要的。
6)OLAM 应该具有一个通用的标准接口,以便与其他挖掘工具或算法相衔接,以实现在多个数据挖掘功能之间的交互、动态选择或能添加新的挖掘算法。
2.2 OLAM技术的发展趋势
OLAM技术实现了OLAP和DM技术的互补,它的发展趋势是两者更加可靠的集成、融合,有自己合理优化的结构体系和一套完备的技术理论基础,从整体上为决策分析提供完美支持。
OLAM技术是一门交又学科,涉及机器学习、模式识别、统计学、智能数据库、人工智能、高性能计算、数据可视化、专家系统等综合技术。这些相关学科的发展,无疑也将会推动OLAM技术的发展。特别是,近年来随着数据库技术的发展,出现了不同数据类型的高级数据库,如面向对象数据库、对象关系型数据库、空间数据库、超文本数据库、多媒体数据库、时序数据库等。因此,未来的OLAM技术应用应基于这些高级数据库展开。
随着互联网技术的发展,全球信息的共享,基于Web的联机分析挖掘(WebOLAM),也将成为OLAM技术发展的一个新方向。
3 结束语
OLAM是DW、OLAP与DM相结合的产物,它兼有OLAP多维分析的在线性、灵活性和数据挖掘刘数据处理的深入性,是数据库或数据仓库应用工具未来发展的方向,也为决策支持系统开辟了一条新的途径笔者主要介绍了目前OLAM技术的发展现状,从技术界定、信息规范和异构环境的整合等方面指出了该技术目前主要存在的问题,并就其实现的关键技术提出了一些自己的观点。自OLAM概念的提出到成熟完善的OLAM技术及应用,应该是一个循序渐进、不断摸索的过程。因此,对于OLAM的研究工作仍在继续不断地进行着,还会有很多问题值得大家共同来研究和探讨。
(本文不涉密)
责任编辑:
上一篇:商业智能门户应用策略研究
下一篇:实施BI 服务比BI工具重要