您现在的位置是:首页 > IT基础架构 > 软件与服务 >

一种面向商业智能的数据挖掘体系结构

2009-08-27 17:49:00作者:何月顺 杜萍来源:

摘要大量商业交易数据中隐含着许多对商业决策有益的知识,数据挖掘技术可以发现这些隐藏的模式和关系。本文分析并指出了通用数据挖掘体系结构的特点和不足,应用并行处理技术和数据挖掘结果存储两方面对现有数据挖掘体系结构进行改进。...

引言

企业为迎接市场的挑战,必须对市场运作有准确的分析。商业流通领域积累的大量交易数据中隐含着许多对商业决策有益的知识,传统的分析方法很难从中提取出这些知识,利用数据挖掘技术可以得到准确、及时的信息,决策人员以企业的数据仓库为基础,通过联机分析处理(OLAP)、数据挖掘和决策规划人员的专业知识,借助商务智能的核心技术,利用企业中长期积累的海量数据可以实现四方面的应用:客户分类和特征分析、市场营销策略分析、经营成本与收入分析、欺诈行为分析和预防,数据挖掘技术可以发现这些隐藏的模式和关系。

并行数据挖掘体系结构是并行数据挖掘技术研究的重要内容,是实现并行数据挖掘的基础,选择适当的、高效的、具有较高性价比的商用并行体系结构是整个研究工作的基础。

一、通用数据挖掘系统结构

特定领域的数据挖掘工具主要针对某个特定领域的问题提供解决方案。在进行数据挖掘算法设计时,设计者需要充分考虑特定领域的数据特点和挖掘需求等特殊性,并有针对性地对数据挖掘算法进行优化。

通用的数据挖掘应用系统大都以数据仓库或大型关系数据库为基础,且具有查询、分析、表示等功能,它是企业决策支持系统的核心组成部分,可以将这些现有数据挖掘系统的共同特点抽象成图1所示的结构。

二、通用的数据挖掘系统结构的不足及改进思路

通用的数据挖掘系统己经在一定程度上满足用户的需要,但是在应用实施过程中也存在着一些问题和不足。主要有以下几点数据挖掘的效率有待进一步提高:历史模式不能得到有效利用;不同系统之间的互操作性差;面向不同应用对象的针对性不强。

数据挖掘往往面对的是巨大的数据集,即GB甚至TB数量级的数据集,数据挖掘技术研究的核心问题之一就是如何提高数据挖掘的效率,提高数据挖掘效率的途径主要有以下几个方面:

1.对数据集进行预处理,去除噪音数据,按照挖掘要求对数据进行清理和迁移,尽可能减少挖掘的数据量。
2.针对各种数据挖掘和数据分析要求,研究、设计效率更高的各类数据挖掘算法。
3.提高数据挖掘系统应用的硬件性能或者采用并行处理技术提高数据挖掘的速度。
4.借用缓存的概念,对挖掘结果进行存储再利用,以提高用户挖掘请求的响应速度。

针对一般商业智能应用领域的实际情况和需要,以提高数据挖掘应用的效率为目标,本文将主要从并行处理技术和体系结构方面对现有数据挖掘系统进行改进和提高。

三、并行数据挖掘体系结构设计及特点

为解决通用数据挖掘系统中存在的一些问题和针对商业智能的特点,面向商业智能应用的并行数据挖掘体系结构如图2所示。

1.高性能并行计算环境:并行数据挖掘体系结构中采用了高性价比的并行体系结构COW(ClusterofWorkstations)、数据挖掘算法由串行算法改为并行算法以及采用“缓存”概念将数据挖掘结果保存在模式库中。并行处理技术的运用无疑对于数据挖掘效率的提高具有重要意义和实用价值,为数据挖掘效率的提高奠定了坚实的基础,对于商业智能应用的推广也具有重要作用。

2.数据源:数据仓库和其他数据源是数据挖掘的基础,商业智能应用系统应具有多种数据来源的处理能力,例如普通文件(电子邮件等)、关系数据库、数据仓库、数据集市等。

3.模式库:为了提高数据挖掘的效率以及商业逻辑的处理速度,借助硬件内存的“缓存”概念,将最近数据挖掘或者数据分析的结果(模式也许只是一个简单的规则描述)保存在模式库中,以便再次发生类似或者相同操作请求时能先在模式库中查找挖掘结果。从而尽量避免每次都从海量数据中进行挖掘操作,这样可以较大幅度提高处理速度,因此,模式库的建立为历史模式的有效利用提供了可能和基础。

另外,由于模式库中存储的是历次挖掘出来的模式,可以从分析模式的变化来进行趋势预测,从而为决策支持提供了更多的分析手段。

4.学习和推荐Agent:增加了一个用户兴趣分析档案库,由学习Agent进行更新维护,供推荐Agent分析使用。学习Agent将根据权值的计算方法对用户兴趣档案中没有出现过的关键字进行加权操作。推荐Agent根据已有的用户兴趣档案,分析用户可能感兴趣的模式,并推荐给用户。

5.并行数据挖掘工具/多维分析工具:数据挖掘是商业智能的核心,并行数据挖掘算法对于提高数据挖掘效率具有重要意义。为了适应商业智能应用的需要,仅提供多维分析工具是远远不够的,应尽可能多的提供对多种模式的支持。商业智能涉及关联、分类、聚类、时序等模式,并行数据挖掘工具尽能包含对这些模式的支持,这也是衡量并行数据挖掘工具好坏的标准之一。

6.可视化工具:为用户提供数据挖掘结果的自观表示方法。

除上述特点外,通过对并行数据挖掘体系结构的设计与改进,在以下两个方面取得了较好的效果:

(1)提高了系统之间的互操作性:现有的数据挖掘产品,对挖掘结果都有各自特殊的存储格式,不同挖掘工具之间要共享挖掘的结果非常困难,然而,对模式的集中存储就可以有效地解决上述问题,即设计类似SQL的查询语言,或设计通用的模式库接口。不同的挖掘工具通过使甩模式查询语言或调用模式库接口的功能函数就可以共享模式库中存储的模式。

(2)并行处理能力强、可扩展性好、可用性高:改进后的并行数据挖掘体系结构建立在可扩展机群之上,除了具有较高的可伸缩的并行处理能力之外,系统的可扩展性也非常好,可以通过增加或者减少处理结点数调整系统的处理能力,从而适应不同数据规模的处理需要。除此之外,系统的可用性高也是其显著特点一般情况下COW的可用性指标都在99.9%以上,为商业智能应用系统的稳定运行提供了可靠保证。

四、结束语

并行数据挖掘体系结构具有较高的并行处理能力和性价比,以及方便灵活的并行程序设计环境,对于实施商业智能应用的客户和应用领域来讲,具有可操作性,大多商业智能应用客户已经或者容易获得本文给出的并行处理环境,不需要投入大量的经费购置专用的并行处理系统。

模式库的提出是一种新的有益的探索。由于模式库中存储了历史挖掘模式,如果其中的模式接近挖掘请求的时间,则可用这些模式自接作为挖掘的结果,不用再进行新的数据挖掘,在模式库中进行查询操作的响应会明显加快,大大提高了数据挖掘的效率。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们