您现在的位置是：首页 > IT基础架构 > 软件与服务 >

基于可拓集的企业数据挖掘应用方案初探

2009-10-20 21:24:00作者：来源：

摘要数据本身的质量差造成数据挖掘结论的可信度低已经成为影响数据挖掘应用的重要因素，针对不完备数据设计的清洗算法、容忍算法等都不能从根本上解决这个问题。...

1 数据挖掘应用现状及存在问题

    近年来，数据挖掘在生物、金融、保险、零售等行业已得到较为广泛的应用，成为后信息化时代的关键技术，但在数据挖掘项目洽谈及实施过程中，常常会碰到各种矛盾问题。例如，数据本身质量问题和挖掘结论正确性的矛盾、海量数据与快速挖掘的矛盾、影响因素的无限性和挖掘属性选取的有限性之间的矛盾等等。其中，数据质量问题已成为影响数据挖掘应用的重要因素，存在有错误的或者不完整的、冗余的、稀疏的数据使得最终数据挖掘结论的可信度降低。因而，数据挖掘专家对数据质量差的企业得出的结论是不能做数据挖掘，做了结论准确性也很低，无法商业化应用；对企业而言，往往缺乏有效措施使数据准确，同时数据准确性无法有效检验，最终导致数据挖掘项目的沟通时间长，企业热情由高到低，可能使数据挖掘项目的洽谈无法达成协议。

    针对数据质量和挖掘结论准确性之间的矛盾，目前企业的做法通常是制定数据质量检验的标准，引入数据质量管理平台，加大数据误差的处罚力度，购买新技术和新软件等，这些措施往往不能很好地解决数据的质量问题，企业信息化质量仍然不高。数据挖掘专家则把精力集中在研究数据处理、清洗的技术、算法等，或者对低质量数据进行挖掘算法研究，但效果并不理想。

    本文拟从可拓工程研究的基本思想、工具和方法出发，将不相容问题进行形式化描述，建立条件物元和目的物元，将企业数据看作物元可拓集合，从可拓集合的变换角度进行分析，试图通过可拓变换解决数据准确性差和数据挖掘结论要求的可信度高之间的矛盾。

2 数据质量问题的可拓分析

    可拓学把物N、特征名c和N关于c的量值v构成的有序三元组R＝(N，c，v)作为描述物N的基本元，称为一维物元。其中c和v构成的有序二元组M＝(c，v)表示物N的一个特征。

    根据可拓学的动态原理，任何物元都是参数t的函数，即R(t)＝(N(t)，c，v(t))，其中参数t可以是时间、空间或其他参数。

    用于挖掘的数据是一个随时间、空间及信息化管理程度等动态变化的多维物元，记为



    式中：N1(t)为数据记录，c为数据记录的特征名，v是N1(t)关于c的量值，t为一般参数。因此，可以从参数t为时间、空间和其他条件等方面来分析造成数据质量差的原因。

    从时间角度分析，信息化初期的软件系统是面向操作的，以提高工作效率为主，内容不完整，补丁多，设计实施缺乏统一规划；从空间角度分析，企业中各个子系统相对独立，数据分散，不同的业务规范和基础数据编码，导致数据表达方式的多样性；从管理角度分析，数据存在不一致、不完整、数据重复、数据二义性甚至可能会有冲突等问题，但缺乏管理手段和工具发现这些问题。此外，设计时没有提供合理有效的数据更新维护途径，缺乏数据质量监督管理措施也是原因之一。

    数据质量差的最根本原因在于数据没有得到企业高层的有效分析和应用，原因是信息系统自企业部门级应用开始，受信息集成技术的限制，各部门数据形成信息孤岛，数据的完整性、一致性无法保证。这种不准确、不完整的孤立数据不利于面向主题的分析，更不能进行数据挖掘，无法有效地进行决策支持，因此，企业高层领导对数据的关切度降低，数据准确的推动力减小，从而使数据更不准确，形成恶性循环。

3 基于可拓变换的企业数据挖掘应用方案

    数据挖掘涉及3个多维物元和一个多维事元，用于数据挖掘的原始数据集可用式(1)所示的多维物元R1来表示；质量达到要求，可进行有效挖掘的数据集可用多维物元表示为



    该物元为条件物元，数据挖掘过程可用多维事元表示为



    其中bi(i＝1…n)为动词的特征名，包括支配对象、施动对象、接受对象、时间、地点、程度、方式和工具等基本特征，ui为量值。

    挖掘结论即目的物元，可用多维物元表示为



    目前一般的数据挖掘过程都是先通过数据清洗、格式化等把R1，变换为R2，然后再采用see5、支持向量机、MCLP等数据挖掘软件工具实现挖掘变换，得到挖掘的结论R3。由于企业数据质量不高，数据清洗处理往往占用大量的人力、物力和时间，况且数据清洗等方法往往治标不治本，即使费力清洗了现有数据，随后采集的用于挖掘的数据又被新的来自信息系统的不准确的数据所污染，必须重新清洗才能挖掘分析，清洗效果的不确定性增加了数据挖掘项目的风险。

    在企业用于数据挖掘的原始数据集上可以建立一个可拓集合。设U为论域，k是U到实域I的一个映射，T＝(TU，Tk，Tu)为给定的变换，称A(T)＝{(u，y，y’)︱u∈TuU，Y＝k(u)∈I，Y’＝Tkk(TuU)∈I}为论域TuU上的一个可拓集合，Y＝k(u)为A(T)的关联函数，Y’＝TkK(TuU)为A(T)的可拓函数，其中TU、Tk、Tu分别为对论域U、关联函数k(u)和元素u的变换。

    从数据挖掘的角度，可进行有效挖掘的数据R2是由和挖掘目标关联的完整的、一致的、正确的数据的集合。数据清洗的一个重要任务就是通过清洗脏数据，使数据质量达到可有效挖掘的要求。设某企业进行数据挖掘项目，论域U＝{某企业用于数据挖掘的数据的集合}，数据集质量的评价特征c01＝数据完整性，c02＝数据一致性，c03＝数据的正确性，记



    u∈U，在c01至c04的量值域V(c01)至V(c03)上分别建立关联函数k1(x1)，k2(x2)，k3(x3)，x1∈V(c01)，x2∈V(c02)，x3∈V(c03)。在物元集W＝上，建立物元可拓集合
    D(R)(T)＝{(R，y，y’)︱R∈TwW，y＝k(R)＝(k1(x1)∧k2(x2)∧k3(x3))∈(－∞，＋∞)，y’＝TkK(TrR)∈(－∞，＋∞)}，其中变换T＝{Tw，Tk，Tr}，y’＝TkK(TrR)是关于T的可拓函数，称D(R)(T)＝{(R，y，y’)︱R∈TwW，y＝k(R)≤0，y’＝TkK(TrR)≥0}为原数据集关于变换r的可拓挖掘集。
    3.1 关于论域变换的解决方案

    对论域做置换变换，可以选择质量满足数据挖掘要求的其他数据集进行挖掘，同时改变挖掘目标；对论域做增删变换，增加质量更好的数据集以降低整体数据集的不准确率，或者去掉一些质量很差的数据，用清洗后的子集做数据挖掘，这是目前常用的数据清洗方法，其缺点是清洗工作量大，容易洗掉一些有价值的信息。

    3.2 关于关联准则变换的解决方案

    企业用于数据挖掘的数据的集合本身不变，即关联度不变，对判断数据质量的标准c01，c02，c03做变换，在一般数据挖掘软件下不符合要求的数据在变换后的新软件下质量达到挖掘要求。如研究构造一个低数据质量下的数据挖掘系统，实现容忍低质量数据的数据挖掘算法等。

    3.3 关于元素变换的解决方案

    变换V值，使现在质量差的数据集变成可挖掘的数据集。目前数据挖掘上研究的数据清洗、针对不完整数据的各种填充算法等都是这类方法；对元素u进行置换变换，用符合质量要求的u’代替现有的元素u。数据集R1的事物发散可拓域为A(R)(Tn)＝{R︱k(R)≤0，k(TnR)≥0}，其中TnR＝(TnN，c，c(TnN))，则对于任何R∈A(R)(Tn)，有N’1∈￡1(N)，使TnN＝N’，且c(N’)∈A，其中，A为可拓集合的正域。

    A(R)(Tn)本质上描述具有如下性质的事物N的全体：1）c(N)￠A；2）可以找到代替N的事物N’使c(N’)∈A。

    根据物元的可拓面分析，任何事物都具有一个以上的相同非空特征，时刻是天下万物相同的非空特征，因此，从时间角度入手通过发展变换，必将会找到物元N’。

    给定物元R1(N1(t)，c，v1(t))，通过事元“数据挖掘咨询”的影响，进行数据质量改进的发展变换，将数据质量变差的恶性循环变换为数据质量不断改进的良性循环，如图1所示。

图1 数据质量改进的良性循环分析

    进行发展变换的事元要素包括从数据挖掘的角度分析R1现状数据和R2可用于挖掘的数据，通过挖掘分析、试验发现现状数据和目标数据之间的差距，通过关联函数计算差距大小，然后提供数据挖掘咨询(包括进行挖掘目标、数据质量分析，从数据挖掘角度提出改进建议等，即Data Mining(DM)影响)，采取调整数据结构、存储方式、汇总方式、保留时间等，使数据的完整性和准确性提高，逐步提高整体的数据质量，缩小数据质量的差距。如果差距在k(u)≤0的负域，再通过挖掘试验发现新的差距，继续提供数据挖掘咨询。循环进行挖掘试验，采取改进措施，差距逐渐减小，高质量的数据物元逐渐替换低质量的数据物元，使数据质量逐步提高，在某一时刻t，多次物元变换的量变引起质变，使物元R1的质量达到R2的标准，实现了发展变换的过程，记为TV→N，即TV→N(N1(t)，c，v1(t))＝(N2(t)，c，v2(t))。最终通过物元可拓变换，得到满足条件的物元N’，这样可以主动分阶段进行数据挖掘工作，加速数据质量提升。

    综合对3种变换方式得到的措施分析，数据清洗、填充、容忍算法等只是解决了历史数据的可挖掘问题，不能防止新的脏数据的产生，数据挖掘应用的根本解在于实现物元N1到N2的变换，即在事元“数据挖掘咨询”的不断影响下，使数据从来源上达到正确性、完整性、一致性等要求。

    当数据质量达到数据挖掘的要求时，就进行事元变换，由事元“数据挖掘咨询”的咨询、试验阶段进入事元“数据挖掘实施”的项目正式实施阶段，如图2所示。

图2 可拓数据挖掘应用方案模型

    一旦数据数据挖掘的结论为业务决策带来价值，公司管理层、业务人员就会更加重视信息系统数据的质量，也会采取一些促进信息化建设的措施，这样对数据的需求增加，会促使更多的数据集成，新数据集成后又会发现质量问题，进入下一循环的数据挖掘咨询、项目实施。如此通过企业用于数据挖掘的物元可拓集变换，以数据挖掘咨询的事元作为变换手段，使原有的不完备物元数据集达到条件物元数据挖掘所需数据集的要求，从而使数据质量的矛盾问题得到解决。这种螺旋上升式的循环实施，实现了不可挖掘数据到可挖掘数据的转换，还驱使企业信息化程度和质量的整体提升。

4 应用实例

    某网站公司成立8年来，注册用户和普通访问者都获得了迅猛的增长。网站内容越来越丰富，产品种类越来越多，公司各业务单元积累的数据也越来越多，这些数据的价值急待分析、挖掘，为公司未来的发展提供决策支持。

    为了尽快把握客户的特征及其真实需求，开发出符合客户需求的产品，该公司与中科院数据挖掘团队合作，借助可拓学理论和丰富的数据挖掘经验，对该网站公司的运营数据、客户数据(即式(1)的R1(t))进行了深入分析，提出了图2所示的以数据挖掘咨询带动数据质量上升，分段实施的数据挖掘方案。具体实施步骤如下：

    1）了解整体数据现状，提出数据准确性相对较好的VIP邮箱作为分析主题。数据调研时发现，邮箱用户注册资料的有用信息很少，有价值的信息存在日志文件中，保留时间很短，且缺乏和数据库信息有效的关联字段。方案建议增加收集数据挖掘需要的信息，延长日志文件保留期限，同时转换日志格式等(即事元，“DM影响”)。

    2）企业根据建议实施数据质量提升的方案。

    3）2个月后，重新审视数据情况，抽取部分样本数据进行分析，提出了投诉信息处理的改进方案(即事元，“DM影响”)。循环3次，数据达到可挖掘的完整性、准确性要求(即式(2)的R2)。

    4）数据挖掘试验。目前已用决策树、支持向量机、多目标线性规划等方法进行了试验挖掘，得出了一些初步的结论(即式(4)的R3)。

    实践证明，以可拓学为指导，把企业所有数据看作可拓数据集合，通过可拓变换，发现无论数据质量高低，都可做数据挖掘，只是实施的方式不同。特别是以可拓集合理论引入事元做为变换手段，解决低质量数据的企业不能做数据挖掘的矛盾问题，使数据挖掘的应用范围扩大到数据质量不高的一般企业，而且从根本上解决了企业信息化的数据质量问题。

    本文仅是运用可拓学解决实际问题的尝试，如何用关联函数定量描述用于数据挖掘的数据集质量，将是下一步研究的重点。另外，针对低质量数据的数据挖掘，可能还存在其他的可拓变换方案，希望有更多专家利用可拓学等工具进行研究。