您现在的位置是:首页 > IT基础架构 > 软件与服务 >
两种知识管理技术:数据挖掘和知识发现
摘要知识管理技术就是指能够协助人们生产、分享、应用以及创新知识的基于计算机的现代信息技术。...
1 引 言
信息化的推进让企业积累了大量的数据,建立充分利用这些数据的意识,从凌乱的数据中挖掘有用知识,就意味着企业开始进入知识管理时代。人们希望通过这些数据能够得到更深入的信息,以辅助业务决策,由于计算机技术的广泛运用,使得其成为了可能。企业要实施有效的知识管理,一个良好的知识管理系统是必不可少的,谈知识管理系统就离不开知识管理技术。知识管理的各种功能及服务最终都还得依靠知识管理技术来实现,如搜索引擎服务就离不开搜索引擎技术、知识生产服务也需要内容管理技术的支撑。可以说,没有强大的知识管理技术支持,企业将很难有效地实施知识管理,它是构建知识管理系统的基础,也是实现知识管理的强大推动力。
知识管理技术就是指能够协助人们生产、分享、应用以及创新知识的基于计算机的现代信息技术。知识管理技术是一个技术体系(如图1所示)。
图1 知识管理技术模型
从知识管理技术模型中可以看出,知识管理技术包括众多的技术内容,其覆盖了知识生产、分享、应用以及创新等各个环节。本文将重点围绕两种知识管理技术——数据挖掘和知识发现进行探讨。
2 与数据及信息管理技术的比较
随着知识经济的兴起,企业从原有的数据发展到信息、直至今天的知识,其相应的管理技术也经历了数据管理技术、信息管理技术和知识管理技术。各种技术都是顺应不同时期经济发展的产物,都有着其自身的特点。
知识管理技术和数据管理及信息管理技术有着一定的区别。数据管理技术是指那些能够协助人们生成、检索和分析数据的技术,以数据为管理对象,通常处理事实、图形等原始资料,典型的数据管理技术包括数据仓库、数据搜索引擎、数据建模工具等。而信息管理技术是指能协助人们更好地处理信息的技术,以信息为处理对象,如自动化信息检索与查询系统、初级的决策支持系统(DSS)、经理信息系统(EIS)、文档管理技术等等。但是,数据管理技术和信息管理技术的处理对象大都是显性的信息。而据业界分析家的估计,有80%的企业信息包含在非结构化数据中,所以传统的管理技术对隐性知识的处理无能为力,其无法把握知识的丰富性和知识背景的复杂性,也就达不到知识管理中的知识分享和协作功能。
即便如此,知识管理技术与数据管理及信息管理技术有着密切的联系,它建立在数据管理及信息管理技术的基础之上,是数据管理技术和信息管理技术发展的一个高级阶段,它是一种能够协助知识员工进行知识生产、分享、应用以及创新的技术,是现代信息技术在知识经济时代的体现。传统的数据管理及信息管理技术仍然会在知识管理中得到进一步的广泛应用,成为整个知识管理技术体系中的重要组成部分。
3 数据挖掘的主要技术
数据挖掘可以用到的技术有决策树法:神经网络法、遗传算法、统计分析方法、粗集方法、可视化方法。
3.1 决策树法
决策树法就是以信息论中的互信息(信息增益)原理为基础寻找数据库中具有最大信息量的字段建立决策树的一个结点,再根据不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,这样便生成一棵决策树。然后对决策树进行剪枝处理,最终把决策树转化为规则,再利用规则对新事例进行分类。典型的决策树方法有分类回归树(CART)、D3、C4.5等。该方法输出结果容易理解,实用效果好,影响也较大。
3.2 神经网络法
神经网络法建立在可以自学习的数学模型基础上。它是由一系列类似于人脑脑神经元一样的处理单元组成,那就是节点(Node)。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的工作。神经网络法对于非线性数据具有快速建模能力,其挖掘的基本过程是先将数据聚类,然后分类计算权值,神经网络的知识体现在网络连接的权值上,该方法更适合用于非线性数据和含噪声的数据,在市场数据分析和建模方面有广泛的应用。
3.3 遗传算法
遗传算法是一种模拟生物进化过程的算法,由三个基本算子组成:繁殖、交叉(重组)、变异(突变)。在遗传算法实施过程中,首先要对求解的问题进行编码(染色体),产生初始群体;然后计算个体的适应度,再进行染色体的复制、交换、突变等操作,最后产生新的个体。经过若干代的遗传,将得到满足要求的后代(即问题的解)。该方法计算简单,优化效果好,适合于聚类分析。
3.4 统计分析方法
统计分析方法是利用统计学、概率论的原理对数据库中的信息进行统计分析,从而找出它们之间的关系和规律。常用的统计分析方法有:判别分析、因子分析、相关分析、多元回归分析、偏最小二乘回归方法等。统计分析方法是最基本的数据挖掘技术方法之一,可用于分类挖掘和聚类挖掘。
3.5 粗集方法
在数据库中,将行元素看成对象,列元素看成属性,等价关系R定义为不同对象在不同属性上的取值相同,这些满足等价关系的对象组成的集合称为该等价关系R等价类。它是一种分析不完整性和不确定性的数学工具,可以有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。该方法适合于不精确、不确定、不完全的信息分类和知识获取。
3.6 可视化方法
可视化方法是一类辅助方法,它采用比较直观的图形图表方式将挖掘出来的模式表现出来,其大大拓宽了数据的表达和理解力,使用户对数据的剖析更清楚。
4 数据挖掘与知识发现
知识发现的目的是从数据中发现知识,而数据挖掘则是知识发现中的一个特定步骤,其都是从数据中发现知识。但是,知识发现是更广义一个概念,而数据挖掘则是更具体、更深入的概念,其关系体现在知识发现的过程中(如图2所示)。
图2 知识发现过程
4.1 数据准备阶段
知识发现所处理的对象数据是原始数据,不适合在这些数据上进行知识挖掘,需要进行相应的处理,如数据的选择、净化(消除噪音、冗余数据)等。使其生成过程数据,之后进行转换,包括离散值数据与连续值数据之间的相互转换、数据值得分组分类、数据项之间的计算组合等,为后面的数据挖掘准备好正确的数据。
4.2 数据挖掘阶段
数据挖掘阶段是知识发现最为关键的步骤,是技术的难点所在。该阶段也就是根据知识发现的目标,选取相应的算法,分析数据,搜索或者产生相应的模式和特定数据集。
4.3 解释评价阶段
经过数据挖据得到的模式,有些可能是不准确的或不真实的,所以需要对所得模式进行评估,确定有效的、有用的模式,从而得到知识。评价可以根据用户多年的经验,也可以直接用数据检验其准确性。
从以上知识发现过程中可以看出,数据挖掘技术直接影响着知识发现的结果。但是,数据挖掘过程作为知识发现的关键环节注重于处理过程及处理过程中算法的选取,知识发现则注重目的与结果。但是二者的本质是一致的,都是对原始数据进行分析处理,并提取出隐含在大量数据背后的反映数据内在特性的关系模式的过程。
5 数据挖掘和知识发现的应用
随着大量算法的完善和挖掘过程的系统化、规范化,以及工具的不断推陈出新,数据挖掘技术和知识发现得到了社会的广泛应用。其对于提高企业知识管理实施效率和提升企业核心竞争力起着举足轻重的作用,图3的企业核心竞争力提升模型就有力地说明了这点。
图3 企业核心竞争力提升模型
另外,从行业角度讲,数据挖掘和知识发现已运用于各行各业,如金融业、零售业、电信业、天文学与空间科学、生物工程等数据量多的领域。
但目前,数据挖掘和知识发现技术已经开始运用于工业制造领域,在产品的生产制造过程中,也常常伴随着大量数据,如产品的各种加工条件或者控制参数,如时间、温度等,这些数据反映了每个生产环节的状态,即保证了生产的顺利进行,也可以得到产品质量与这些参数之间的关系,可为改进产品质量提出具有针对性的建议,为企业提出更高效的节约模式,从而为制造厂家带来极大的收益。
6 结束语
知识发现与数据挖掘是一个飞速发展的领域,方法和技术手段日趋丰富,应用也更加广泛、深入。现有数据库规模和数量的发展大大超过了人类使用传统工具分析的能力,这就为数据挖掘和知识发现技术创造了需要和机遇。在知识经济时代,将数据挖掘和知识发现技术引入企业的知识管理,有助于企业在激烈的市场竞争中快速有效地分析和处理有效的数据、信息和知识,使企业朝知识化的方向发展,用知识优化管理决策。
(本文不涉密)
责任编辑:
上一篇:“事件管理”及时恢复业务系统中断
下一篇:由“外婆家”混搭看价值链协同