您现在的位置是：首页 > IT基础架构 > 软件与服务 >

数据挖掘技术在用户流失分析模型中的应用

2009-08-27 19:30:00作者：魏继勇来源：

摘要本文探讨了数据挖掘技术在用户流失分析模型中的应用，重点介绍了分类规则的ID3算法和关联规则经典的Apriori算法，并用分类规则中的ID3算法探讨了各种因素对于用户流失的影响情况以及用Apriori算法分析了个人年收入对其选择业务类型的影响。...

1引言

本文探讨了数据挖掘技术在用户流失分析中的应用，运用ID3算法以及Apriori算法，探讨了各种影响用户流失的因素分析。

2数据挖掘概述

数据挖掘(DataMining，DM)，是指从大型数据库或数据仓库的大量数据中提取隐含的，未知的、非平凡的及有潜在应用价值的信息或模式。它可帮助决策者分析历史数据及当前数据，并从中发现隐藏的关系和模式，进而预测未来可能发生的行为。数据挖掘是一种新的信息处理技术，其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理，并从中提取辅助决策的关键性数据。

3WEKA软件介绍

WEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis)，其作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理、分类、回归、聚类，关联规则以及在新的交互式界面上的可视化。

首先将Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet)中，我们只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需要转换的工作表，另存为CSV类型，点“确定”、“是”忽略提示即可完成操作。

再将CSV转换为ARFF格式。最迅捷的办法是使用WEKA所带的命令行工具。运行WEKA的主程序，出现GUI后可以点击下方按钮进入相应的模块。我们点击进入“SimpleCLI”模块提供的命令行功能。在新窗口的最下方(上方是不能写字的)输入框写上javaweka．core．converters．CSVLoaderfilename．CSV＞filename．arff即可完成转换。或者进入“Exploer”模块，从上方的按钮中打开CSV文件然后另存为ARFF文件亦可。

分类算法我们打算对前面的“bank-data”数据作分类规则的分析。用“Explorer”打开“bankdatafinal．arff”后，切换到“Classify”选项卡，点击“Choose”选项卡在其中TREES分支下选择ID3，点击ID3设置参数后点击“Start”开始运行算法，在右边窗口显示数据集摘要和挖掘结果。

4数据挖掘技术在用户流失分析模型中的应用

4.1用户流失

用户流失(CustomerChurn)是指用户不再重复购买、或终止原先使用的服务。由于各种因素的不确定性和市场不断的增长以及一些竞争对手的存在，很多用户不断地从一个供应商转向另一个供应商只是为了求得更低的费用以及得到更好的服务，这种用户流失在许多企业中是普遍存在的问题。

4.2构建用户分类模型

4.2.1建立用户数据库

在用户信息中包含有很多的属性，我们通过属性归纳方法去掉一些不相关或弱相关属性，最后将需要的信息抽取成能被数据挖掘算法所利用的表格，形成决策树的训练集。

4.2.2构造决策树，得出结论

对图1进行分析，表中年龄和年收入均为连续数值型数据，而ID3算法涉及的是离散型数据。因此，在建立决策树时，需要对连续型数据进行离散化处理。

对图2的用户信息进行转换，将转换后的数据表再次转换成．arff格式的文件，在WEKA软件中进行分析，并用该软件进行分析得出决策树如下。

从决策树可以很直观的看出各个因素对用户流失的影响情况，进而可以做出规划和预测，为公司制定营销政策提供依据：

(1)当工作地区是在城市里的用户一般都继续使用原先公司的业务，故城市的公司在提供更好更优质的服务来继续保持这些原有用户的同时，也说明公司需要把精力更多的放在那些用户容易流失的地区，如县，乡等。

(2)当工作地区是在县里的，如果使用的是C业务的中年用户，一般都退订。可能因为用户随着年龄的增长，觉得C业务的很多功能太时尚和娱乐化，因此会选择其他适合自己的业务。