您现在的位置是:首页 > 行业 > 制造 >
在汽车销售中应用BI进行数据分析
2011-07-26 17:51:00作者:迟庆云来源:
摘要本文利用商业智能软IBM DB2Intelligent Miner建立汽车市场营稍分析的数据仓库模型,并利用决策树分类技术销售企业的调查问卷数据进行分析,挖掘出最近一年内有购车意愿的客户的特征。企业针对这些特征,采取相应营销策略高营销的针对性和成功率。 ...
一 、 引言
在激烈的市场竞争环境中,一个企业如果要生存和发展,就必需了解市场.了解客户树立“以市场为导向,以客户为中心”的经营理念。汽车销售企业作为服务业尤其如此面对瞬息万变的市场,多变的客户,应用信息技术为营销服务,建立客户关系管理系统等不失为有效途径。而数据挖掘技术在客户分析方面有优势。在营销过程中市场调查是十分重要的.市场调查将为营销策略,广告的投放提供依据面对市场调查取得的大量纷杂、无序的数据,利用商业智能软件的数据挖掘技术进行处理,将会起到良好的结果。
二、 商业智能软件
商业智能 (BI,BusinessIn telligence)又称商务智能,就是一种将数据转变为信息、信息转变成知识的工具,并且这种工具能够在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。商业智能定义为下列软件工具的集合。
1.简单的查询和报告工具。专门用来支持初级用户的原始数据访问.不包括适用于专业人士的成品报告生成工具。在这一层次,商业智能仅仅是把信息进行粗加工。
2.在线分析处理。提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。
3.经理信息系统。这类系统的用户希望能够在不太费力的情况下.从系统中获取大多数信息。
4.数据集 市和数据仓库产品。包括数据清洗、数据抽取、转换、载入、数据管理和数据存取等方面的软件。
5.数据挖掘(DataM ining)软件。使用诸如决策树、神经网络、规则归纳等技术r用来发现数据之间的关系,做出基于数据的推断。数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、模式和趋势的过程。它使用模式认知技术、统计技术和数学技术。数据挖掘的目的是为决策建模即根据过去活动的分析预测将来的行为。比较常见的数据挖掘算法有:聚类分析、决策树、神经网络、规则归纳。一般比较好的数据挖掘工具都会支持这几种算法。
三、 决策树与IBM DB2 Intelligent Miner
决策树方法起源于概念学习系统,然后发展了ID3方法并达到高峰最后又演化为能处理C4.5。
连续属性的决策树构造的输入是一组带有类别标记的数据,构造的结果是一棵二叉或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断如形式为(ai=vi)的逻辑判断,其中ai是属性v.是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树的内部节点是属性.边是该属性的所有取值有几个属性值,就有几条边。树的叶子节点都是类别标记。构造 决 策 树的方法是采用自上而下的递归构造。以多叉树为例它的构造思路是如果训练数据集合中的所有数据是同类的,则将之作为叶子节点,节点内容即是该类别标记否则,根据某种策略选择一个属性按照属性的各个取值把数据集合划分为若干子集合使得每个子集上的所有数据在该属性上具有同样的属性值;然后再依次递归处理各个子集。这种思路实际上就是“分而治之“(Divide一and一conquer)的道理。二叉树的原理与此的差别仅在于要选择一个好的逻辑判断。在生成的决策树中可以建立一个规则基。一个规则基包含一组规则.每一条规则对应决策树的一条不同路径这条路径代表它经过节点所表示的条件的一条连接。IBM 的 Intenlligent M ine:是市场上最强大和最有可伸缩性的工具之一正在竞争数据挖掘工具市场的领导地位,它提供了最广泛的数据挖掘技术和算法在数据规模和计算性能方面具有非常高的可伸缩性Intellligent Miner支持分类、预测、关联规则、聚类、顺序模式侦测和时间序列分析的算法。Intenlligent Miner支持DB2关系数据库管理系统,并集成了大量复杂的数据操纵函数。根据 ID C 的统计IntelligentM iner目前是数据挖掘领域最先进的产品。大多数算法是由旧M研究所研发出的,是IBM的专有技术.并只存在于Intelligent Mine。中。决策树使用的是CAU算法的二种变种,用以产生一个分类模型并且能够处理离散和连续数据。
四、决策树技术在汽车销售中的应用
下面将就某汽车销售公司,在汽车展上的调查问卷进行分析。
潜在客户的数据主要有年龄、性别、职业、收入、教育程度、是否结婚,是否有房等,调查客户是否会在一年内买车。数据表格式如下:
1.数据预处理。数据预处理的目的是为了提高数据质量,使数据挖掘的过程更加有效,更加容易同时也提高挖掘结果的质量。数据预处理的对象主要是清理其中的噪声数据、空缺数据和不一致数据。常用的数据预处理技术主要包括;数据清洗、相关分析和数据变换等。
数据清洗试图填补训练集中的空缺值、识别孤立点、消除噪声、纠正数据中的不一致。对于空缺值的处理,通常有忽略元组、人工填写空缺值、使用全局常量填充、使用属性平均值填充、使用与给定元组同一类的样本平均值填充、使用最可能的值填充等方法。
调查问卷中有部分没有填写的选项,如年龄属性,对于这一部分记录采用的是使用属性平均值填充的方法。在进 行 数 据挖掘工作之前需要进行前期的数据整理工作,比如根据直观经验去除数据中的冗余信息或不相关信息,对于上面的数据集中的属性,像序号等可以在正式开始数据挖掘前去除,因为客户是否近期内买车是我们最关心的信息我们把属性是否 一年内买车,即作为类标签属性。
2.生成决策树,产生规则。整理后的数据导入到DB2关系数据库表中,使用IBM的Intenlig entM iner提供的数据挖掘工具生成决策树并剪枝后。
3.决策树结果分析理解。需要说明的是这203份问卷是在车展中获取的.来参加车展接受问卷调查的自然多数是有买车想法的,因此31.2%愿意买车.这个比例在普通人群中是达不到的。下面我们从产生的决策树规则分析一下是否在一年内买车与客户的因素之间的关系。
(1 )收入直接决定了一个人的购买力。salary即月薪在低于2550元的客户中汽车是奢侈品.在近期一年内没有购车的意愿;月薪在高于6500元的客户中,一年内也没有购车的意愿可以想象高收入人群大多已经有车了。
(2) 年龄也是导致买车的一个因素。在接受调查的人群中都在22岁一65岁之间。年轻人中愿意买车的较多年龄小于31.5岁的人,可能是由于婚姻与购房所困,一年内没有购车的意愿:年龄在31.5岁一40.5岁之间(占82.3%),一般来说这一部分高收入人群不受房子与婚姻状况所困扰孩子大多在上中小学.而目前大多数是独生子女,社会治安又不太好在经济条件许可的情况,会考虑买车来接送孩子。因此有近期买车的打算。
(3) 愿意买车的多为男性。在低收入的女性中没有考虑购车问题.但男性如果收入还可以的情况下有近期买车的可能性。
(4) 从目前 这些数据来看受教育情况、婚否、工作性质与是否愿意近期买车影响也不大。客户的购 买行为还要从多方面进行考虑我们仅从这几方面挖掘出外部环境与客户的购买行为之间的关系。在计划购车的人群中购车的价位,车的排气量、/车的颜色等也可以进行挖掘在不打算购车的人群中不买的原因,也值得分析。
五、结论
采用决策树分类算法,通过对调查数据挖掘得到一系列的分类规则,然后利用此分类规则对潜在客户进行分析采取主动营销.可以降低营销成本从而可以提高营销的成功率。随着多方面大量数据的获得,商业智能的数据挖掘工具可以挖掘出更有参考价值、易于理解,并具有很高的分类准确度的规则为生产实践服务。决策树数据挖掘技术在汽车销售中也有着广阔的应用前景,值得我们进一步的研究。
(本文不涉密)
责任编辑:
上一篇:天津一汽丰田:IT建设不走寻常路