您现在的位置是:首页 > IT基础架构 > 软件与服务 >
Web数据挖掘助力电子商务中深入应用
2009-08-24 17:28:00作者:姚学礼来源:
摘要在电子商务中,运用数据挖掘技术对服务器上的日志文件等Web数据进行客户访问信息的Web数据挖掘,了解客户的访问行为,从而调整站点结构,市场策略等,使电子商务活动具有针对性。...
1、引 言
目前,通过Web进行商务活动带来的便利和它所产生的交易速度已成为电子商务迅猛发展的关键推动力。另一方面,涉及客户端的电子商务活动也正在进行着巨大的革新。如果能够跟踪客户在Web上的浏览行为并进行模式分析,这样将会缩短销售商与客户之间的距离让销售商更了解自己客户的需求,有针对性的开展电子商务活动。
在Internet上的客户都意识到,只要他们连接到一个在线市场的报务器上,就已经在这个服务器上留下了一个“脚印”,这就是服务器的日志文件,我们就可以对客户访问留下的这些日志文件进行Web的数据挖掘,提取关于客户的知识,对客户的访问行为、频度、内容等的分析,可以得到关于群体客户行为和方式的普遍知识,用以改进Web服务方的设计。通过Web数据挖掘,就可以根据客户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,客户个性化的界面。开展有针对性的电子商务以更好的满足访问者的需求。
2、电子商务中进行web数据挖掘的数据源
2.1 服务器数据
客户访问服务器就会在服务器上产生相应的服务器数据,这些数据可以分为日志文件和查询数据。其中日志文件又可以分为server logs、error logs、cookie logs。
Server logs:
server logs有两种格式存储,一种是普通日志文件格式,另一种是扩展日志文件格式。普通日志文件格式以“Date,client-IP,User-name,BYles,Server,Request,Status,Service name Time,Protecol-verslon,User-agent,Cookie,Reffrer”的格式存储关于客户连接的物理信息。扩展日志文件格式主要是支持关于日志文件元信息的指令,如版本号,会话监控开始和结束的是日期,被记录的域等。
Error logs:
存取请求失败的数据,例如:丢失连接,授权失败,超时。
Cookie logs:
HTTP协议奉身是一种非事务型的,这~种特征对于事务型的电子商务来说是不合适的.路电子商务带来了一些问题。这个问题通过使用cookies得到了克服。Cookies是一种软件构件,它能够在客户端存储客户访问服务器的信息。服务器软件上存储关于cookie的这部分,就叫做cookie logs。Cookie logs的一般格式是:name,expiry_date,path,domain,security_level。
3、电子商务中应用的数据挖掘技术
针对前文提到的这些客户访问在线市场时所产生的数据,进行Web上的数据挖掘,主要是进行客户访问信息的挖掘,得到客户的浏览行为和访问模式,从而找到有用的市场信息。在电于商务中一般有以下几种数据挖掘技术的使用:
3.1 路径分析
它可以被用于判定在一个Web站点中最频繁访问的路径,还有一些其他的有关路径的信息通过路径分析可以得出:
70%的用户端在访问/company/product2时,是从/company开始,经过/comDany/new/comDany/products/comDany/product1。
80%的访问这个站点的客户是从comDany,Droducts开始的。
65%的客户在浏览4个或更少的页面后就离开了。
第一条规则在/company/product2页面上有有用的信息,但因为客户对站点进行的是迂回绕行的访问,所以这个有用信息并不明显。第二条规则说明了客户对站点的访问一般不是从主页开始的,而是从/company/products开始的,如果在这个页面上包含一些产品的目录类型的信息,将是一个不错的主意。第三条规则说明了客户在网站上驻留的时间。既然客户在这个网站上浏览一般不超过4个页面,就可以把重要的商品信息放在这些页面中。通过路径分析,可以改进页面及网站结构的设计。
3.2 关联规则的发现
在电子商务中关联规则的发现也就是要找到客户对网站上各种文件之间访问的相互联系。倒如,用关联规则发现技术,我们可以找到以下的相关性:
40%的客户访问页面company/product1时,也访问了/company/product2。
30%的客户在访问/company/product1时,在/company/product1进行了在线定购。
利用这些相关性,可以更好的组织站点,实施有效的市场策略。
3.3 序列模式的发现
序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一个项”的内部事务模式。例如:
在访问company/products的顾客中,有30%的人曾在过去的一星期利用关键字W在yahoo上做过查询。
在/company/product1上进行过在线定购的顾客,有60%的人在过去15天内也在/company/product4处下过订单。发现序列模式能够便于进行电子商务的组织预测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发觋,能够在服务器方选取有针对性的页面,以满足访问者的特定要求。
4、在电子商务活动中的几点应用
4.1 找到潜在的客户
在对Web的客户访问信息的挖掘中,利用分类技术可以在Internet上找到未来的潜在客户。获得这些潜在的客户通常的市场策略是先对已经存在的访问者进行分类,一般分为三种:“No custome”、“vistor once”和“visitor regular”。对于一个新的访问者,通过在Web上的分类发现,识别出这个客户与已经分类的老客户的一些公共的描述,从而对这个新客户进行正确的分类,然后从它的分类判断这个新客户是有利可图的客户群还是无利可图的客户与销售商提供的产品和般务之间的关联。
4.2 客户的驻留
对客户来说,传统客户与销售商之间的空问距离在电子商务中已经不存在了,在Internet上,每一个销售商对于客户来说都是一样的,那么如何使客户在自己的销售站点上驻留更长的时间,对销售商来说将是一个挑战。为了使客户在自己的网站上驻留更长的时间,就应该了解客户的浏览行为,知道客户的兴趣及需求所在,动态地调整Web页面,以满足客户的需要。通过对客户访问信息的挖据,就能知道客户的浏览行为,从而了解客户的兴趣及需求。在Internet上的电子商务中的一个典型的序列,恰好就代表了一个购物者以页面形式在站点上导航的行为,所以可运用数据挖掘中的序列模式发现技术。
4.3 改进站点的设计
站点上页面内容的安排和连接就如超级市场中物品在货架上的摆设一样,把具有一定支持度和信任度的相关联的物品摆放在一起有助于铺售,利用在Web上的关联规则的发现。可以针对客户动态调整站点的结构,使客户访问的有关联的文件间的连接能够比较直接,让客户能够容易的访问到想访问的页面,网站如果具有这样的便利性,能给客户留下较好的印象,增加了下次访问的机率。
5、小 结
本文介绍了在电子商务中可以被用来进行数据挖掘的数据源,以及可用于电子商务中的、基于Web上的几种数据挖掘技术和它们在电子商务中的一些相关运用,但是在电子商务中进行Web的数据挖掘时还有很多问题需要解决。例如,我们需要把服务器上的日志数据转化成适台某种特定数据挖掘技术适用的格式;需要解决不同国家不同地区存储Web数据的语义不一致性;需要解决用户会话期识别的问题;由谁来控制这整个Web上的知识发现过程等。另外,从Web数据挖掘在电子商务中运用的角度来看,从数据挖掘中发掘出来的这些潜在的知识可作为今后市场策略的重要准则,根据发掘出来的知识进行相应的策略调整,可以动态创建满足客户需求的页面。
(本文不涉密)
责任编辑: