您现在的位置是:首页 > IT基础架构 > 软件与服务 >

基于Web的数据挖掘技术与应用研究

2009-09-28 22:45:00作者:刘文清 包骏杰 陈晓红 来源:

摘要如何从各类数据仓库海量的数据中发现有用的知识是一个迫切需要研究的课题,因此,数据挖掘应运而生,成为一个全新的研究领域,而随着目前WWW的广泛应用及相应的Web技术的出现,也使数据挖掘的研究进入了一个新的阶段。本文综述了Web挖掘的主要技术及其实际应用。 ...

0 引 言

数据挖掘(Data Mining,DM)是近年来伴随着人工智能和数据库技术的发展而出现的一种全新信息技术;数据挖掘目的是发现人们不易觉察的、隐含的模式,从而提高市场决策能力,检测异常模式,在过去的经验基础上预言未来趋势等。随着Internet的飞速发展,Web上的信息量无比丰富,Web己经成为人们获取信息的重要途径,但最先进的搜索引擎也只能找到Web网址的1/3网页,而且无论怎么选择关键词,都会返回大量并不需要的结果。并且Web是无结构的、动态的,页面相当复杂。人们从成千上万的Web站点中找到有用的数据就变得比较困难。WEB挖掘技术是克服这些缺点的最理想的工具,是一个有效的途径,利用数据挖掘技术从Web中获取人们感兴趣的,潜在的有用模式和隐藏的信息,并可对数据进行分析,预测未来。

1 数据挖掘与WEB挖掘

1.1 数据挖掘

数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。数据挖掘就是从大量的数据中筛选出隐含的、可信的、新颖的、有效的信息的高级处理过程。

数据挖掘是一种决策支持过程,它主要是基于人工智能(AI)、机器学习、统计学等技术,高度自动化地分析企业原有数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,作出正确的决策。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据挖掘主要通过以下几个方法来实现:分类(Classification)、回归(Regression)、聚类(Clustering)、概要(Summarization)、发现变化和偏差(Change and Deviation Detection)以及关联规则(Association rules)。

1.2 WEB挖掘

当数据挖掘技术应用于网络环境下的,Jeb中就成为Web挖掘(Web Mining),它是从Web文件和Web活动中筛选感兴趣的潜在的有用模式和隐藏的信息。Web挖掘可以广义地定义为从WWW中发现和分析有用的信息。

2 Web上的数据挖掘

2.1 Web上的数据的特点

Web是一个基于超文本的分布式信息系统。Web目前涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务等许多信息服务。这为数据挖掘提供丰富的资源。Web具有以下特点:

2.1.1 庞大性

由于Web的开放性,使得Web上的信息与日俱增,呈爆炸性增长。网上的网页数量达到10亿,而且正在以每月近千万的速度增长。

2.1.2 动态性

Web不仅以极快的速度增长,而且其信息还在不断地发生更新。新闻、公司广告、股票市场、Web服务中心等都在不断地更新着各自的页面。链接信息和查找记录也在频繁更新之中。

2.1.3 异构性

从数据库研究的角度出发,Web网站上的信息一个更大、更复杂的数据库。Web上的每个站点就是一个数据源,每个数据源都是异构的,这就构成了一个巨大的异构数据库环境。

2.1.4 半结构化的数据结构

Web上的数据与传统数据库中的数据不同。Web上的数据非常复杂,没有特定的模型描述,每个站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。是一种非完全结构化的数据,称为半结构化数据。所谓半结构化是相对于完全结构化的传统数据库的数据而言,半结构化是Web数据的最大特点。

从这些分散的、异构的、没有统一管理的海量信息中快速、准确地获取信息,成为Web挖掘的一个难点,用于Web的数据挖掘技术不能照搬用于数据库的数据挖掘技术。

2.2 Web挖掘技术的分类

一般而言,Web挖掘可分为3类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘。图1给出了Web挖掘的分类。

图1 Web挖掘的分类


2.2.1 Web内容的挖掘

Web内容的挖掘是从文件内容或其描述中筛选知识的过程,是挖掘Internet的页面和后台交易数据库。Web文件文本内容的挖掘、面向概念索引的资源发现,以及面向代理的技术都属于这一类。

Web内容挖掘有两种策略:直接挖掘文件的内容,或在其他工具搜索的基础上进行改进。采取第1种策略的有锁定网络的查询语言Web Log、Web SQL等,利用启发式规则来寻找个人主页信息的Ahoy等;采取第2种策略的方法主要是对查找引擎的查询结果进行进一步的处理,以得到较为精确和有用的信息。属于该类的有Web SQL及对查找引擎的返回结果进行群集的技术等。

2.2.2 Web结构的挖掘

Web结构的挖掘是从WWW的组织结构和链接关系中推导知识,是运用数据挖掘技术来重建Web站点的结构,实现对页面进行排序,以发现重要的页面。

每个Web页面并不是物理对象,其内部有或多或少的结构。通过对Web页面的内部结构作研究,并用于寻找与给定的页面集合{Pi,……,Pn}相关的其他页面,如使用HTML结构树对Web页面进行分析,得到内部结构特征,从而确认网上企业的名称和地址等信息在页面中出现的模式。

2.2.3 Web使用记录的挖掘

Web使用记录的挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者和顾客的行为模式。WWW中的每个服务器都保留了存取日志,记录了关于客户查找和互动的信息。分析这些信息可以帮助了解客户的行为从而改进网站的结构,或为客户提供个性化的服务。

一般模式追踪,通过分析使用记录来了解客户的查找模式和倾向,以改进网站的组织结构。而个人使用模式追踪则倾向于分析单个用户的喜爱和偏好,其目的是根据不同客户的查找模式为每个客户提供量身定制的网站,开展有针对性的服务以满足用户的需求。

Web使用记录的挖掘通常需要经过数据预处理、模式识别和模式分析三个阶段。
3 Web挖掘的应用

Web挖掘技术已广泛应用于金融业、零售业、远程通信业、政府管理、制造业、医疗服务和体育等行业中,而Web挖掘的应用己成为一个新的热点,它主要涉及到电子商务、网站设计和搜索引擎服务等多方面。

3.1 在电子商务中的应用

3.1.1 客户分类和客户聚类

对Web的客户访问信息进行挖掘,对客户进行分类分析。应用聚类分析对客户进行分组,并且分析组中客户的共同特征,这样就可以让销售商更好地了解自己的客户,向客户提供更有针对性的服务。

3.1.2 找到潜在的客户

在对Web的客户访问信息的挖掘中,利用分类技术可在因特网上找到未来的潜在客户。通常,获得这些潜在客户的时常策略是先对已经存在的访问者进行分类。对于一个新的访问者,通过在Web上的分类发现,识别这个访问者与已经分类的访问者的一些公共的描述,从而对这个访问者进行正确分类,以判断这个新的访问者是否是一个潜在的客户。

3.1.3 客户的驻留

对于客户而言,传统客户与销售商之间的空间距离在电子商务中己经不复存在,在网上,每个销售商对于客户来说都是一样的。那么,销售商就要尽量使客户在自己的网站上驻留更长的时间。利用Web挖掘,就可以知道客户的行为模式,了解客户的兴趣及需要,从而根据客户的兴趣及需要动态调整Web页面,以更好地满足客户。因为站点上的页面内容的安排和连接如同传统商店中物品在货架上的摆设一样,可以利用Web挖掘,找出具有一定支持度和信任度的相关联的物品,并且针对客户的动态变化调整站点的结构,使客户访问关联信息的连接更直接。

3.2 网站设计的应用

通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织。可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,有助于开展网站信息推送服务以及个人信息的定制服务。例如,有些研究人员提出了可适应站点的概念,即可通过用户访问模式改进Web站点的服务。

3.3 搜索引擎的应用

通过对网页内容的挖掘,可以实现对网页的聚类和分类,实现网络信息的分类浏览与检索;通过用户使用的提问式(query)历史记录分析,可以有效地进行提问扩展,提高用户的检索效果(查全率、查准率);通过运用Web挖掘技术改进关键词加权算法,可以提高网络信息的标引准确度,改善检索效果。

4 结束语

面向Web的数据挖掘技术是一项复杂的技术,从Web挖掘中挖掘出潜在的知识可作为今后决策的重要准则,根据挖掘出来的知识进行相应的策略调整,从而可动态的创建满足客户需求的页面。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们