您现在的位置是：首页 > IT基础架构 > 软件与服务 >

基于Web的数据挖掘技术研究与应用

2009-11-25 00:23:00作者：范建中王福庆来源：

摘要随着Web上的信息量剧增，Web数据挖掘的作用愈显重要。本文从Web数据挖掘的定义与分类开始分析，简述了Web数据挖掘的主要技术以及存在的主要难题，并分析其应用。 ...

1 引言

Web上的信息量随着互联网的飞速发展以惊人的速度巨增，在这些海量、分布、动态、异质、非结构化的资源中，包含了丰富的文本、图形图像、声音等信息，同时也包含了大量的链接结构信息以及存在于服务器上的用户记录信息。面对这些巨量的信息，管理者如何从中查找、抽取所需要的数据与有用信息成了一个难题，也正是这个问题促使了单文本、单类型的数据挖掘转向了Web挖掘。本文基于这种背景研究分析了Web数据挖掘的定义、分类以及其挖掘技术，并对其挖掘过程中存在的困难与引用进行简单了分析说明。

2 定义与分类

2.1 概述

数据挖掘是指从大量的、不完全的、随机的、有噪音的实际应用数据中发现隐含的、规律性的、人们事先未知的但又是存在潜在价值知识的过程。Web数据挖掘是从数据挖掘发展而来。一般是指将数据挖掘技术应用到Web上。具体技术性定义：Web数据挖掘，简称为Web挖掘，是一项涉及Web、数据挖掘、信息学、计算机语言学等多个领域的综合技术。Web挖掘的理论性定义：指从大量Web文档结构和使用的集合S中发现隐含的、未知的、有潜在应用价值的模式P。如果将S看作输入，P看作输出。那么Web挖掘的过程就是从输入到输出的一个映射ξ：S→P。

Web挖掘就是从Web文档、Web活动中抽取出用户感兴趣的、潜在有价值模型的隐藏信息。Web挖掘可以在很多方面发挥作用，如对搜索引擎的结构进行挖掘、确定权威页面、Web文档分类、Web日志挖掘、智能查询、建立Web元数据仓库、对远程教育过程信息进行分析等。

2.2 分类

Web上的信息主要是3类： (1)是Web页面中的内容，包括文本信息和各类媒体信息； (2)Web服务器上的用户登陆网站的访问日志数据； (3)Web页面中存在的超链接之间相互引用的数据。根据这3类不同的信息将Web数据挖掘分为Web内容挖掘、Web日志数据挖掘与Web结构挖掘。

2.2.1 Web内容挖掘

Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识及模式的过程，同时也可以对Web组织结构和链接关系进行挖掘，从人为的链接结构中获取有价值的知识。web内容挖掘的重点是页面的分类和聚类。Web页面的分类是指根据页面的不同特征，将其划分为事先建立起来的不同的类。Web上的信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的，可以简单地分为Web文本信息和Web多媒体信息。针对所处理的Web信息对象，Web内容挖掘又可分为Web文本挖掘和Web多媒体挖掘。

2.2.2 Web日志数据挖掘

Web日志挖掘又叫Web使用挖掘，是从用户存取模式中获取有价值的信息，对Web上日志数据及相关数据的挖掘来发现用户访问Web页面的模式。Web其他两类挖掘的对象是网上的原始数据，而Web日志挖掘面对的是在用户和网络互动过程中抽取出来的第二手数据，即代理服务器日志记录、网络服务器访问记录、浏览器访问记录、用户的个人简介、注册信息、用户提问式等。可以通过分析和研究这些数据中的规律，来识别电子商务的潜在客户；可以用基于扩展有向树模型来识别用户浏览序列模式，从而进行Web日志挖掘；可以根据用户访问Web的记录挖掘用户的兴趣关联规则，存放在兴趣关联知识库中，作为对用户行为进行预测的依据，从而为用户预取一些Web页面加快用户获取页面的速度。

2.2.3 Web结构挖掘

整个Web空间中，Web结构包括不同网页之间的链接结构和一个网页内部的可以用HTML、XML表示成的树状或图状结构，以及文档URL中的目录结构等。挖掘Web结构的目的是发现页面的结构和Web间的结构。在此基础上对页面进行分类和聚类，从而找到权威页面，这种方法可以用来改进搜索引擎。

3 技术

Web数据挖掘中有很多传统的挖掘技术，随着越来越多的学者进行研究，新的方法层出不穷。常用的几种常用的技术：关联规则技术、分类技术、聚类技术、路径分析技术和序列模式技术。

3.1 关联规则挖掘

关联规则挖掘技术是用于从用户访问的记录数据库中的项目中挖掘出相互关联的规则。Web挖掘中。关联规则挖掘就是挖掘出特定用户在一个访问期间从某服务器上访问的页面或文档之间的联系。常用的算法是Aprior算法。

3.2 分类

数据分类技术是通过挖掘数据中的某些共同特性从而对数据进行分类。Web数据挖掘中，分类技术可以根据Web访问用户的个人信息及其日志得出特定用户特征。常用的数据分类技术有：神经网络、贝叶斯分类和贝叶斯网络、判定树归纳、基于案例的推理、遗传算法、模糊集方法。

3.3 聚类

数据聚类技术是一个将物理或者抽象对象的集合分组成由类似的对象组成的多个类或簇的过程。聚类分析能作为一个独立的工具来获得数据分布的情况，观察每个簇的特点。集中对某些簇做进一步的分析。常用的聚类算法大体上可以划分为几类：基于模型方法、基于网格方法、基于密度方法、基于层次方法、基于划分方法等。

3.4 路径分析

这是Web数据挖掘特定的挖掘技术。根据Web网络的特点，可以假设每一个网页为一个顶点，任何两个网页是否存在相互的超链接确定是否存在一条边，这样就可以形成网站结构图，从图中确定最频繁的访问路径、最常用的技术视图。

3.5 序列模式

序列模式挖掘是指发现事务序列之间的模式，即一组数据项的出现在时问顺序上伴随产生另外一组数据项。在Web服务器日志中记录的是每个用户在一段时间范围内的访问情况。因此，与该用户事务相关联的时间戳是在指在数据项处理过程中确定并从属于用户事务的一段时间间隔。该技术就是要挖掘出交易集之间的有时间序列的模式。在特定网站服务器日志里，特定用户的访问是以一段时间为单位记载的。在某一指定的时间段内，分析其产生的数据信息，可以帮助管理者找出其感兴趣的规则．例如有助于帮助商家印证其产品所处的生命周期阶段。常用的技术是周期分析法。

4 难点

Web上的数据区别于传统数据库中完全结构化的数据，其数据是半结构化的、没有严格的结构模式、含有不同格式的数据(例如文本、声音、图像等)、无法区分数据类型(HTML文本，XML)等。故Web的数据挖掘比面向单个数据仓库的数据挖掘要困难、复杂得多。

4.1 异构数据库环境

从数据库研究的角度出发，Web上的每一个站点就是一个数据源，每个数据源都是异构的，因而每一站点之间的信息和组织都不一样，这就构成了一个巨大的异构数据库环境。要使用这些丰富的数据进行挖掘，第一要必须研究站点之间各类异构数据的集成，只有将这些站点的数据都集成起来，提供给用户一个统一的视图，才有可能从巨大的数据资源中获取所需的东西；第二要解决web上的数据查询问题，因为如果所需的数据不能很有效地得到，对这些数据进行分析、集成、处理就无从谈起。

4.2 半结构化的数据结构

Web上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据模型来描述特定的数据；而Web上的数据没有特定的模型描述，每一站点的数据都是各自独立设计，并且数据本身具有自述性和动态可变性。因而，Web上的数据具有一定的结构性，但由于自述层次的存在，从而形成一种非完全结构化的数据，该种半结构化是Web上数据的最大特点。

5 应用

Web挖掘已经被广泛地应用到零售业、金融业、通信业、政府管理、制造业、医疗服务等行业中，对该技术的应用和研究在学术界、实业界与政府部门中逐渐成为一个热点。随着Web挖掘技术的不断成熟和应用范围的不断扩大。它将成为在wⅥ帽，上获取有用的信息和知识的重要手段和必然选择。Web挖掘的应用主要表现在以下几个方面：

5.1 在电子商务中的应用

电子商务中应用Web挖掘技术，可以为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助，从中可得到商家用于特定消费群体或个体进行定向营销的决策信息。Web挖掘的功能主要表现在客户分类、客户聚类、客户获取和客户驻留4个方面。如web挖掘的分类分析可以将客户分组，并结合聚类分析对客户进行分组，并且分析组中客户的共同特征，这样就可以让商家更好了解自己的客户，向客户提供更有针对性的服务；同时利用分类技术可在因特网上找到未来的潜在客户；通过序列模式分析可以挖掘出哪些客户在在公司网站上停留的时间较长，这样可以为公司的广告宣传提供依据。

5.2 在智能搜索引擎中的应用

Web挖掘在搜索引擎中的应用，是通过对网页的挖掘实现对其的聚类和分类，实现对网络信息的分类浏览与检索，减少在搜索引擎上为组织Web文档所消耗的资源；运用Web内容挖掘技术改进关键词加权算法，提高网络信息的标引准确度；运用网络内容挖掘技术．通过对用户使用的提问式的历史记录的分析，可以有效地进行提问扩展，提高用户的检索效率。如搜索服务市场的实力企业coosle、Yahoo、Baidu等提供更多的技术，会自动找寻常用的字词。在用户填写关键字时，会根据使用者的开头拼写字母提供一系列的相关提示关键字，尽量缩短搜索时间，提高效率。

5.3 在网络教育中的应用

Web数据挖掘在网络教育中的应用主要是从Web文档和Web活动中抽取学生感兴趣的潜在的有用模式和隐藏的信息，作为对学生提供个性化教学服务的依据，协助管理者优化站点结构，提高站点效率，更好地为网络教育服务。由于受教育对象个体之间存在着极大的差异性，网络教学也必须是一种适应个别化学习需求的个性化教学，由于网络教育是通过网络进行授课的，所以一般的挖掘技术很能对其产生的文档、网页、多媒体信息等等进行有效的挖掘分析。而Web挖掘技术可以弥补这个缺憾，可以通过挖掘信息给这些不同的学生个性化的教育。

6 结语

Web数据挖掘是目前信息技术中的研究热点，它是现代科学技术相互渗透与融合的必然结果。Web挖掘的分类及其所涉及的关键技术都处于初级阶段，互联网在技术和应用上的不断发展将会极大地促进数据库技术和数据挖掘技术的发展，并直接导致Web挖掘在技术和理论上的不断发展。在今后Web挖掘技术的发展趋势是web知识库的动态维护、更新；半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算法；关联规则和序列模式在构造自组织站点的研究等等。

(本文不涉密)
责任编辑：

上一篇：数据挖掘应用在互联网上产生商业价值

下一篇：基于统计数据的OLAP数据挖掘技术