您现在的位置是:首页 > IT基础架构 > 软件与服务 >

面向Web的数据挖掘在商务智能中的应用

2009-08-27 17:32:00作者:赵蒸平 甘仞初 来源:

摘要商务智能技术的研究与应用是电子商务中非常活跃的领域,是新一代商务管理者在Web环境下竞争和赖以发展的辅助经营和决策工具。...

1引言

电子商务作为一种全新的商务运作模式,在全球呈现出竞相发展的态势,对世界经济格局和贸易体制的变化将产生深刻的影响。在我国,今后五年将是中国电子商务应用蓬勃发展的五年,电子商务将成为中国经济发展的新增长点。然而在构建电子商务进程中,企业面临着新的工作环境、工作过程和管理模式(如虚拟企业联盟、基于供应链的产供销体系、物流配送体系等等)。在这种新的运行机制下,如何最及时地获取到最有商业价值的信息,如何发现潜在的、有用的客户,如何探测商业动向并在事箨未到来之前就做好准备,如何在较落后的基础平台上最大可能地发挥自身的优势,树立适合企业自身发展的形象,在激烈的市场竞争中占据竞争的主动地位,是企业最关心的问题。

而Web挖掘方法的研究与应用将大大促进该过程的进行,Web挖掘方法是在传统的信息获取渠道和方法上加以更新、创造出来的、适合新的工作环境、工作过程和管理模式的信息获取方法。该方法是利用先进的数据挖掘和Web挖掘技术、知识发现技术、人工智能技术和一些管理和决策中采用的现代化技术手段,为企业建立一套适用于Web环境的电子商务信息辅助决策系统,并从大量的Web数据中进行智能地、自动地提取出有价值的信息和知识的方法研究。

2Web挖掘与商务智能

在商务智能的应用中,涉及到许多学科和技术领域,研究的内容与应用包括电子商务系统的高可用性、电子商务系统的可扩展性、电子商务系统的可管理性、电子商务系统的安全性和电子商务系统的数据保护等等方面。然而,商务智能化却将这些方面的应用推向更深层次,如智能CRM,智能EAI、智能ERP、智能KM等等。

由于电子商务环境为企业提供了基于Web的协作和联盟的基础,因而可以借助于现代信息技术平台将整个企业动态联盟中的数据方便地整合,汇集各种生产和经营数据,特别是Web信息和Web访问数据。企监经理们知道这些堆积如山的数据可以提供潜在的、有用的和新颖的知识,但传统的处理方法可能并不适用。Web挖掘则恰好是针对异构的、分布的、海量数据的,这使得电子赢务系统中的各种与Web信息处理有关的智能应用可以有机地结合起来。

2.1Web挖掘的进展

Web挖掘(WebMining),也称为“Web挖掘”,是指从大量、异质的、分布的Web文本或服务中自动抽取信息和发现规律的过程。这些获得的信息和规律是有效的、新颖的、潜在有用的,以及最终可理解的模式,它是数据挖掘研究在Web领域的扩展。

2.2Web挖掘的分类

大多数学者认为Web挖掘可大致分为三类:

(1)Web内容挖掘(WebContentMining),是从Web数据和文本内容巾推断或查找信息,Web内容挖掘吁分为两种,IR(InformationRetrievai,信息提取或信息检索)和DB(DataBase),IR是自动地从Web资源巾提取相关文本并且使得不相关的文本尽可能地少;DB则是设法对Web超文本数据建模并加以整合,以便适于更复杂的查询和获得不仅仅是关键词可以查询获得的信息。

由于Web文档本身是学结构化或无结构的,且缺乏规范的关键词,另外Web文本的存储结构也不同于传统的数据库。因此传统的数据挖掘中,局限于数据库中结构化数据的知识发现和挖掘方法并不适用于Web挖掘,而且传统的DB数据建模方法也同样不适于Web数据建模。Web信息库体系架构的研究是希耀在这一领域提供一致的、交互的、可视化的访问途径的方案,结合标准的Web数据挖掘语言的建立,以及基于自然语言的智能的关联词检索方案的研究都在进行。

(2)Web结构挖掘(WebstructtlreMining),是希望从Web的链接结构中发现模式,这些模式是基于超链接的拓扑,有或没有关于链接的描述。此模式可用来对Web页分类,或通过其链接发现贞问相似的关系,或站点间相似的关系。通过Web结构挖掘可以发现对某个主题的权威站点或“轴心”站点(Hob),从该站点可以辐射到多个网络中心或权威站点。

由于Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘可以是针对Web结构的。对W曲链接结构的挖据可分为蕊种,一种是基于用户访闻的链接模式的研究,从中发现有用户访问规律和进行动态链接结构调整是其研究的内容;另一种则是基于刚站管理和制作者的毛页设计的链接结构分析,例如发现轴心网站和权威主页排序的分析方法正是基于这种考虑。

(3)Web使用挖掘(WebUsageMining),则是从网络多层应用的第二层数据中提取信息,如Web服务器访问日志、代理服务器访闻曩志、浏览器访问日志、用户档案、注册数据、用户会话过程记录或交易记录、COOKIES、用户态询语句、收藏夹、鼠标点击和滚动事件、其它交互的数据以及Web数据库数据等等。这方面的挖掘一般认为经过过滤和处理后属于传统的数据挖掘范畴。但在实时发现(RealtimeRevelations)、随时间滚动和可伸缩的挖掘算法上的研究仍是重要的研究领域。

Web挖掘在商务智能中的应用则为利用人的智慧或将人的智慧融合于在现有的商务和技术基础平台上,创造新颖的交易方式、管理模式和获取商业利益的最佳途径提供了便利的辅助决策工具和知识获取手段,可使企业改进服务质量、提高经济效益,降低生产成本,取得竞争优势。这对于我国企业的发展,迎接WTO挑战,发展我国国民经济都具有十分重要的现实意义。

3面向Web的数据挖掘在商务智能中的应用及趋势

在商务智能应用中,面临的首要问题是建立了可靠的基础架构之后并不等于能提供竞争性的优势,企业如果不能及时捕获商业信息,不能预测用户需求的改变趋势,不能快速响应客户的请求,仍可能无法生存。第二,电子商务站点的成功不能仅用点击率和页面访问率衡量,最新的研究表明是否能吸引本企业经营所需要的客户,提供足够的资源支持客户的请求,维护可为企业带来商业利润的客户的回访率才是关键,因此公司需要智能化的方法追踪站点的访问者和他们的行为。第三,如何了解客户对自己经营业务的兴趣点,确定什么对你的客户和供应商来说最重要的,以便提供网站内容和链接的调整,业界领先者将通过各种渠道了解客户和客户群,并提供有针对性的个性化网站、个性化产品、内容和服务,而这种个性化的研究也已经向着更深层次发展。

3.1识别潜在的变化模式并及时做出响应

在商务运作中,最重要的是要未雨绸缪(Knowbeforeaction),及时了解客户的行为和特征并预测客户行为。使用WebMining的链接挖掘技术可以进行路径分析(PathAnalysis),发现拥挤的链接路径并做相应调整,如客户访问路径分析可以发现客户访问Web页的顺序和方向,对多数访问但路径较长的链接,应改进路径设置,以减少网站不必要的通信流量和拥堵;使用WebUsageMining技术,可结合各种传统的数据挖掘方法,例如可以用OLAP形式的多维汇总、挖掘钻取报告,识别潜在的变化(如访问模式、变化趋势、用户群分析等),可进行客户信用分析、用户流失分析、欺诈防范管理、风险管理、安全监测和黑客跟踪等;使用WebContentMining可以对用户查询词汇进行分析,了解用户通过什么途径与本网站建立的连接以及使用各种词汇的频率,通过此,也可以了解本企业的什么信息对用户更有吸引力,为优化网页设计提供依据。

3.2对网站访问者具有鉴别力

作为电子商务运营的网站,特别是在我国基础设施还不完善和相对昂贵的情况下,如何利用现有的网络基础平台和有限的带宽,为本企业经营所需要的客户提供足够的资源支持,维护可为企业带来高额商业利润的客户的回访率才是关键。可用Web挖掘方法提供Web性能分析(WebPerfomance),当网站的无效访问增多时,可以分析无效访问来自哪个路径,将其取消或迁移;“死链分析”则是利用Web链接结构挖掘技术,分析网站中哪些链接是用户不访问或不能访问的“死链”,它们是本网站中无用或无效的信息,将其从网站中剔除,可提高整个网站的访问效率,使得网站经营者更确切了解本网站的特色产品或信息;客户关系管理(CRM),其中的大客户关系管理即是针对不同客户提供的有区别的服务,如对B2B客户或用Web分析方法识别出高额利润客户(群),而提供的定制服务和特别链接等,可削减冗余用户,并保证正常用户的有效访问和资源的优效利用。

3.3动态的网站设置

使用Web流量分析(WebTrafficAnalysis)和会话分析(SessionAnalysis)可以提供收视率分析报告和时段租用服务,为有效地利用黄金时段提供网络广告和商务信息提供服务质量保证(QoS)。结合用户浏览行为分析,还可动态地自动调整网页设置,达到最佳效果和最高效益。

3.3Web挖掘住供应链管理中的应用

在电子商务中,供应链管理(SCM)是当前的热门应用领域,供应链通常由原材料供应商、零部件供应商、生产商、分销商、零售商和运输商等一系列组织所构成。它涵盖了企、№生产活动的三个主要方而:采购、生产及地区配送。这三个方面中,中间的企业内部生产组织中的活动已经有许多传统的管理方法(如TQC、JIT、ERP等)和数据挖掘方法完成,这些方法使得企业内部生产变得“精益”起来,而位于生产两端的各种活动,如零部件供应管理和产成品的流通配送,则成为供应链上的“非精益”环节。而来自它们的信息是基于Web的。因此Web挖掘住其上游和下游领域的应用还远不及在电子商务站点建设中的应用广泛和富有成就。在这方面的数据集成标准的制定、挖掘算法的形成、应用范围的探讨还有待研究。

4我国具体环境下商务智能应用应采取的对策

由于电子商务发展的不平衡性,特别是我国这样的发展中国家,普遍缺乏发达国家高速和先进的基础平台,必须改善自身的电子商务环境、社会认识,使之与数字化信息活动相协调,在考虑结合中国国情及国际接轨的问题时实现跨越式战略。

在电子商务智能应用的实施过程中,应本着寻找针对本企业现实情况容易实现的方案,而不是什么先进就上什么。实现跨越式战略是在学懂、消化的基础上,及时引进先进的技术而不是落后的或过时的技术,否则花费了大量的资金,收效甚微,以致于企业无法生存。尽量采取逐步到位的措施,边实践、边检验,并可及时调整战略和提出适合本企业的修改方案。

做电子商务智能应用,虽然有很多厂家可提供良好的服务,但企业仍必须利用自身具有行业知识的特长,在学习新技术的同时创造出自己的管理模式和经营理念,借助于商务智能领域的专家或公司的技术人员,可以把国内外的先进技术和经验改造成为自己所用、为自己创利的工具和武器。

5基于Web挖掘的商务智能产品或系统

目前,已有许多厂家提供带有商务智能的数据挖掘产品或Web挖掘系统,有些只是提供部分常用功能或单一功能的工具型插件,而有的则提供从内外部数据资源整合到各种算法齐备的解决方案。有的只适合中小型商务系统,即它的算法或数据支持的力度不能超过某个限额,否则将降低效率或运行不稳定。

下面是数据挖掘权威网站www.KDnuggets.com对数十种WebMining工具进行的网上测验结果。这数十种工具包括很多有名的和新创的WebMining产品,如dtSearch、IBMI-MinerforText、SAS、SPSSClementine、WebTrends、ANGOSS、EasyMiner、TextAnalyst、TextQuest、TextSmart、……,等等,于2000年1月16~2月2日期间,对287名网上投票者进行的测验结果(仅列出了前九名):

这些Web挖掘系统大多出现在20世纪90年代宋期。其中的挖掘技术和发现算法仍然在改进,包含的算法一般膂关联规则和序列算法,聚类,神经雕络、贝时斯方法、数据可视化、Web文本挖掘等。

为适应企业和商务用户的需求,它们一般都采用了组件技术(COM/DCOM)和主体技术(Agent),提供了可直接使用的数据挖掘应翊和解决方案,但所谓的直接使用性只能面向专门的商务或业务问题解决的。如探测信用卡诈骗、预测用户行为等。

这些解决方案调用了知识发现的全过程,包括数据准备阶段,数据挖掘和知识发现过程,甚至可调用历史遗留数据库系统,和把分析结果转化为前端应用的输入等,并提供了专门给商务或业务用户的界面,设法隐藏所有挖掘和发现任务的复杂性。

现以SAS公司最薪推融的商务智能工具E-Intellgence和Web挖掘工具Webhound(网际猎狗)作为示例,向与会者展示商务智能领域的最新研究成果。其具有代表性的方面有:

这套软件提供了一个鼠标点击的环境,和三级应用服务器的体系结构,用户不需要具备大量的专业知识,只需要按照最基本的SEMMA方法论,用拖拽图标的方式,遵照抽样(Sample)、探索(Explore)、建模(Modeling)、修改调整(Modify),评价(Assess)这五个步骤进行,能够在很短的时淘内学会操作这套系统,并集成地应用各种挖掘工具进行分析。

5.1会话分析(SessionAnalysis)

5.2树型图(Treeview)

图中鼠标点击处显示google.com搜索引擎处有12个查询OLAP关键词的访问会话被引向www.SAS.com网站,如图2所示。

5.3高级Web挖掘分析(AdvancedAnalyticDataMining)

用户不需要具备大量的专业知识,只需要按照最基本的SEMMA方法论,用拖拽图标的方式,能够在很短的时间内学会操作这套数据挖掘系统,并进行集成应用各类工具。

6结束语

目前,Web挖掘技术和知识发现技术正在向全球展示了一个全新的机会和挑战。它是当前相当活跃的研究领域和应用领域。其应用范围包括银行、生物信息、客户关系管理、健康与保险、人力资源、Internet服务、电子商务、保险业、风险投资、制造加工、通信行业、市场促销、体育与娱乐等等。

在电子商务环境下的企业经营过程中,Web挖掘可提供基于Web的最及时和有用的信息,如供货厂家的信息、生产厂家的信息、销售渠道的信息、竞争对手的信息、开发市场及技术信息等等,发现潜在的、有价蕊的信息或知识,形成知识资本,支持管理和决策,在激烈的市场竞争中获取竞争优势。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们