您现在的位置是:首页 > IT基础架构 > 软件与服务 >
数据仓库中元数据标准的对比研究
2009-10-20 19:06:00作者:李珊珊 陈维斌来源:
摘要本文从用户的角度分类了数据仓库的元数据,在分类的基础上比较分析了奋共仓序元模型CWM(Connunon Warehouse Meatamodel)与开放信息模型OIM(Open Information Model)这两个元数据标准,最后讨论了CWM标准在实际开发工作中的作用和发展趋势。 ...
引 言
元数据是描述数据的数据。数据仓库与元数据之间的关系就像是图书馆和图书目录的关系,有了图书目录,读者才能更简捷、更清楚地查找所需要的图书,而且,图书管理员借着图书目录也能更方便地管理图书。事实证明,数据仓库的成功操作和使用很大程度上依赖于海量元数据的有效管理。元数据贯穿了数据仓库的创建、维护和管理的各个方面,描述了与数据仓库所有相关方面的数据。
1 元数据的分类
从用户的角度可以把元数据的内容分为技术元数据和业务元数据。
技术元数据,由数据库管理员、数据库设计者和程序员使用,是关于数据仓库系统技术细节的元数据。主要包括以下方面:
(1)可操作的数据库、数据仓库和数据集市的模式。可操作的数据库系统模式是异构的,有面向记录的、面向文件的、关系的、面向对象的、多层次的和网状的等模式。而相反的,在数据仓库和数据集市中,模式是一致的、协调的,或是关系型的或是多维的模式。
(2)不同的操作数据派、数据仓库和数据集市之间在物理和实现级上的映射和依赖关系的描述,包括从不同的数据源到数据仓库的抽取、清洗、转换过程的信息。
(3)管理目的的元数据,包含了为了协调性能的系统统计(CPU和I/O的需求,……),数据刷新,数据清除和存档的相关信息等。
业务元数据,由业务经理和业务分析员等使用,帮助业务用户理解数据含义和支持面向业务的数据分析。主要包括以下方面:
(1)企业概念模型,定义了主要的业务信息对象、对象间的关系、整体约束(业务规则)等。
(2)业务术语,描述了终端用户熟悉的、定义一致的企业模型。
(3)业务术语与数据仓库或数据集市之间的映射信息,便于面向业务的数据存取,如用业务数据来代替专业的查询语言SQL。
(4)对预定义查询、报表和数据立方体的理解,与此相关的元数据还有数据负贵人、数据所有者、创建时间、更新频率、相应的主题和业务领域等。
(5)数据挖掘,由于业务元数据通常明确地描述了语义关联和专有的业务概念层次关系,因此,基于元数据的假设、生成和结果过滤可以支持数据挖掘。
2 MDC的OIM和OMG的CWM的比较与分析
2.1元数据标准化的必要性
典型的数据仓库和业务分析环境通常都是根据信息供应链ISC(Information Supply Chain,Kimbal 1996)来描述的。这个比喻反映了在该环境中信息流动的实际情形:从源头(即原始数据的提供者)流出,通过一系列的精练过程,最终产生对企业决策者具有很大战略价值的信息产品。而每一个精练过程都是通过使用一个或多个与该步骤特定目标相关的软件产品来实现的。为了有效地实现一个ISC,其各阶段的不同的软件工具和产品都要依赖元数据来描述它们需要处理和转换的数据,所以对该数据的元数据必然要有一个共同的理解,也就是元数据应集成。
在元数据没有标准化之前,我们是通过建立元数据桥来实现拥有不同元数据的工具间的集成。元数据桥是一种能够将一个产品的元数据转换成另一个产品所要求的格式的软件。元数据桥的构造不仅必须具备与其集成的每个产品的元数据结构和接口的详细知识,而且,还要掌握不同模型如何互相映射的知识。更复杂的是,需要对每一对产品类型都建立一个元数据桥,桥的这种不可重用性,大大降低了数据仓库的投资回报。
如果有了元数据的存储和交换标准,每个软件产品只需要实现一个元数据适配器(软件层)来取代元数据桥。这个元数据适配器对每一个指定的产品都只需创建一次,因为所有的产品都使用公共的元数据标准。
2.2 元数据标准化的发展
早在1993年,电子信息组织EIG就发布了计算机辅助软件工程数据交换格式CDIF。随后的两三年相继有多个研究机构发布了相关的标准。
到1996年,元数据联盟MDC发布了元数据交换规范MDIS V1.0。 MDIS定义了一种与特定产品无关的元数据交换机制,支持MDIS的工具之间能自由地进行元数据交换。与此同时,微软公司也联合了其他一些合作者开发了开放信息模型OIM,并于1996年10月,形成T OIM草案。1998年11月,微软加入MDC并向其提交了OIM。随后,MDC于1999年7月发布了OIM V1.0。
1998年9月,对象管理组OMG发布了征求意见搞,要求以现有的元数据和存储体系结构技术标准(即UML、MOF、XMI)为基础,制定公共仓库元数据交换规范。一些OMG成员组织(如IBM、Unisys、NRC和Oracle等)于1999年9月向OMG提交了公共仓库元模型CWM规范的初始版本。OIM和CWM在竞争中逐步完善和发展起来。
2.3 MDC的OIM和OMG的CWM的比较与分析
OIM的主要目的是通过共享的信息模型来支持不同技术和公司工具的互操作性。OIM采用UML作为基本的描述模型,使用XML作为元数据的交换标准,采用SQL进行数据检索;涉及多个主题域,包括:
(1)分析与设计领域:主要用于软件分析、设计和建模。该主题范围又进一步划分为:UML包、UML扩展包、通用元素包、公共数据类型包和实体关系建模包等。
(2)对象与组件领域:涉及到面向对象开发技术的方方面面。该主题范围包含了组件描述模型包和组件对象模型包。
(3)数据库与数据仓库领域:为数据库模式管理、复用和建立数据仓库提供元数据概念支持。该主题范围进一步划分为:关系数据库模式包、OLAP模式包、数据转换包、面向记录的数据库模式包、XML模式包和报表定义包等。
(4)业务工程领域:为企业运作提供一个蓝图。该主题范围进一步划分为:业务目标包、组织元素包、业务规则包、商业流程包等。
(5)知识管理领域:涉及企业的信息结构。该主题范围进一步划分为:知识描述包和语义定义包等。
CWM的主要目的是在分布式的、异构环境当中,使数据仓库和商业智能的元数据交换在数据仓库工具、数据仓库平台和数据仓库元数据存储库中变得简单。CWM采用UML作为模型描述标准,使用MOF作为元建模和元数据存储标准,使用XMI作为元数据交换标准,CWM共包含21个包,分布在5个抽象程度不同的功能层中。这5个层为:
(1)对象模型层:定义了基本的元模型概念、关系和约束。有核心包、行为包、关系包、实例包。
(2)基础层:给更高层的其他包提供公共服务。有业务信息包、数据类型包、表达式包、键和索引包、软件配置包和类型映射包。
(3)资源层:描述了数据资源的结构。在以CWM为中介的交换中,这些数据资源既可以作为源也可以作为目标。有对象包、关系型包、记录包、多维包、XML包。
(4)分析层:描述的是作用于资源层的包所描述的数据源和目标上的服务。有转换包、联机分析处理包、数据挖掘包、信息可视化包、业务命名规则包。
(5)管理层:提供支持数据仓库日常操作和管理服务的功能。有数据仓库处理包和数据仓库操作包。
下面,我们将用上文提到的业务元数据和技术元数据来比较OIM和CWM。
从表1中,我们可以看出,OIM和CWM都提供了相似的包描述业务信息的一般方面,如数据负贵人信息、正文描述等等;而且,也提供了相似的包对数据分析和知识管理进行建模,如OIM的报表定义包和CWM的信息可视化包。但是他们也有自己独有的包来描述业务元数据。CWM的数据挖掘包,包含了对有数据挖掘活动的结果的描述。OIM的语义定义包,包含了三种语义概念,有实体、关系和字典目录,可描述概念模型。
从表2中,我们可以看出,在数据模式和数据转换方面,OIM和CWM都提供了相似的子包来表示。但是在数据仓库管理这一块,CWM的数据仓库处理包和操作包尽显优势。数据仓库处理包描述了数据仓库中的信息流。数据仓库构件间的信息流是由数据仓库事件触发的。数据仓库操作包,记录了仓库中三类事件:转换执行事件、度量事件和改变请求事件。
CWM实际上是专门为数据仓库制定的元数据标准,而OIM并不是专门针对数据仓库的元数据标准。OIM所关注的元数据范围比CWM要宽,CWM只限定于数据仓库领域,而OIM模型却包括:分析与设计模型、对象与组件、数据库与数据仓库、业务工程、知识管理等5个领域。OIM并不是基于元对象设施似OD的,这意味着用OIM所描述的元数据需要通过其它的接口才能访问,而CWM所描述的元数据可以通过CORBA IDL来访问。
3 总 结
需要说明的是,2000年9月,考虑到业界对CWM建设的支持,MDC成员投票赞成终止在OIM上的工作,从而使业界最终拥有了被厂商广泛支持的、单一的和开放的元数据集成标准CWM、CWM标准几乎涉及了数据仓库各个方面所需要的描述信息,目前也已经被Oracle、IBM、NCR等多家大公司支持并包含进他们下一代的数据仓库与数据分析产品中,所以它最终将会成为未来数据仓库元数据管理的依据和核心。
(本文不涉密)
责任编辑:
上一篇:数据仓库中时间属性的研究