您现在的位置是:首页 > IT基础架构 > 软件与服务 >
大数据时代的数据仓库
摘要数据仓库一直以来更多是关于分析和管理,而不仅是简单的大容量存储。那么,数据加载量在不停地增加让甚至在目前最先进的仓库平台也接近了它们的极限就不足为奇了。 ...
数据仓库一直以来更多是关于分析和管理,而不仅是简单的大容量存储。那么,数据加载量在不停地增加让甚至在目前最先进的仓库平台也接近了它们的极限就不足为奇了。这就给像Attunity这样的小公司提供了机会,用专业处理大数据的技术和工具增加像Teradata 和Greenplum这样的主导系统。Attunity公司的Itamar Ankorion勾画出了他们的策略。
目前如此大量的数据运行于企业之中,似乎有效的数据仓库(Data Warehouse)只是变得更加复杂了。你所听到的客户关于数据仓库中的最高挑战是什么?
有效的数据仓库由于一直增长的大量数据确实变得越来越复杂。更重要的是,由于业务对快速数据仓库的需要,事情变得更加复杂化。这种高容量和低延迟的组合造成了传统工具不能解决的挑战,而客户正寻找能让他们适应这种变革中的业务和IT环境的技术和流程。
在解决这项需求时所面临的主要挑战之一,是无法在给定的时间内移动必要的数据量。例如,让业务交易后一个小时,甚至几分钟到几秒钟后就得到数据,一个传统的批量处理的提取、转换与加载(ETL)的过程需要四个小时或更多的时间来完成将是无法接受的。其他相关的挑战是在加载到数据仓库时要减少在操作系统上的影响。因为提取数据运行大的查询会降低该操作系统对使用者和客户的服务,这又是不能接受的。大交易数据需要适合通过一个小时间段的这个想法极好地描述了大多数设法解决现代信息管理策略的企业所面临的问题。
一般企业系统需要更加习惯于不断增加的各种终端用户设备。数据仓库需要怎样的发展去适应新的环境?
从各种各样的用户设备上访问数据仓库中的业务信息,影响到数据仓库的工作量以及它所需要支持的信息。从工作量的角度来看,例如,使用设备会需要大量的小查询,这就需要在很低的延迟下跨越地域进行回答。从信息的角度来看,用户使用移动设备希望无论在任何地方都能立即访问到信息。而不只是信息,还是最新的信息,这让我们又回到低延迟的数据仓库,而且需要很快地加载信息好让用户可以任意和历史内容一起访问交易数据。
你最近在你的平台上增加了变化数据捕捉(CDC)和复制的功能。它将以何种方式增强对像Teradata这样的现有数据仓库环境的分析和管理?
Attunity提供了带有Attunity Stream的变化数据捕捉(CDC)以及带有最近发布的Attunity复制(Attunity Replicate)系统的数据复制两种产品,能够实现低延迟的数据仓库。通过增加数据整合能力对之前所提到的挑战的解决,以及低延迟的加载数据和低影响的需要的处理,这两个产品都是对像Teradata这样的现有数据仓库平台的补充。要注意的重点是不同的任务需要不同的工具,因为没有一个工具是万能的。当传统的提取、转换与加载(ETL)工具批处理加载很好用时,企业需要补充那些促进效率和频繁的大交易数据加载的技术。
变动数据捕捉(CDC)使变动数据的处理成为可能。而利用像Attunity Stream这样的基于日志的变化数据捕捉(CDC)技术,对源数据库服务器产生最小/边缘的影响。变动数据捕捉(CDC)通常是用来补充提取、转换与加载(ETL)及其他批处理的。
数据复制已经成为一种将交易数据移动到数据仓库中的解决方案,特别是在近实时的情景下。数据复制最佳地快速拷贝数据并能确保交易的完整性。此外,它在从提取、转换与加载(ETL)向ELT(数据先复制到数据仓库然后再转换)的转变的更广泛的趋势里也起着非常重要的作用。这个方法对于像那些由Teradata 或EMC Greenplum提供的强大数据仓库特别有吸引力,因为它们让客户受益于这些机器的功能,降低了转换数据的高容量服务器的拥有成本。
我们看到,变动数据捕捉(CDC)或数据复制技术可以用来创造一个更为稳健的数据管理和整合环境,尤其是对最新的以及自动化决策的支持。
(本文不涉密)
责任编辑:
上一篇:BI的智能报表 报告应用日益普及
下一篇:数据仓库主要目标:保持数据价值