您现在的位置是:首页 > IT基础架构 > 计算存储 >
分层存储中数据迁移的重要性
摘要将所有相关人集中到一起进行会议讨论,这样所获得的对你将要处理的数据的理解,是数据分类工具所不能够给你的。所以,有两个方面你需要考虑:它们是什么,即理解目标数据是什么,谁拥有这些数据;还要理解这些数据是什么,它们对相关的业务部门有什么样的意义。...
分层存储可以让企业将其数据优化分布到低成本的存储介质中,以便腾出高性能存储介质空间,以此优化性能和节约存储容量。由于数据迁移策略对最终的实际效果有着重要影响,所以企业必须着手对分级策略进行优化。
本文中,Taneja集团高级分析师Jeff Boles接受了SearchStorage的采访。他将讲述一些分层存储背后的商业驱动,同时还会谈到分层存储面临的挑战,如数据迁移等。
SearchStorage.com:企业涉足分层存储的可能性是什么,企业为什么想这样做呢?
Boles:分层存储的概念已经存在一段时间了,其发源可以追溯到HSM(Hierarchical Storage Management,分层存储管理)的时代(译者注:在上世纪70年代IBM就提出了HSM的概念并应用到其大型机当中)。而在今天的文件存储(译者注:与早期大型机数据管理时代相对比)时代,面对逐渐失去控制的容量需求和逐渐扩大的性能需求,进入分层存储在解决数据管理效率问题上是大有裨益的。
如果你能够将所需数据放置到相应的存储介质中,那么你就可以利用诸多的存储层次来调整你的存储管理方式以及优化管理资源。比如,在数据备份管理中,如果你能够将较老的根本不太被使用的数据扔到一个你不需要花过多精力去维护的地方,那么就可以在主存储的备份工作中获得优化效果,大大降低备份所需要的时间和精力。这种思想会对存储的各方面均有效果,不管是容量还是性能方面。
分层存储可以提升整体的效率而且还可以降低操作成本。但是部署分层存储这项工作本身也需要一定的费用。如果你想对你的存储系统进行分级,那么你首先可以考虑购买一些大容量低成本的存储介质,用在近线存储中,来存储一些归档数据和其他一些较少被使用到的数据。你还需要考虑利用分层存储来优化你的存储系统,特别是面对失控的容量需求时,如果你不寻找一个更好的方法的话,那么你只能在系统中增加更多的NAS存储设备来保存日益增长的数据。
SearchStorage.com:分层存储目前面临的挑战有哪些呢?
Boles:如果你是首次在系统中引入分层存储,那么将会面临不少挑战。有些是与架构相关的,比如“在你的现有IT基础设施架构之下,想要怎么部署分层存储?”。如果只是将存储系统简单的按照需求划分为各种层级,那么单纯分层决策是很简单的,但是要规划出如何在不同层级之间迁移数据,以及迁移之后如何长期维护和管理,就是一个极具挑战性的问题了,因为市场上有诸多可供选择的产品和方法。
你可以选择使用带内(Inline)设备,比如F5 Networks的Acopia交换机。你也可以引入带外(Outline,Out of band)方案,它们可以在非生产时间迁移数据,或者在当前的存储网络中引入一个带外引擎来负责数据分级。你也可以选择一些支持当前厂商特定API的解决方案,比如文件策略、主存储重新定向到近线存储。你也可以使用Stub File的方式(译者注:一些简单的文件迁移分级工具就是使用这种方式,比如IBM的Tivoli for HSM)。
市场上有不少的选择,它们中大部分都是在架构层面上作部署。还有,这些解决方案都考虑到了一些最近炒得比较火热的技术,比如云存储或者SSD等,这些新技术可能会对性能有些帮助。但是最重要的其实是你将如何将数据放到那,当数据被迁移到目的地时如何访问它们,以及你将如何长期维护和管理这些数据,即,将存储系统分级之后,如何在诸多层级之间连续的迁移和维护数据。
数据迁移最终会落实到选择具有何种功能的引擎。你是想选择一个插入到你现有的NAS访问路径中来移动和处理数据的带内解决方案呢,还是需要一个带外解决方案呢?是需要一种间歇性的数据迁移方案,还是一种持续不断的实时的迁移方案?你是想完全手动的管理数据分级呢,还是想指定一定的策略来自动的为你迁移数据呢?
另一个方面则是你将如何访问分级之后的数据。你想通过stub file(译者注:占位符文件,桩文件)的方式访问么?在不同的实现方法中总有一种倾向性,实话实说,我并没有看到这些不同实现方式之间到底有多少本质的不同。你可以选择任何一种方式,选择某种方式的考量因素则是你心中的设计思想,你想要花多少功夫来维护它们,以及对应解决方案中到底有多少需要担心的地方。
SearchStorage.com:在数据迁移过程中,企业的分层存储目标会如何起作用?
Boles:目前有很多的不同的数据迁移策略和目标。目前为止,我们已经讨论了“为何”以及“如何”。就我们对存储分级目标的讨论,现在我将要谈一下“何时”来进行迁移。你需要明白何时来做数据迁移,以及是否你非常想对操作进行优化以至于你一直想让系统成为一个动态的、实时的系统。你还需要明白数据分级的需求是你的基础需求还是你只是想将其作为一种静态的、间歇性的需求。
我们谈远一些,你还需要考虑优化“什么”的问题。你需要先了解你的数据,想出你要怎么来处理这些数据,将其迁移和分级。问题本身并不是很难,但是想真正做到了解和规划出一套方法,那就是很有挑战性的工作了。看看市面上的那些文件分类工具,就可以大致了解文件型存储,它们或者仅仅是按照性能将文件分为不同的数据集。根据不同的参数,决定要将数据放到哪里,要时刻保持这种思想方法。
可能还有其他的理由来对存储进行优化,但是这已经不是IT系统所解决的范围了。当你在一个大型企业中要实现数据分级时,需要先调查一下与这项工作相关的所有协作部门,它们的数据都在分级范围之内。而且还需要调查如何尽量在每种类型的数据分级过程中保持平衡和公平,以遵循你预先与这些部门所制定的服务级别。
有某个数据集,它对性能的要求可能并不高,无需放到一级高性能存储上,但是它对安全性和备份保护方面可能是要求最高的,但是现状可能是,只有一级高性能存储才能享受到最高的备份保护级别。如果发生这种情况,那么将会是非常复杂的,需要多个团队协调处理了。你从数据分级所享受到的效率提升是非常巨大的,在大多数企业中,数据分级被定义为一种跨学科的、跨商业部门的工作。
将所有相关人集中到一起进行会议讨论,这样所获得的对你将要处理的数据的理解,是数据分类工具所不能够给你的。所以,有两个方面你需要考虑:它们是什么,即理解目标数据是什么,谁拥有这些数据;还要理解这些数据是什么,它们对相关的业务部门有什么样的意义。
(本文不涉密)
责任编辑: