您现在的位置是:首页 > IT基础架构 > 计算存储 >

不付费升级前提下如何升存储空间使用效率

2012-09-26 10:52:06作者:Michael Zhang 来源:

摘要在Jon William Toigo的有关如何最大化提升存储容量使用效率的系列讲座的第二讲中,也包含了数据归档技术等问题。...

  在Jon William Toigo的有关如何最大化提升存储容量使用效率的系列讲座的第二讲中,也包含了数据归档技术等问题。

  在市场广泛讨论存储空间分配的最优化以及存储空间使用最优化的时候,人们往往会混淆这两个原本不同的概念。

容量分配最优化的意义在于实现即时发现目录管理进程,这也是我们之前讨论过的,利用降低每GB空间成本以及提升磁盘空间占用率这两个方面将帮助我们的用户避免遇到存储空间耗尽的情况。

而存储使用最优化则有着另外的含义:它帮助我们衡量的是磁盘的情况,更准确的表示是是否存放在磁盘上的数据均为有用的数据,同时数据均以应用最合适的形式存放。

磁盘数据优化这个概念相对而言在较早的大型机里面有提出过。如果您较早前接触过大型机,那么应该会知道它包含着三个方面的组件:固定容量的内存,重新优化过的直接访问存储设备(DASD)以及磁带类型。这对早期大型机的工作有着极大的帮助,数据在写入直接访问存储设备(DASD)后,遗留在昂贵的内存里的数据需要尽快回收,之后数据再写入磁盘,并放到指定的位置做保留。

随着时间的推演,很多方面都在发生着变化。但是在70年代磁盘阵列的市场占有率比直接访问存储设备的要小,并且价格及易用性上也没有后者方便,此外,外部磁盘存储在电力的使用上也在不断增加成本,在当时的美国很多地方还暂时没有足够的电力供应。

于此同时,生产出来的数据总量也比早期时候企业使用的数据总量要多很多,据当时的报道,有多处20多EB数据。这也反映了至少在过去的十年里,宣传“磁盘存储替代磁带存储”的概念是成功的。

底线:不受约束的数据增长,一切都写入磁盘以及能源成本的上涨这三方面的因素共同引发了新的讨论。再次发现在谈及数据存储问题的时候,我们又一次的陷入了空间与成本的圈子。大多数行业目前都是在购买大容量磁盘的同时也使用数据消重或者压缩技术来降低大磁盘的购买量。但这最多也只是找到了一个治标不治本的方法来提升了存储的数据存放能力,不管里面是否为有效数据。这也最终将影响存储的性能及数据存储架构的伸展性。

最合适的解决这个问题的方法是找到问题的根源,数据本身或者同时也包括了我们对存储介质的选择,例如磁带。

使用数据归档技术来清理“存储垃圾箱”

与存储容量效率提升相关的很大一部分实践是由数据归档操作完成的。归档的概念本身不难理解:将较早且不经常访问的数据进行消重处理,然后放置到更大容量且可靠性更高的后端归档存储设备上,这类存储的特点是成本不高。然而这类做法经常会遇到阻碍,通常来说,相信没有人会愿意承担执行归档规划或者决定哪些数据合适迁移到归档设备上。往往会听到类似“这类决策类事情将会超过我的职能范围”这样的说辞。

但要是没有归档策略,存储垃圾将会继续增长。基于对超过3000家企业中存放在磁盘上数据的调查,我们发现仅有30%左右的数据是真正“活动”的,这里对“活动”的定义是它是用于核心业务上的数据,而其他数据中的40%被认为是保留着但几乎没有什么日常访问的。导致这样问题存在的可能性是多样化的,重复数据,数据本身的拥有者已经离开企业等等。但假想如果我们有了归档的内容,我们甚至可以将70%的数据释放出来,届时也将大大减少对大容量存储容量的需求,而这些需求的数字往往是惊人的,比如未来三年有300%到650%的增长。

对实现大容量存储下归档模式实施的方式其实有许多种,其中一种比较简单的方式是使用存储资源管理(SRM)软件来实现,它能帮助用户了解哪些数据是过去90天没有访问过的,并根据用户/创建者/所有者分类。之后就可以将报告分发给业务部门经理,他们将有权利请他们的下属决定哪些数据可以被归档,哪些数据可以被删除。之后就可以通过归档的手段将做过标记的文件迁移到更为廉价的存储空间,例如磁带。

另外一种更好的方法是在业务部门相关的数据创建时就进行文件分类。许多产品都可以与微软的AD集成,并可以对不同的存储创建多种规则。对于微软公司本身,也有一套名为“文件分类架构(FCI)”的系统与他们的服务器做整合,通过使用这套工具可以实现以日后归档为目的的文件数据的分类。

此处的重点是基于文件的数据,这并不是说数据库类型数据就不需要归档了,而是文件这类非结构化数据实际已经为文件及其元数据提供了有用的结构化属性,对后期建立归档是非常有帮助的。

磁带技术为用户提供了更好的数据存储密度,并节约了成本和能耗

基于文件形式的归档也同时为我们重新思考归档提供了机会,将那些不常用的数据通过文件服务器的形式存储,从成本的角度考虑最好的支持文件服务器的归档形式是磁带。

最近有关磁带技术的发展是关于磁带分区可以实现文件指针的索引过程,带来的好处为对特定文件的快速访问。这项技术也被新型文件系统所利用,例如线性磁带文件系统(LTFS),可以前端以NFS或者CIFS/SMB协议的方式,不管是磁盘NAS还是磁带NAS。用户可以通过网络与这些数据进行交互,自然也包含了极少访问的归档数据。此外,那些交大的数据块文件,例如基因图组等,其访问速度甚至比基于磁盘的存储更快。

从磁带容量的发展过程来看,可以支持30-70年的数据,目前IBM和富士通已经发布了32TB的磁带,目前市场上也没有其它存储平台课与之媲美,尤其是在数据存储密度,成本及能耗角度。基于磁带的NAS归档也是磁带使用中另外一种形式,尤其是对于那些没有磁带库的用户,是时候可以考虑了。

就目前为止,决定存储使用效率的最终还是来源于容量的使用效率上,不管这种看法是来自于运维角度还是成本角度。在目前这种基于磁盘存储成本上升的趋势下,存储管理员们可以考虑一下其他解决方法了。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们