您现在的位置是:首页 > 头条新闻 >
如何以数据瘦身落实节流?
摘要近一年来,存储厂商除开始向企业用户倡导可透过重复数据删除(Data Deduplication)技术缩减其花在采购存储设备的费用等观念外,也开始透过研发或购并等方式强化其的数据去重复化技术产品线。...
面对市场景气未明等状况,软硬件厂商莫不绞尽脑汁的端出各种有可能获得企业青睐的产品技术;就连一向低调的存储厂商也不例外,如更大力的鼓吹可透过删除重复数据等方式落实节流。但企业有必要全盘买单吗?
不景气下的热门储存技术
近一年来,存储厂商除开始向企业用户倡导可透过重复数据删除(Data Deduplication)技术缩减其花在采购存储设备的费用等观念外,也开始透过研发或购并等方式强化其的数据去重复化技术产品线。
其中是以七月中上演的EMC和NetApp两强相争之战最受市场关注--虽然一开始是由NetApp胜出,但最后仍是由EMC以21亿美金顺利买下重复数据删除领导厂商Data Domain。该举意味即便市场不景气,储存厂商也不放弃任何可吸引企业青睐,以及扩张市场的机会。
但比较耐人寻味的问题是重复数据删除技术真有其前景吗?再者,EMC稍早之前买下的重复数据删除软件公司--Avamar--又该怎么办呢?
讨论资料去重复数据删除技术是否有其前景前,得先明了该技术的本质是一种藉由去除重复性数据来减少储存需求的手法。
举例来说,在未导入数据去重复划技术前,如果有人发了一封内含1 MB附文件的电子邮件给公司内的100位同事,那企业后台系统必须因应该附件储存100份拷贝、耗费100MB的储存空间。若导入数据去重复化技术,那系统只会保留一份拷贝,其他的99份拷贝则会以指向实体拷贝位置的指针取代。
也就是说,原先企业得挪出100MB的储存空间方能执行上述动作,现在只要有1MB、或是比1MB稍多一点(含指标)的储存空间即可。
这样的好处是显而易见的。
它除了减少了企业花费在存储重复数据的空间需求外,也不再需要为了(远距)数据复制与传送等动作而投入巨资打造高网络带宽。因为,透过数据去重复划技术移除重复性的数据(亦即完成数据瘦身)后,无论是数据备份或异地数据复制皆可比以前更快完成。
整合既有存储技术
由于重复数据删除技术可以档案、区块与位等3种方式进行。其中是以档案的去重复化最没有效率。至于以区块和位的方式进行数据去重复化的技术虽然效率极高,但也存在一个问题:需要更高的运算能力。
这与以区块或位的方式移除重复性数据的作法是以MD5或SHA-1等哈希算法检视档案内容的方式有关。由于该种作法是透过为每一组数据编列一个唯一的哈希数字组,并以此作为比对索引,系统只要一发现被编列为一样的哈希数字组,即会进行数据删除;因此,为避免哈希碰撞问题不断发生--系统不小心将两组不一样的数据归类成相同的哈希数字组,并放弃储存被编列为相同哈希数字组的数据--通常会透过结合数种哈希算法、或是检视中介数据等方式降低哈希碰撞的发生机率。
而该种做法意味着企业必须有极强的后端运算资源执行以哈希算法删除重复数据的重复数据删除技术,并且有足够大的索引数据库追踪个别的数据组。因此,基于现实的考虑,决定要导入重复数据删除技术的企业多半会选择将该技术与传统的压缩或变动差异等作法整合在一起使用。
两种主要的产品型态
就目前的重复数据删除技术产品来说,大约可分为软件和硬件两种。
前者是指在备份服务器上安装代理程序,利用备份服务器的运算能力将数据去重复化后再备份。这种方法除在企业进行全备份时会明显拉长备份时间外,如何区隔在同一部服务器上的备份软件与数据去重复化软件的责任也是一个潜在的维护问题。
至于后者则是指安装独立的硬件装置执行数据去重复化软件。当然,随着该硬件装置在备份环境中的位置不同,其产生的的影响也会有所不同。
简单来说,一种是先备份再去重复化,另一种则相反。前者不会影响备份完成的时间,后者则使用较小的磁盘空间。
另外,由于数据去重复化技术与数据备份作业的关系极为密切,因此有一些虚拟磁带的制造商开始将数据去重复化技术整合至其销售的虚拟磁带产品。笔者以为,对那些尚未建置虚拟磁带环境的企业来说,若是能趁着有需要时一次引进两种技术也是个不错的选择。
仅采用新技术还不够
从近期各大存储厂商的动态来看,其似乎有志一同的看好数据去重复化技术。但笔者认为,无论是哪一种储存或备份技术,其产生的效益皆是「视情况而定」,也因如此,恐怕企业无法单纯的以数据去重复化技术为那些已储存的数据瘦身、进而节流。
以数据去重复化技术来说,由于数据类型、数据变动率与重复性数据的数量等数据内容,要以全备份、间备份或差异量备份的方式进行数据备份,以及企业打算将备份数据保留多少时间等因素皆会左右该技术功效,因此,企业若是抱持引进该技术即可无碍的将肥胖的数据彻底瘦身一番的预设心态,恐怕会陷入结果不如预期的窘境。
既然如此,企业到底该如何透过删除重复数据落实节流呢?除了先花一笔大钱导入重复数据上次技术外,笔者建议企业或许可以先透过一些的手法将庞杂的已存储数据瘦身一番,其后再考虑是否要进一步采购其他的存储软硬产品。
(本文不涉密)
责任编辑:
上一篇:模拟真实环境 破解云安全谜团