您现在的位置是：首页 > IT基础架构 > 计算存储 >

详细剖析重复数据删除技术的三大关键疑问

2008-12-17 18:19:00作者：月之暗面来源：

摘要基于软件和基于硬件的重复数据删除哪个更好？In-band和Out-of-band的区别是什么？文件级和块级的优缺点是什么？...

问：关于重复数据删除产品，我想问的是基于软件的重复数据删除和基于硬件的重复数据删除哪个更好了，它们各自的优缺点是什么了?

答：基于软件的重复数据删除旨在消除源的冗余，而基于硬件的重复数据删除强调存储系统本身的数据削减。虽然基于硬件的重复数据删除无法提供带宽补偿，而在源中进行重复数据删除中有可能获得带宽补偿，但是基于硬件的重复数据删除的压缩级别通常会更高，并且基于硬件的重复数据删除产品需要的维护更少。

硬件重复数据删除设备以它们的高性能、可扩展性以及相对不间断的部署而备受关注。正常情况下，备份软件会将专用设备看作是一种一般的“磁盘系统 ”，并且完全不会发觉其内部正在进行的重复数据删除进程。小型企业或远程办公通常会避免使用设备，因为这些设备的费用要比用软件来实现重复数据删除的费用高，但是，它们确实是企业级部署的理想选择。

基于硬件的重复数据删除也可能融合到其它存储(目标)平台上。例如，重复数据删除经常是VTL系统的一项功能之一。VTL系统通过使用磁盘而不是磁带进行存储，从而提高备份任务的速度，而且，添加重复数据删除使VTL磁盘使用率达到最大。在很多情况下，VTL重复数据删除是作为一种out- of-band进程来执行的。这是其一项优势，因为所有VTL的内容都可以通过重复数据删除技术以达到很好的压缩比率。不好之处在于重复数据删除不是实时的。然而，一些VTL系统在接收到备份服务器的数据之后，引入了in-band重复备份数据删除的处理能力。

问：我听说基于硬件的重复数据删除产品中有In-band和Out-of-band两种功能，请问这两种功能的区别，哪种更好了?

答：首先，让我讲讲基于硬件的重复数据删除产品的好处：基于硬件的重复数据删除产品能减轻与基于软件的重复数据删除产品相关的处理负担。重复数据删除功能还被融合到其它数据保护硬件中，如备份平台、虚拟磁带库(VTL)系统甚至通用存储系统像网络附加存储(NAS)等。通常这种方法并不旨在缩小备份窗口或恢复目标，但是一般而言，用户能借此达到最高的压缩级别，从而创造最大的可用存储空间。

至于你提到的In-band和Out-of-band两种更能哪种更好，只能说各有各的优点。下面是这两种功能的区别和各自的优点：

in-band重复数据删除在数据写入存储器时削减数据。尽管进程处理需要额外的处理能力从而可能扩大备份窗口的大小，但是in-band重复删除是有效率的，因为它只执行一次。

out-of-band重复数据删除是在数据存储完之后执行。这种方法不会影响备份窗口的大小，并且能缓解对CPU进程处理的关注，从而避免在备份服务器和存储器之间产生瓶颈。然而，out-of-band重复数据删除在执行过程中使用稍微多一点的磁盘空间。还有，out-of-band重复数据删除需要花费的时间可能要比实际的备份窗口长。磁盘竞争是另一个问题，因为用户在重复数据删除过程期间尝试访问存储器，从而降低了磁盘性能。

问：文件级和块级的重复数据删除技术各自的优缺点是什么？

答：重复数据删除技术大大提升了基于磁盘的数据保护策略、基于WAN的远程分公司备份整合策略、以及灾难恢复策略的价值主张。这种技术能识别重复数据，消除冗余，减少需转移和存储的数据的总体容量。一些重复数据删除技术在文件级别上运行，另一些则更加深入地检查子文件或数据块。尽管结果存在差异，但判断文件或块是否唯一都能带来好处。两者的差异在于减少的数据容量不同，判断重复数据所需的时间不同。

文件级重复数据删除技术

文件级重复数据删除技术通常也称为单实例存储(SIS)，根据索引检查需要备份或归档的文件的属性，并与已存储的文件进行比较。如果没有相同文件，就将其存储，并更新索引;否则，仅存入指针，指向已存在的文件。因此，同一文件只保存了一个实例，随后的副本都以“存根”替代，而“存根”指向原始文件。

块级重复数据删除技术

块级重复数据删除技术在子文件的级别上运行。正如其名所示，文件通常被分割成几部分——条带或块，并将这些部分与之前存储的信息予以比较，检查是否存在冗余。

最常见的检查重复数据的方法是：为数据块指定标识符，例如，利用散列算法产生唯一的ID或“足迹”，标识数据块。然后，将产生的ID与集中索引对比。如果ID已经存在，就说明以前曾处理并存储该数据块。因此，只需存入指针，指向之前存储的数据。如果ID不存在，就说明数据块独一无二。此时，将 ID添加到索引中，将数据块存储到磁盘中。

每个供应商检查的数据块大小各不相同。一些供应商固定数据块的大小，一些则使用不同大小的块(有一些甚至允许终端用户改变固定块的大小，这会令人更加困惑)。固定块的大小可能为8 KB或64 KB，区别在于块越小，被判定为冗余的几率越大。这也就意味着消除的冗余更多，存储的数据更少。固定块只存在一个问题：如果文件发生变化，而重复数据删除产品依然利用上次检查到的固定块，那就可能无法监测冗余部分，因为文件中的数据块已被改变或移除，而利用的固定块仍是变化之前的，剩下的比较就没有意义了。

各种规模的块能够提高普通冗余的监测几率，尤其是在文件发生变化以后。这种方法能够监测文件中可能发生的实样模或断点，从而分割数据。即使文件变化，数据块被转移，这种方法也能发现重复的数据。不足之处呢?这种方法能改变块大小，需要供应商追踪并比较多个ID，因此会影响增大规模、增加计算时间。

文件级技术和块级技术不仅在运行上存在差异。两种方法各有优缺点。

文件级删除技术的效率不如块级技术的情形：

文件内部发生变化，就会导致整个文件需要重新存储。PowerPoint报告等文件可能需要改变一些简单的内容，例如改变首页，以显示新的报告人或日期，这也会导致整个文档需要重新存储。块级重复数据删除技术只存储文件的某个版本和下个版本之间发生变化的部分。文件级技术的压缩比一般小于 5：1，而块级技术能将存储的数据容量压缩20：1甚至50：1.

文件级删除技术的效率高于块级技术的情形：

文件级重复数据删除技术的索引非常小，在判断重复数据时只需花费很少的计算时间。因此，删除过程对备份性能的影响很小。由于索引小、比较次数少，文件级删除技术所需的处理负荷较低。对恢复时间的影响较少。块级删除技术需要利用主索引匹配数据块和该数据块的指针，从而“重新组装”数据块。而文件级技术存储的是独一无二的文件以及指向该文件的指针，因此很少需要重组。

(本文不涉密)
责任编辑：

上一篇：数据损坏将成重复数据删除致命弱点

下一篇：ＳＥＰＡＴＯＮ承诺重复数据删除比