您现在的位置是:首页 > IT基础架构 > 计算存储 >
众志和达:重复数据删除技术解析
摘要在面对大数据时代的今天,重复数据删除技术再次成为热议的话题。首先,原始数据将被打散为数据块,并进行单一实例存储,需要防止数据丢失。其次,数据管理人员需要在重复数据删除比率与运算性能两者之间找到合适的平衡点……...
据市场分析公司IDC的研究结果表明,2011年创造的信息数量达到1800EB,每年产生的数字信息量还在以60%的速度高速增长,到2020年,全球每年产生的数字信息将达到35ZB。迅速增长的数据量突显了重复数据删除技术(De-duplication)的重要性,它不仅能够减少了信息在物理存储空间的压力,而且大幅降低了数据传输的网络带宽占用。
在面对大数据时代的今天,重复数据删除技术再次成为热议的话题。首先,原始数据将被打散为数据块,并进行单一实例存储。如何保证数据块与指针正确,不造成数据丢失或误删除,显得非常重要,任何数据块的丢失都意味着很大一部分数据将无法找回。其次,如何保证重复数据删除的性能,过小的数据块使得重删比率会越高,但海量的数据块比对会影响运算性能;数据管理人员需要在两者之间找到合适的平衡点,同样是一场博弈,既要保证重复数据能够大量删除,又要选择能够接受的运算性能。
众志和达(英文SOUL),是中国信息存储、数据安全与应用领域领先的解决方案与服务提供商,拥有超过15年的中国本土市场经验和3000多家最终用户。
SOUL以满足云计算、大数据时代企业客户需求为目标,坚持自主创新,拥有基于自主知识产权的SoC(Storage-on-Chip芯片级存储)技术、SureSave智能化存储与保护管理、分布式存储与计算管理等核心技术,提供海量数据的存储、保护与云计算、大数据等应用解决方案,为现代IT应用提供高速、安全、可靠、弹性的基础架构,将数据与计算的价值充分发挥。
块级变长算法的高缩减比
SOUL开发的重复数据删除技术基于块级、变长模式,采用业界流行的HASH算法,以In-Line方式实现了在存储过程中实现重复数据删除功能。为防止重复数据删除运算降低总体I/O性能,所有重复数据删除运算均采用硬件实现。
基于块级去重的方式:
图一:基于块级去重方式
如图一所示,图中第一次备份为全备份,以后每次只备份变化量,并给每个数据块添加相应的指针。从形式上看,块级去重与文件级去重原理基本一致,但文件级去重比对的是不同文件,如果文件内容有变化,则被视为变化量进行保存;而基于数据块去重模式无论文件是否变化,只记录变化数据块,而文件内容变化后,其变化数据块部分被保存。
(本文不涉密)
责任编辑:
上一篇:众志和达:重复数据删除技术解析
下一篇:IBM智慧运算 应对大数据挑战