您现在的位置是:首页 > IT基础架构 > 计算存储 >

国内外企业部署重复数据删除策略大比对

2008-11-17 22:31:00作者: 来源:

摘要重复数据删除通过有效地减少数据,消除备份成为降低数据存储成本的重要技术,成为大家关注的焦点。在国外这种技术已经比较成熟,那么在国内的情况如何呢?...

随着企业业务的逐渐增多,数据量越来越大。面对这种情况,越来越多的企业寻求支持重复数据删除的产品。重复数据删除通过有效地减少数据,消除备份成为降低数据存储成本的重要技术,成为大家关注的焦点。在国外这种技术已经比较成熟,那么在国内的情况如何呢?我们针对重复数据删除在国内的应用情况对 SEPATON技术支持中心高级工程师杨涛进行了采访。

请问国内客户对重复数据删除技术的接受程度如何?在您的客户中采购支持重复数据删除技术设备的比率为多少?

杨涛:SEPATON作为最早在国内市场上推广重复数据删除技术厂商之一,最初确实遇到了用户对这种技术存在着种种疑虑的状况,比如曾经有金融业用户担心重复数据删除是不是修改了用户原始数据,是否违背了诸如萨班斯法案等相关法律法规的要求。但近年来随着重复数据删除技术的成熟以及各大厂商的宣传推广,用户对相关重复数据删除技术的实现已经非常了解,疑虑也已经基本消除。目前在咨询SEPATON相关产品的用户中,近80%的用户希望购买或者了解重复数据删除技术。

您认为国内客户对重复数据删除的支持程度如何?

杨涛:近年来国内信息产业的发展非常迅速,在很多单位,信息系统已经从原来意义上的支持部门演变成支撑部门,一字之差其重要程度的变化不言而喻。但与此同时,业务数据的指数增长也带来非常严重的问题。在SEPATON的客户群中,很多用户为有限的机房面积和迅速增加的阵列、磁带库等设备而头疼;并且,我们已经不止一次遇到用户在购置存储备份设备时提出电力消耗方面的限制条件。而事实上,几乎每一个数据中心的管理人员都清楚,其所购置的设备、电力、人力等资源其实有很大一部分浪费在重复的数据上——这一点在备份领域尤其突出。所以,目前,对于在备份系统中采用重复数据删除技术,国内用户的支持认可度是非常高的;而在线存储系统中,由于对实时访问性能的要求以及其它诸多因素的影响,用户的认可程度较低。

Sepaton的DelatStore是如何帮助客户简化数据管理的?是如何运作的?

杨涛:大体上,DeltaStore删除重复数据的基本步骤包括五个阶段:数据收集、数据识别/比较、数据重组、完整性检查和空间回收。

在数据收集阶段,DeltaStore通过比较新备份数据和先前的备份缩小分析数据的范围,使用“内容已知”数据库辨别它们之间可能的重复和相似数据。

第二阶段的数据识别比较过程中,DeltaStore以字节为单位分析数据收集阶段标志出的相似数据对象。如果数据收集阶段创建的工作表表明需要进行数据识别,那么软件就会用delta差分算法确定备份组中哪些数据是唯一的、哪些数据是重复的。该算法可以有效地以字节为单位映射发生变化的数据,并且对数据对象内的变化或者位置改变不敏感,所以,即使相关的对象之间发生明显的结构改变,该算法仍可以定位冗余的数据。如果数据收集阶段从元数据级别认定备份组中的数据和前一个备份相同,那么在数据识别阶段将以字节为单位对数据进行比较。

第三个阶段中,数据被重新组装,放入临时的“保留磁带 ”中,新数据被保存,前一阶段被标出的重复数据被已存数据的指针替代。对备份软件而言,保留磁带和真正的磁带完全相同,只是存储在新磁带中的数据远少于真正的磁带上存储的数据。该过程的最终结果是产生一份经过副本删除的备份组视图。

第四个阶段是可选的,会在实际删除所有的重复数据前,软件执行一次检查,以保证数据100%的完整。

最后DeltaStore从存储空间中删除冗余的数据,释放先前被占用的磁盘空间以备他用。

 

Sepaton的DelatStore与其他同行厂商的产品相比,有什么特色和优势?

杨涛:SEPATON公司的DelatStore重复数据产品是以SEPATON S2100系列虚拟磁带库为平台的一种重复数据删除技术实现,和其他厂商的产品相比具有如下三个特点:

首先,DelatStore的核心是SEPATON公司的“内容已知”数据库,这种技术使得DelatStore具有智能分析文件内容和备份数据关系的能力。它可以搜索任意数量的数据对象版本,找出重复的数据序列,然后用一个副本的指针替代重复数据,这样,重复数据序列中只有一个实例真正存储在磁盘上,通过这种方式DeltaStor可以以50:1的比例消除典型混合业务数据中的重复数据,对于某些电子邮件应用则可以达到60:1。当数据保存到虚拟磁带时,软件模块调用“数据读取器”读取数据并同时分析出元数据存入该数据库中。“数据读取器”捕获和每个独立的备份数据组相关的元数据,同时也捕获每个数据组中每个对象的元数据。DeltaStor软件可以利用这些元数据标志数据对象之间的关系,并智能的做出处理决定。例如,当对象描述元数据指示出备份会话之间存在联系时,DeltaStor软件会显著地缩小数据分析范围,因此提高了副本删除的速度。

另外,DelatStore采用了异步删除技术,也就是说数据首先读入磁盘,然后在进行数据删除处理,这种方式使得重复数据删除的过程独立于备份数据传输路径之外,从而大大加快了备份速度,这也是为什么SEPATON的虚拟磁带库能够在启动重复数据删除的情况下仍能实现每条光纤通道300 MB/S备份速度的原因之一。

最后,DelatStore支持SEPATON的网格运算架构,可以将重复数据删除处理过程分配到多个运算引擎上分担负荷,从而实现高速并发处理,而不会和持续写入的备份数据流产生冲突。

一般国内的客户在采购新的存储设备之前,已有一些原有的设备,请问重复数据删除平台如何与其他的操作系统或存储设备兼容?

杨涛:目前,任何厂商的重复数据删除技术都不是一个独立产品,都融合在其他产品或应用平台之中。同样,SEPATON的DeltaStor也是基于 SEPATON 的S2100系列虚拟磁带库为平台的一种实现,该系列的虚拟磁带库完全是一个自封闭式的产品,只需要经过简单的配置后将光纤接入到SAN交换机或者HBA 卡即可使用,重复数据删除功能也仅需简单的勾选即可打开。该系列产品可以模拟成多种类型的磁带库设备,是目前同类产品中模拟类型最全的,且完全兼容目前主流的操作系统以及主流的备份管理软件——诸如Veritas Netbackup,Backup Exec,Legato,CommVault,CA,IBM TSM,BakBone等等。

 

国内客户与国外客户情况有很大的不同,您能具体解释国内客户部署重复数据删除与国外的情况有什么差异吗?基于这种差异在部署时要注意哪些情况呢?

杨涛:国内外的用户情况不同的主要方面是在,对品牌与技术权衡意识、保存周期的要求、法规遵从。根据这样的差异部署重复数据删除要进行必要的调整,而不要根据国内外同行的情况盲目地跟从。

第一,国外IT行业起步早发展快,对技术和产品消化和消费能力要比国内成熟。国外企业对技术方面和应用效果的考察及认同要远比厂家的品牌知名度要重视的多,去挑选符合自己使用需求的,技术成熟的,综合性能好的技术和产品。因为在IT产业中名牌不意味着产品就是好的,中小型的厂商往往开发新技术的能力和意识要比知名厂商还要强,因为他们的生存意识强,产品线少但够专注,很容易在某个特定技术上有显著成绩,而知名品牌往往更习惯用商业手段从这些中小厂商取得自己所青睐的技术,比如ODM,OEM和收购等行为,可以看到国外比较重视实用。作为国内用户首先不要确立一个品牌意识,要务实,要看到你瞄准的知名品牌产品真正来源是哪里,如果大品牌都采用商业手段去获得这个技术并推广给你,你是否也可以考虑去追溯这个技术的真正拥有者,这样在市场竞争中还可以为自己节省投入并获得同等的技术,你为什么去买这个技术才是最重要的,然后可以在这个技术的产品供应商中找出那些是最出色的,市场反应最好的,然后利用合理的商业策略和竞争法则以合适的价格去获得技术产品。重要的法则是我的系统需要这个技术,不是因为名牌有这个技术。

第二,国外对备份数据的保存周期和国内有很大的差异,这决定了国内外同等行业的用户对备份数据保存空间的需求是不同的,因此不要盲从,要根据自己的累计数据量,各个应用数据符合数据安全需要,符合规章制度需要来决定是否需要重复数据删除技术或如何去规划。因为重复数据删除技术的主要服务对象是那些数据量大,保存周期复杂的用户,所要解决的商业方面主要问题是存储容量与投资的矛盾问题而不简单就是节能环保的价值问题。因此一个累计数据量不大,结合保存周期对备份数据存储空间需求没那么大的用户往往会发现部署普通的要比部署一个重复数据删除功能的存储设备无论从项目规划,执行,投资和管理方面都要划算的多。或者这样的用户可以选择少部署,再根据需要扩充的方式进行。重要法则是短线一点,不要看的太远。

第三,要考察清楚法规遵从方面的要求。国内外法规对可移动存储介质的必要性要求,以及介质内存储的数据与元数据的差异要求是完全不一样的。国内很多行业,比如金融,电信,机关,行政单位,对这些方面都有着明文规定,或者在审计,IPO要求方面都有相关的约束。因此国内用户在考虑重复数据删除的技术时候,要看自己身份是否特殊化,是属于那个行业指导政策的管理范围内,政策规章方面是否规定了元数据的处理方式,也就是是否约束了自己对备份数据是否有权利能够去进行加工处理,或者是对自己数据内某些特定的业务或者数据类型不能做任何改动。这样才能在制度能够许可的范围内去采用新技术,或者去选择哪些重复数据删除技术可以按照需求随意打开或者关闭的产品,比如同样一个数据类型对这个应用系统选择打开重复数据删除功能,而对另外一个应用系统则关闭这个功能,而存储目的地是一台具备开关功能的重复数据删除产品。重要法则是遵纪守法,合理利用。

您认为重复数据删除在中国的应用前景如何?

杨涛:随着国内企业信息化建设的不断深入、数据量的不断增加以及人们风险意识的逐步提高,重复数据删除技术在信息化系统尤其是备份容灾系统中的应用一定会发扬光大。它不仅能够直接减少备份、归档以及容灾系统中经过网络传输的数据量,从而减少设备、网络建设成本,实现立竿见影的投资回报,并且也间接减少了机房空间、能源以及人力的消耗,符合数据中心绿色发展的大趋势。

杨涛,SEPATON技术支持中心高级工程师,1998年毕业于华北工学院,毕业后一直从事数据保护相关工作,2004年自清华大学软件学院毕业后开始从事SEPATON产品与解决方案的售前与售后支持,服务等工作 ,拥有丰富的项目实施经验,是国内该领域的资深技术专家。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们