您现在的位置是:首页 > IT基础架构 > 计算存储 >

飞康颜军:分层存储看上去很美

2008-10-17 23:08:00作者:谭茂来源:

摘要用户认为可以通过二到三级的不同级别的存储存放经常调用和不经常调用的数据,但其实分层存储的核心问题还是软件问题,这是很多硬件厂商避开谈的一件事,这也是很多用户容易掉入的一个误区。...

在颜军看来,每个存储厂商都有自己的观点,这是基于自己产品的前瞻。但从用户的角度来看,一切技术都是要为使用者提供方便的。在他看来,存储技术的发展趋势不该是产品的不断地升级,对厂商而言,产品升级的目的要以用户的利益为目标,一切要集中在用户利益上。而VTL也是基于这样的目的才诞生的。

美国飞康公司中国区CTO颜军

从磁带看存储技术的发展

从当年物理磁带库的发展可以看出存储技术的发展,磁带库的发展技术是容量不到1个T的时候就出现了瓶颈。

而在2001年的时候,随着LTO加速器技术的出现,也遇到了一个瓶颈。因为磁带的速度和密度不是总能成倍增长的,增长到一个程度就会出现一个无法突破的瓶颈。比如说可靠性的下降,当册带的密度增大以后导致安全性下降,数据的读取性能也受到影响。

在这个时候,LTO技术出现了,LTO技术是几个存储厂商联手做的关于质检的一个突破,所以当它出现时,意味着磁带技术又向前迈进了一大步。

在上世纪90年代到本世纪初的时候,磁带优势在于成本优势,而第二个优势就是离线技术,磁带始终是靠这两条主线技术来发展。

磁带的成本优势到了SATA技术出现的时候开始荡然无存,随着磁盘技术容量的加大,成本的大幅度降低,磁带就只剩下离线的优势。但离线的优势还不是磁带技术发展的全部因素,大家并不是因为离线存储而购磁带库。磁带库的使用真正的规则是做封闭式的保存,而不是开放性的。

磁带技术受环境的因素影响特别大,比如潮湿度以及灰尘度等等都会导致磁带的不可读。所以很多用户忘记了它不可恢复的风险正在加大。这也造成了很多行业用磁带有有一定的问题。

而目前,Sun、IBM也还在推出新的磁带库,这是因为Sun收购的是STK,而IBM是在磁带领域一个领头羊,这两家都是磁带库领域的长期以来的领先者也一直在互相竞争。由于他们的工业基础上还有还大一部分是基于磁带技术的。因此他们希望的是各种技术的融合,而不是使其消亡。使其消亡的话对他们来讲,就意味着一大部分财富消失在这上面。

另外,磁带技术它的离线保管等等这些方面的优势,在这个体系的最顶层,仍然是符合规则的。通过磁带的运输,这也是符合国家特定标准的,因为至少它符合一个基本要求。所以对于有些用户不想建立高成本的,或者说他的成本支付不了一个常规的系统的时候,用磁带来保存也不妨是一个选择。

当然,从磁盘厂商的角度来看,他们认为磁带是应该走向消亡的,因为他们认为磁盘通过虚拟化技术以后,能与现有的备份体系无缝连接,备份软件甚至于只会优化不会改变。他们只需要把无缝连接改到最小,但是获得的能力却是磁带技术不可比拟的。

 

VTL技术因成本而兴起

在这个情况下,VTL技术开始出现,VTL技术它对磁带技术的几大优势,这大家都是经常谈的。第一个是性能,VTL的性能可以说已经不取决于磁带机的类型了,它只跟它的接口通路有关,这样的性能拓展一下就能打开瓶颈。因为以前我们说提高性能一个是你要把磁带机升级,进入一档、二、三、四,第一就是你的升级成本是多少?第二是你得通过并行备份,但你得购买多个磁带机,因为从来没有一个磁带机可以通过一个窗口完成备份的,得通过一个应用来并发,也可以通过多个应用分别备份,这有很多的手段,但总的来说,你依靠多磁带机的集团作战才能达到一个性能的条件。但是他用户投资成本就是倍数关系,比如今天用4个小时就能备份完了,但如果明天你的数据量增长了,备份需要8个小时,当你还想回到4个小时的时候,对不起,你还要购买一倍数量的磁带机。

从以前来看,磁带产品的性能跟用户的投入是很成比例的,因为的数据量增长这是各个企业都有的。一旦数据量增长,投资成本也得在同步增长,用户可能不容易接受这个现实。这时候,VTL的优势就出来了,它有很大的扩展性能,因为本身单路性能就很高,而你在扩展性能的时候只需要以一个很低的成本就可以实现。

VTL技术兴起的第二个因素就是可靠性,因为它利用了磁盘的技术,一下子突破了磁带的弱点。所以说很多人都把VTL看成是磁带库的替代品。

分层存储有陷阱

分层存储这个概念是01年出来的。主导厂商主要是磁盘厂家。这涉及到一个商业利益的问题,在厂商看来,通过把用户的数据进行分层的存放,能增加厂商的销售机会。但这种概念对用户而言,它有一些陷阱——看起来很美好。用户认为可以通过二到三级的不同级别的存储存放经常调用和不经常调用的数据,但其实分层存储的核心问题还是软件问题,这是很多硬件厂商避开谈的一件事,这也是很多用户容易掉入的一个误区。他认为我买了不同的光纤的磁盘,这个数据就可以分级存放。但他忽略了一点,没有软件这个分级是不成立的。因为数据的流动必然有一个驱动力,而不是手工。我们在今天已经不再谈我复制过去的概念了。所以的迁移系统都是在以软件,现在的用户要把这个数据无缝的迁移到另一个系统中间,一定是他要找一个解决方案,而不是一个硬件。这也是很多用户所问的问题,他们很容易被大的概念误导,当用户发现他使用了分层存储设备以后,这个系统却运转不起来,因为它不是一个解决方案。

所以,过去在国内做分级存放的用户基本上没有成功案例,因为这不是一个自动迁移系统。

数据自动选择归档技术还是当前存储技术的难点,可以说是无比地复杂,因为系统要替人工做智能的判断,而且在用户调动数据的时候,系统需要自动到说明数据仍然是存在你的系统中间。

这个就是信息生命周期的一个概念,理想的实现是,当用户在查询资料的时候,只需要查询你的时间,自动就可以找到相对应的存放地点。但如果没有这套软件体系是不可能实现分层存储的。

 

VTL分层备份技术更具优势

从备份的角度来看,用VTL实现分层备份是完全可行的,因为现在完全是通过VTL技术做自动数据流的,就是在你备份端完全是透明的,也就是说它保持了生命周期技术的核心特征,就是使用者透明。恢复数据的时候,并不需要知道数据它在什么地方,只需要照正常的恢复手段,我后来的恢复处理都是靠透明的机制来完成的。对用户而言,仍然认为可能是在1号磁带上,而他的恢复仍然会调出1号磁带来进行恢复。但他在拓宽和流转体系中,它却开始定位到下一级的设备中间去抓取相对应的磁带。

透明性是很好的信息生命周期概念,这个概念在于一定要让使用者不知道他的变化。比如在医疗领域有影视、图片数据,当病人在拍片的时候,有可能有一年前的片子,也可能有现在的片子。但是当一个检索系统能透明的把的历史诊断结果都给调用出来的时候,这就是一个合理的分级存放的体系。而无须让病人知道,这个片子是在一个存储系统中,另一个片子在另一个存储系统中。

因为作为病人来讲,他不可能知道需要到哪几个部门去调用这个数据。他后面的流转体系会自动帮他定位到对应的地方去。这个在备份和恢复生命周期里就淋漓尽致的体现出来的,就是从备份软件上,他仍然是可以自由地调用他任何时间的数据。虽然这个数据可能是存放在第二级的设备中间,但这个第二级的备份设备的调用是靠VTL的缓存技术自动地去抓取。他就让数据流转起来了,像这种概念不是像很多厂家所推荐的,主要是这种技术的出现,还是出现在少数厂家的手上,还不是一个四方八面都能够提供的技术,大部分的VTL是不提供这种技术的。

站在更全面的角度来看待这个问题,VTL讲究的是有效的进行分层管理。就是说让用户可以利用庞大的一个物理磁带库做下一级数据的存放,比如说在这个备份周期之内,为了加快备份速度,利用VTL做前一级备份,我们叫做缓存级。这样的话VTL的性能就体现的淋漓尽致了。然后在几天之后,在一定的有效期之后,它的这个备份额恢复,重要性已经下降之后的情况下,这个数据自动飘移到物理磁带库叫二级备份设备。

而这个飘移对应用是不产生任何影响的,因为都是在后台进行的。这使得用户可以用一个很大的带库来存放海量的数据,因为对于很多用户来讲,是有很多海量的数据,海量数据跟VTL,毕竟成本还是要高于物理代库的。你了解现在一个替的磁带库出现,那实际上这个单独的成本,确实对于磁带库来讲也是大幅下降的。

这种架构可以使得用户可以充分在性能和单独的存放成本上找到一个很好的平衡。就能达到一个最佳的结合点,就是你既可以获得高性能,也可以获得庞大的物理磁带库的离线、保管能力和它的低成本,来获得你数据的离线存放。同时存放了单个成本也很低,这对很多用户来讲,尤其是对电信级用户来讲,是一个很好的方法。他不是建议你说,必须要把谁给破掉,才能应用。他是希望接待新生的周期一样,用户通过数据的重要性来进行分层的保管,充分利用各种数据的重要性的不同,然后降低它相对应的存放成本,是这么一种概念,在备份这个领域也具有一个生命周期的概念。

VTL的选择是个问题

从目前来看,VTL的应用没有在绝对的高端行业,但很多想获得高品质备份技术的人都一致看好这个技术。而这个技术已经具备了一些行业特征,比如现在电信行业开始采用,而且在下一代备份技术中开始看了中了VTL。目前不采用VTL技术的,主要是一些比较保守的企业和单位,他们追求的是一种保险——退而求其次,这是一种很保守的方法。

对很多人而言,VTL技术是一个比较新的概念,市场上的产品五花八门,用户不知道怎么选择这些产品。不是说VTL产品都是优质的产品,不是这样的。当然有些产品会可靠性高,有些产品会可靠性低等。比如说接上以后跟备份软件有接不上的,还有跟原来的物理磁带库也有接不上的。因为产品的能力不同,比如说用户发现它原有磁带库中间还有一些老的数据,我想通过你的VTL进行导入,这就是一个风险,你原有的数据能放弃吗?不能放弃。因为这个系统它最好的设计是一个衔接,承前启后,要把你原来的资源充分的利用起来,但有些VTL没有实现这一点。对用户来讲,完全是新的来替代旧的,他有一个数据的迁移问题。

还有一个问题,它的扩展成本也高了,用户不知道怎么扩展,还有一个是我的备用软件服务器升级了,还能不能识别啊。毕竟成熟的技术,传统的技术这方面的解决的比较好,而VTL技术厂家有些是新型厂家,他只是为了进入这个市场,但他的产品还没有达到原来磁带库领域这么广泛的系统支持。

所以有的用户担心是有道理的,因为并不是说所有的VTL产品都能做的十分出色。对用户来讲,他一旦不了解这个领域,他会觉得是有风险的。而你用了原来的产品发现了问题,这却不是你的责任。使用新的产品,一旦出现问题,他的采用者就会觉得这是自己的问题。

实际上,我们目前之所以遇到过这样的问题,主要因为在目前的体制下,不可能所有的用户都会前瞻性的。当他属于饱受性思维的时候,他宁可选用已经被无数人使用过的,经过成千上万人次验证过的系统。因为这个系统即使是使用不佳,这也不是他的责任,很多人是基于这么一种思维方式。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们