您现在的位置是:首页 > IT基础架构 > 计算存储 >
分级存储系统中一种数据自动迁移方法(上)
2013-01-08 09:10:00作者:张广艳 丘建平来源:
摘要分级存储系统通过将数据在不同性能设备间动态迁移以达到高性能,已有分级存储系统未能充分利用负载信息导致数据迁移严重影响应用性能,提出了一种分级存储系统中的数据自动迁移方法AutoMig,目标是提高前台应用的I/O性能,AutoMig综合文件访问历史、文件大小、设备利用情况等参数,对文件进行动态分级...
在大规模文件系统中,大多数文件长期不用,少数文件经常使用,就单个文件来说,刚创建之后的一段时间内访问频率最高;随着时间推移,访问频率下降,鉴于不同数据之间存在着显著的访问频率差异,人们提出了分级存储系统,它由具有不同的存储容量、I/O速度、单位价格的多级存储设备构成;按照近期访问情况的不同,将数据存放到合适的存储设备上,目标是在满足存储容量和硬件成本约束的前提下,提供较高的I/O性能。
在分级存储系统中,数据的访问频率和服务质量需求是不断变化的,为了使数据能够与存储设备动态匹配,需要在不同级别的存储设备之间迁移数据,数据迁移的规则通常由数据的访问频率、存储设备的容量和性能等因素确定,这就要求分级存储系统能够检测到数据状态的变化,并进行数据在线迁移,同时,数据位置的移动需要对应用是透明的,数据迁移过程对于应用I/O性能影响不大。
现有的分级存储系统中的数据迁移方法对前台I/O性能影响较大,原因包括数据分级只考虑文件的创建时间、上次访问时间或文件大小等单一因素;数据访问缺失则触发数据升级活动,造成数据迁移量较大;数据降级迁移过程缺乏自动控制。
本文提出了分级存储系统中一种数据自动迁移方法AutoMig,它综合考虑了文件访问历史、文件大小、设备的空间利用情况、文件关联性等因素,对文件进行动态分级,并在数据迁移过程中,根据负载变化自适应地调整迁移速率,在实际系统中的实验表明:与已有方法相比,AutoMig有效缩短了前台I/O响应时间。
1 相关工作
He等人提出了一种基于面向对象文件系统Lustre的分级存储系统,数据从磁带到磁盘的迁移是由访问缺失触发的,缺点是升级的文件过多,SANBoost系统口3使用SSD设备和磁盘构成两级存储系统,它引入一个迁移阈值以减少数据迁移量,只有用户访问达到一定次数后才进行迁移。
有效的数据预取能够降低I/O访问延迟,而错误的预取只会干扰前台I/O负载,已经有一些数据预取算法,如稳固后继预测方法、首次稳固后继、最近最常见预测方法等,它们的缺点是只预测下一个访问,可用于预取的时间间隙很短。
降级迁移算法需要选择迁移哪些文件到慢速设备,现有的降级迁移算法主要包括FIFO,LRU,size—only,space—time和file—aging,space—time算法根据文件大小和文件上次使用间隔的乘积来分级,file-aging算法根据文件上次使用时间、文件大小和以前计算的迁移值来计算当前的迁移值,应用在Web文件缓存中的GreedyDualSize替换算法,根据文件的时效性、大小和预取成本给出文件替换决策。
分级存储系统TH—TS中实现了一种自动的数据迁移方法CuteMig,它的缺点是没有考虑文件访问之间的关联性。
在数据迁移速率控制方面,第1种方式在保证数据迁移期限的前提下,尽量使用磁盘的空闲周期进行数据迁移,第2种方式MS Manners,当检测到非重要进程的前进速度放缓时,进一步降低它的运行速率,第3种方式Aqueduct把存储系统看作一个黑盒子,只测量应用所察觉到的性能,因此无法迅速检测到存储系统上的应用负载的变化,第4种方式是用收益最大化框架来解决数据迁移问题,缺点是需要事先详细掌握系统特性和负载特征,从而使该方法受到一定的实用性限制。
2 数据迁移方法AutoMig
数据自动迁移方法AutoMig由3部分组成:1)数据动态分级策略,数据分级的改变触发数据的迁移;2)关联文件挖掘技术,关联的文件用于自动预取;3)迁移过程中的速率控制,在前台I/O性能影响和数据迁移完成期限之间寻找合理的权衡。
2.1数据动态分级策略
AutoMig中的数据分级评价包括文件升级评价和文件降级评价2部分。
AutoMig根据数据升级的单位成本收益效率来决定是否对文件执行升级操作,文件升级的收益效率用文件升级后单位时间内被访问的数据量来衡量,令AS和AF分别表示文件升级后的文件访问大小和文件访问频率,则文件升级后的性能收益效率为AS×AF,文件升级的成本可以使用文件大小FS来衡量,由此,数据升级的单位成本收益效率(即效用值)计算为util=(AS×AF)/FS,如果一个文件的升级效用值高于升级阈值,则升级该文件。
(本文不涉密)
责任编辑: