您现在的位置是:首页 > IT基础架构 > 计算存储 >

分级存储系统中一种数据自动迁移方法(下)

2013-01-08 09:13:00作者:张广艳 丘建平来源:

摘要挖掘关联文件用于自动预取;针对不同文件迁移操作采取不同的速率控制策略.对降级操作,根据负载变化动态调整迁移速率,对回迁操作则采取尽力而为的策略.在分级存储系统中的应用表明,与已有方法相比,AutoMig有效缩短了前台I/O响应时间。...

  3.2数据分级方法的性能

  本文通过在Tri-Right系统上进行trace驱动的实验,评价了AutoMig的性能,实验中使用的文件访问trace是由加州大学伯克利分校的Roseli等人采集的research trace。

  为了创建分级存储系统中真实的数据分布状态,在播放访问trace的同时,模拟重演了30天的文件迁移行为,不管trace中的访问间隔,记录文件迁移状态而不进行真正的数据操作,得到最终的系统状态,包括文件大小、文件位置、LRU队列信息和访问情况统计等,然后,在Tri-Right系统中将模拟得到的系统状态恢复过来,这样,既得到了实验所需的初始状态,又避免了真实系统上长期播放trace所需的大量时间。

  在Tri-Right系统上播放research trace中第31天前12 h的访问记录,高速存储设备容量取值为1 GB.元数据服务器软件分别采用LRU,GreedyDualSize和AutoMig 3种数据分级策略,前面两种数据分级策略数据升级评价都是采用on-demand方式,有访问就升级迁移;数据降级评价分别采用LRU和GreedyDualSize算法进行替换。

  图3给出了使用3种不同数据分级策略下前台I/O的平均响应时间的变化情况,横坐标为trace摇放时间,对应纵坐标表示从O到该时间点范围内的平均I/O响应时间,可以看出,在几乎全部实验过程中,AutoMig的平均I/O响应时间明显低于使用其他两种策略时的平均I/O响应时间,结果表明:与LRU和GreedyDualSize相比,AutoMig的平均I/O响应时间分别下降了10. 11%和39. 39%。

  

不同数据分级策略下的响应时间对比

 

  图3 不同数据分级策略下的响应时间对比

  AutoMig响应时间更短的原因在于AutoMig迁移更少的数据量,图4对比了3种数据分级策略的数据迁移总量,在使用AutoMig策略时,数据迁移量比LRU和GreedyDuaISize分别减少了70. 71%和90, 47%。

 

  

不同数据分级策略下的数据迁移量对比

 

  图4 不同数据分级策略下的数据迁移量对比

  3.3 关联文件挖掘的效果

  这一组实验使用的文件访问trace是伯克利的instruction trace.把长的访问trace切割成序列数据库,使用的切割长度为100-实验中,最小支持度和最小可信度都取不同的值。

  AutoMig首先要得到频繁闭合序列,在得到频繁闭合序列后,需要进一步生成无冗余的强关联规则,实验中,我门针对0. 3,0. 4,0.5三种不同的最小支持度选取频繁闭合序列,最小可信度阈值都取值为85%,图5给出了AutoMig生成的无冗余的强关联规则个数,并分别给出了“1-规则”和“2-规则”的数目,可以看出,从文件访问trace中能够得到大量关联规则,另外,“2-规则”的数目相当可观,已有的文件预取方法忽略掉文件之间的3者关系,确实丢掉了一些宝贵的文件预取机会。

 

  

 生成的无冗余的强关联规则

 

  图5 生成的无冗余的强关联规则

  下面测试最小可信度取值对所生成的关联规则的数目的影响,最小支持度阈值固定为0.5,将最小可信度阈值从75%改变到90%,图6给出了最小可信度取值不同时生成的关联规则的数目,可以看出,随着最小可信度阈值的增加,所生成的关联规则明显减少,当最小可信度阈值取为90%时,关联规则数目为698,在最小可信度阈值从75%变化到90%的过程中,关联规则数目都较大。
(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们