首页> 中文学位 >数据备份系统中有关数据碎片的研究
【6h】

数据备份系统中有关数据碎片的研究

代理获取

目录

1 绪论

1.1 课题背景

1.2 重复数据删除技术原理

1.3 数据去重流程

1.4 数据碎片

1.5 AEDefrag

1.6 本文研究内容与组织

2 数据碎片的分析

2.1 数据碎片的描述

2.2 现有碎片解决方案

2.3 现有方案对比与分析

2.4 缓存算法

2.5 本章小结

3 一种更加精确的碎片识别方案

3.1 AEDefrag体系结构

3.2 数据分段

3.3 数据分组

3.4 碎片识别

3.5 组存储

3.6 本章小结

4 设计与实现

4.1 系统功能模块

4.2 基本流程

4.3 主要数据结构

4.4 数据备份主要流程

4.5 数据恢复主要流程

4.6 本章小结

5 系统测试与分析

5.1 测试环境

5.2 全量备份中性能测试与分析

5.3 增量备份中性能测试与分析

5.4 敏感参数分析

5.5 本章小结

6 全文总结

致谢

参考文献

A. 作者在攻读学位期间发表的论文目录:

B. 作者在攻读学位期间内参加的科研项目:

C. 作者在攻读学位期间申请的专利:

展开▼

摘要

随着信息时代的来临,数据呈现爆炸式地增长,数据备份系统需要存储的备份数据越来越多,为了节省存储资源,重复数据删除技术作为一种无损数据压缩技术被广泛应用于数据备份系统中。重复数据删除技术的基本原理是删除重复的数据,对内容重复的数据单位只存储一份,以达到大幅度压缩数据量的目的。但是由于使用重复数据删除技术删除了重复数据,使得备份数据流中逻辑上连续的数据块在物理存储空间上不连续,导致数据恢复时产生大量的磁盘随机读操作,严重降低了数据备份系统的恢复性能。这些在逻辑空间上连续但在物理存储空间上不连续的数据块被称为数据碎片。
  目前,学术界已出现了多种碎片解决方案,包括帽子算法(Capping)、基于上下文的重写算法(CBR)、历史感知的重写算法(HAR)和面向主存储系统的重删算法(iDedup)。它们解决数据碎片的主要思想是改变数据块在磁盘上的布局,通过重写适量的碎片数据,使大部分逻辑空间上连续的数据块在物理存储空间上也连续,从而减少系统中数据碎片的数量。以牺牲少量存储空间为代价,换取恢复性能的提升。然而通过理论分析和实验验证,我们发现现有的碎片解决方案不能精确的识别数据碎片。其中Capping、CBR和HAR方案,因为使用固定大小的容器作为碎片识别的基本单位,只关注容器中有效数据块的总量,不考虑每个有效数据块的具体存储地址,导致不能精确识别数据碎片,重写过多的数据,且恢复性能得不到有效的提升。而iDedup虽然使用了变长容器作为碎片识别的基本单位,解决了固定大小的容器存在的问题,但是它没有考虑对恢复性能起着很大作用的磁盘特性,iDedup在数据恢复时一次读磁盘操作往往只能读取较少数据,使得该碎片解决方案也不能精确识别数据碎片。
  针对现有碎片解决方案存在的问题,我们提出了一种更加精确的碎片解决方案AEDefrag。该方案以大小可变的数据组为碎片识别单位,其基本思想是计算恢复或读取一个数据组时的有效数据传输带宽,若有效数据传输带宽低于用户所期望的带宽,则该数据组内的有效数据被认定为数据碎片,反之该数据组内的有效数据不是数据碎片。通过实验测试,AEDefrag比现有的碎片解决方案重删率提高了1%到9%,恢复性能比Capping提升高达102%,比CBR提升高达54%,比HAR提升高达175%,比iDedup提升高达263%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号