首页> 中文学位 >一种基于重复数据删除的备份系统设计与实现
【6h】

一种基于重复数据删除的备份系统设计与实现

代理获取

目录

文摘

英文文摘

第一章 概述

1.1 信息系统灾难备份的重要性和意义

1.2 灾难备份与重复数据删除技术

1.2.1 数据备份类型

1.2.2 数据备份的原则

1.3 重复数据删除技术发展现状

1.3.1 国外研究状况

1.3.2 国内研究状况

1.3.3 工业界状况

1.4 论文组织结构

第二章 技术分析与系统算法概述

2.1 文件分块

2.1.1 文件分块种类

2.1.2 Rabin Fingerprint算法

2.2 哈希算法

2.2.1 MD5算法

2.2.2 SHA—1算法

2.3 Bloom filter的相关原理

2.3.1 实现原理

2.3.2 误判率估计

2.3.3 最优的哈希函数个数

2.3.4 位数组的大小

2.4 目录层级哈希树

2.4.1 哈希树建立算法

2.4.2 哈希树遍历剪枝算法

2.5 分布式与负载均衡

2.5.1 负载均衡分类

2.5.2 分布式负载均衡模型

第三章 系统架构设计

3.1 总体结构

3.2 预处理模块

3.2.1 目录层级哈希树建树

3.2.2 目录层级哈希树剪枝

3.3 文件分块

3.3.1 滑动窗口

3.3.2 滑动窗口的基本原理

3.3.3 指纹计算

3.3.4 文件分块的实现过程

3.4 数据消重

3.4.1 哈希函数的选择

3.4.2 位数组设计

3.4.3 消重步骤

3.5 数据传输与存储

3.5.1 数据传输

3.5.2 数据存储

3.6 数据恢复模块

3.7 分布式架构

3.7.1 备份任务分配

3.7.2 负载均衡策略分析

3.7.3 负载均衡策略选择

第四章 性能测试与评价

4.1 系统搭建和测试方法

4.1.1 系统相关测试软件

4.2 性能测试

4.2.1 哈希函数测试

4.2.2 Bloom Filter性能测试

4.2.3 系统性能测试

第五章 总结与展望

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

随着信息化程度的不断提高,数据对于企业的重要性愈发凸显。由于企业日常生产过程中会产生了大量的生产数据,尤其是近年来,海量数据的爆炸性增长对数据中心的存储能力提出了更高的要求。统计数据表明,企业日常新增海量数据之间存在着许多相似的数据,为此,提出了重复数据删除技术。当前,采用重复数据删除技术以改进数据存储效率、提高海量数据处理性能具有重要的理论和实用价值。
   本文设计了一种基于重复数据删除的文件备份系统,该系统能够有效地对文件进行存储并压缩从而节约存储空间,并且,在数据压缩同时也能够节省传输带宽,可以让各个版本的数据在存储器上有效保存,降低磁盘开销。
   基于重复数据删除的文件备份系统在功能点上可以分为两大功能模块:重复数据删除模块,用于实现文件分块以及数据消重;性能改进模块,用于实现预处理功能和负载均衡。
   在重复数据删除模块中,为了满足对文件数据变化敏感度低的性能需求,文件分块模块设计采用的是变长分块模式,从而保证了各个版本文件分成的块之间相似性更大。在系统消重模块,引入了BloomFilter算法,以O(1)的时间复杂度完成一次判重处理,该算法在效率上比传统使用数据库进行消重快许多。虽然Bloom Filter有一定的误判率,但是经理论论证与实验表明,当其处理数据在一定的范围内,误判率的大小仍然是可控的。
   在系统的性能改进模块,定义了一种数据结构——目录层级哈希树,使用该数据结构对待备份目录树进行判重剪枝,以缩短备份时间。对系统的服务器端加入了分布式处理,以保证Bloom Filter的误判率较小,同时在中控器中使用MOSS代理,把客户端的请求均衡到不同的节点上,保证响应客户端的服务请求。
   实验结果显示,该系统的文件备份能力,在数据压缩比和带宽占用比都明显优于经典的Rsync和LBFS系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号