首页> 中文学位 >大规模分布式纠删码存储系统中的高效数据传输技术研究
【6h】

大规模分布式纠删码存储系统中的高效数据传输技术研究

代理获取

目录

声明

第一章 绪论

1.1 研究背景

1.2 纠删码存储系统及其研究现状

1.3 纠删码存储系统数据传输开销问题

1.4 本文主要工作

1.5 论文结构

第二章 相关研究

2.1 纠删码编解码复杂度研究

2.2 纠删码存储系统中的数据传输开销研究

2.3 基于实际系统特性的纠删码存储策略研究

2.4 再生码

2.5 基于网络编码的数据冗余容错技术研究

2.6 基于斯坦纳树的多播路由研究

2.7 本章小结

第三章 面向纠删解码数据传输开销的聚合解码方法

3.1 引言

3.2 基于纠删解码信息聚合特性的聚合解码

3.3 面向聚合解码的路径选择算法

3.4 性能评估

3.5 本章小结

第四章 面向多点数据修复的协同去冗余解码方法

4.1 引言

4.2 多点失效问题

4.3 协同去冗余解码方法Redu

4.4 性能评估

4.5 本章小结

第五章 基于异构失效模型的纠删码存储冗余布局策略

5.1 引言

5.2 数据重构效率模型

5.3 冗余布局策略HeMatch

5.4 性能评估

5.5 本章小结

第六章 面向纠删编码的协同去冗余编码方法

6.1 引言

6.2 纠删编码中的传输冗余

6.3 基于树的协同去冗余编码方法

6.4 性能评估

6.5 本章小结

第七章 总结与展望

7.1 论文工作的总结

7.2 课题研究展望

致谢

参考文献

作者在学期间取得的学术成果

展开▼

摘要

数字信息量的快速增长对大规模数据存储技术提出新的挑战,商业化低成本设备的大量应用使得数据可靠性问题日益突出。分布式存储通过维护额外的冗余数据以备容错来提供数据可靠性保证,其中纠删码存储通过编码生成冗余数据,大大优化了存储空间利用率,成为当前最受认可的分布式存储可靠性方案之一。分布式纠删码存储系统通常作为大规模集群底层存储提供数据归档和备份服务,其数据编码、访问和重构过程中产生大量数据传输。这些数据传输一方面占据宝贵的带宽从而影响整个集群的网络性能,另一方面引发拥塞造成时间延迟,同时还产生很大能耗。因此,大规模分布式纠删码存储系统中的高效数据传输技术研究是十分具有意义的。
  现有的大规模分布式纠删码存储系统研究存在一系列难点和挑战。首先,在纠删码存储系统中,可靠性、存储空间利用率和重构开销是三个非常重要又相互制约的指标。在同等可靠性前提下,提高存储空间利用率意味着压缩冗余数据量,这将导致数据重构更加复杂、开销更大。反之,简化数据重构则需要存储更多的冗余数据以达到同等可靠性。因此,在权衡中提高可靠性、存储空间利用率和重构开销是纠删码存储系统研究中的一个难点。第二,时间延迟和带宽开销是纠删码存储数据编码、访问和重构中最关心的两个性能指标。直观上,减少数据传输量可以间接减少拥塞,但有些情况下,减少数据传输量的同时可能增加传输跳数,进而增加时间延迟。因此,权衡数据传输开销和时间延迟是一个研究难点。第三,大规模分布式纠删码存储系统是纠删码算法和集群网络拓扑的有机结合。当前研究往往针对纠删码算法中的理想全联通拓扑,而忽略了底层集群的实际网络拓扑,导致算法的研究成果在实际系统网络拓扑中不能理想地发挥效果。尤其,数据传输开销受网络拓扑和传输路由的影响很大,因此在研究中如何妥善结合考虑上层算法和底层拓扑也是一个挑战。
  针对上述难点和挑战,本文对大规模分布式纠删码存储系统中的数据编码、放置和重构这几个重要处理环节展开研究。纠删码存储首先对原始数据进行编码,然后通过数据放置将编码数据存储到集群各节点上,当数据失效发生后,对失效数据的访问和修复则需要通过数据重构来达成。本文针对这几个重要环节中的高效数据传输技术进行了以下研究。
  数据重构是纠删码存储中最为重要的环节,因此本文首先对最为常见的单点数据重构中的数据传输开销问题进行研究。本文结合纠删码算法与集群网络拓扑,提出一种聚合解码方法,利用纠删码的信息聚合特性,在数据传输的过程中进行解码,从而减少了总带宽消耗量。聚合解码的效果与数据在网络拓扑中的传输路径有很大关系,于是本文将路径选择问题建模和归约为斯坦纳树问题,提出一种基于蚁群加权的最短路径启发式算法加以解决。实验证明聚合解码可以有效降低单点数据重构中的传输开销。
  在单点数据重构研究的基础上,本文进一步针对多点数据重构中的数据传输开销问题进行研究。本文首先分析阐明了多点数据重构的重要意义,并基于马尔科夫过程提出一个多点失效模型。然后提出面向多点重构的协同聚合解码方法Redu,将纠删解码中的冗余数据传输分为内容重复和信息冗余,并针对两种情况分别提出内容重删和信息聚合,协同减少整体数据传输开销。为了最大化协同去冗余解码的效果,本文还提出了相应的路径选择方法。实验证明Redu可以有效降低多点数据重构中的传输开销。
  随后,本文研究了纠删码存储系统数据放置环节中的冗余布局问题。纠删码中冗余数据与原始数据的对应称为冗余关系,纠删码算法的冗余关系与集群拓扑节点之间的映射称为冗余布局。冗余布局决定了各原始数据和冗余数据具体放置在哪些存储节点。当前研究大多考虑理想的均衡失效模型,即各存储节点失效概率相同。本文针对实际异构失效模型下的冗余布局问题,分析了冗余关系和异构失效模型对数据重构的影响,提出一种基于异构失效模型的纠删码存储系统冗余布局策略HeMatch,优化纠删码冗余关系在集群拓扑上的放置来优化数据重构开销。实验证明HeMatch可以有效减少数据传输开销,同时增加系统可靠性。
  在对数据重构和放置的研究的基础上,本文接下来针对数据编码环节中的传输开销问题进行研究。本文分析了纠删编码过程,发现该过程不仅具有类似纠删解码的信息聚合特性,同时还具有将编码数据块分散存储到不同节点的数据分布特性。基于这两个特性,本文提出一种基于树的协同去冗余编码方法,将纠删编码过程中的数据传输分为干路和支路,分别提出基于干路的去重传输和基于支路的聚合编码来消减冗余传输开销,并提出优化的路径树构造方法。实验证明协同去冗余编码方法可以有效减少数据编码环节中的传输开销。
  综上所述,本文对大规模分布式纠删码存储系统中的高效数据传输技术进行了一系列研究,对于推动纠删码存储技术的发展和提升分布式存储集群网络性能具有一定的理论意义和应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号