首页> 中文学位 >基于内存的HDFS数据存储技术研究
【6h】

基于内存的HDFS数据存储技术研究

代理获取

目录

声明

摘要

第1章 引言

1.1 研究背景

1.2 研究现状

1.2.1 云环境下的数据处理系统研究现状

1.2.2 云环境下的基于内存的数据处理系统研究现状

1.2.3 云环境下Hadoop分布式文件系统研究现状

1.2.4 研究现状总结

1.3 论文研究目标与意义

1.4 论文研究内容

1.5 论文组织结构

第2章 Hadoop分布式文件系统介绍

2.1 HDFS的基本框架

2.1.1 主从分布式结构

2.1.2 HDFS文件存储组织

2.2 数据读写过程

2.2.1 数据读取过程

2.2.2 数据写入过程

2.3 HDFS多副本存储放置策略

2.3.1 数据块多副本存储策略

2.3.2 数据块多副本放置策略

2.3.3 副本重新创建过程

2.4 小结

第3章 内存存储资源分配与管理

3.1 内存存储资源分配

3.1.1 合理分配各节点的内存资源

3.1.2 配置可用内存空间

3.2 内存存储资源管理

3.2.1 数据节点存储管理结构

3.2.2 数据节点存储路径选择策略

3.3 小结

第4章 内存存储的副本放置优化策略

4.1 副本放置代价模型

4.2 按机架分层的副本放置节点选择策略

4.2.1 按机架分层分配副本放置节点数量

4.2.2 按机架分层选择副本放置节点过程

4.3 小结

第5章 内存存储数据置换方法

5.1 数据置换阈值设置

5.1.1 触发数据置换的阈值

5.1.2 停止数据置换的阈值

5.2 文件热度的计算与更新

5.2.1 文件热度计算方法

5.2.2 文件热度更新方法

5.3 基于文件热度的数据置换过程

5.4 小结

第6章 系统性能分析

6.1 基于内存的HDFS系统框架

6.2 实验环境

6.2.1 硬件环境

6.2.1 软件环境

6.3 性能对比

6.3.1 单节点上的性能对比

6.3.2 多节点上的性能对比

6.4 小结

第7章 总结与展望

7.1 论文总结

7.2 展望

参考文献

致谢

附录

作者简历

攻读硕士学位期间相关研究工作

展开▼

摘要

随着互联网时代信息与数据的飞速增长,各行各业的数据规模都可以轻易地达到GB、TB甚至PB级。云计算数据处理系统Hadoop应运而生,其开源社区资源丰富,用户广泛,为各种大数据处理提供可靠的、性能可扩展的、灵活的计算环境。Hadoop数据处理平台上的大数据存储依赖于底层的分布式文件系统。然而该文件系统支持的存储介质单一,许多工作流的中间数据需要进行频繁的磁盘读写,这种读写开销不断增长影响了整个数据处理过程的效率。本文针对云环境下的海量数据存储介质单一导致吞吐率较低和数据访问时延较长问题,研究基于内存的Hadoop分布式文件系统数据存储技术。
  本文分析了当前分布式文件系统的系统架构和数据存储过程,设计基于内存的分布式文件系统。通过合理分配各个数据节点上可用的内存资源,使得集群中的数据节点可以有效管理一部分内存存储空间,实现分布式文件系统在进行数据读写操作时优先使用内存存储资源,提高数据的读写速率,使得整个系统的数据吞吐率随之提高。并在副本放置过程中,区分各个数据节点上内存存储资源与磁盘存储资源的差异,建立副本放置代价模型,选取存储和网络传输代价较小的数据节点进行副本放置,使得更多的数据写入内存中,加快数据的读写效率。最后本文提出了合理的内存数据置换方法,设定合理的触发和停止数据置换的阈值,设计文件热度计算与更新算法,在数据置换时,将内存中热度较低的文件置换到磁盘中,保证集群中的数据节点上有一定的内存可用空间,可以持续的为用户提供高吞吐率的数据读写服务。
  本文改进现有的HDFS,设计开发基于内存的Hadoop分布式文件系统,实现了上述功能。并搭建实验平台,通过Hadoop数据读写基准测试与基于磁盘的HDFS进行性能测试对比。实验结果表明,基于内存的HDFS数据存储系统能有效提高数据访问速率和系统的数据吞吐率,具有明显性能优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号