基于内存的HDFS数据存储技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网时代信息与数据的飞速增长，各行各业的数据规模都可以轻易地达到GB、TB甚至PB级。云计算数据处理系统Hadoop应运而生，其开源社区资源丰富，用户广泛，为各种大数据处理提供可靠的、性能可扩展的、灵活的计算环境。Hadoop数据处理平台上的大数据存储依赖于底层的分布式文件系统。然而该文件系统支持的存储介质单一，许多工作流的中间数据需要进行频繁的磁盘读写，这种读写开销不断增长影响了整个数据处理过程的效率。本文针对云环境下的海量数据存储介质单一导致吞吐率较低和数据访问时延较长问题，研究基于内存的Hadoop分布式文件系统数据存储技术。
　　本文分析了当前分布式文件系统的系统架构和数据存储过程，设计基于内存的分布式文件系统。通过合理分配各个数据节点上可用的内存资源，使得集群中的数据节点可以有效管理一部分内存存储空间，实现分布式文件系统在进行数据读写操作时优先使用内存存储资源，提高数据的读写速率，使得整个系统的数据吞吐率随之提高。并在副本放置过程中，区分各个数据节点上内存存储资源与磁盘存储资源的差异，建立副本放置代价模型，选取存储和网络传输代价较小的数据节点进行副本放置，使得更多的数据写入内存中，加快数据的读写效率。最后本文提出了合理的内存数据置换方法，设定合理的触发和停止数据置换的阈值，设计文件热度计算与更新算法，在数据置换时，将内存中热度较低的文件置换到磁盘中，保证集群中的数据节点上有一定的内存可用空间，可以持续的为用户提供高吞吐率的数据读写服务。
　　本文改进现有的HDFS，设计开发基于内存的Hadoop分布式文件系统，实现了上述功能。并搭建实验平台，通过Hadoop数据读写基准测试与基于磁盘的HDFS进行性能测试对比。实验结果表明，基于内存的HDFS数据存储系统能有效提高数据访问速率和系统的数据吞吐率，具有明显性能优势。

著录项

作者
钱雪娇;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科计算机技术
授予学位硕士
导师姓名宋爱波,王山东;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.133.1;
关键词
分布式文件系统; 数据存储技术; 内存空间; 访问速率; 吞吐率;

相似文献

中文文献
外文文献
专利

1. 一种面向低延迟的内存HDFS数据存储策略 [J] . 英昌甜 ,于炯 ,廖彬 . 微电子学与计算机 . 2014,第11期
2. 基于HBase与HDFS的防汛抗洪空间数据存储设计及应用 [J] . 邹聪聪 ,范哲南 ,徐笑笑 . 信息通信 . 2021,第009期
3. 基于HDFS+Spark的时空大数据存储与处理——以智慧无锡时空大数据为例 [J] . 贾旖旎 ,周新民 ,曹芳 . 软件 . 2019,第011期
4. 基于HDFS分布式文件系统的大数据存储优点与功能 [J] . . 科学大众 . 2018,第001期
5. 基于HDFS的电力设备监测数据存储设计研究 [J] . 占永红 ,王东 ,吴丽莎 . 中州煤炭 . 2017,第012期
6. 基于hadoop云平台的智能电网HDFS资源存储技术研究 [C] . MENG Xiang-ping ,孟祥萍 ,ZHOU Lai . 全国电工仪器仪表标准化技术委员会第五届第二次全体委员会议暨2014第二十九届电磁测量技术、标准、产品国际研讨会 . 2014
7. 基于HDFS的云环境数据存储优化技术研究 [A] . 陈芳州 . 2019

基于内存的HDFS数据存储技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅