首页> 中文学位 >MDC-Hadoop:异构多数据中心下的MapReduce任务调度方法
【6h】

MDC-Hadoop:异构多数据中心下的MapReduce任务调度方法

代理获取

目录

第一个书签之前

摘要

Abstract

1 绪论

1.1 研究背景

1.2 研究现状

1.2.1 在单数据中心下的任务调度

1.2.2 在多数据中心下的任务调度

1.3 研究目的与挑战

1.4 论文组织结构

2 问题描述与建模

2.1 改进的系统架构

2.2 问题描述

2.3 本章小结

3 地理分布的异构多数据中心下的MapReduce任务调度算法

3.1 算法总体框架

3.2 Map阶段任务调度

3.2.1 基于数据本地化的Map阶段任务调度

3.2.2 map阶段作业排序规则

3.2.4 匈牙利算法

3.2.5 时间复杂度分析

3.3 Reduce数据中心选择算法

3.4 Reduce阶段任务调度

3.4.1 基于执行时间的Reduce任务调度

3.4.2 reduce阶段作业和任务排序规则

3.4.3 时间复杂度分析

3.5 本章小结

4 实验与分析

4.1 实例生成

4.2 评价指标

4.2.1 相对误差百分比

4.2.2 负载均衡度

4.3 参数校正

4.4 方法比较与分析

4.5 本章小结

5 结论与展望

5.1 论文主要工作

5.2 未来展望

致谢

参考文献

作者简介

展开▼

摘要

任务调度是影响大数据分析性能的重要因素,已经成为了近些年来的MapReduce调度研究热点。近些年,大规模的数据密集型的计算需求变得越来越重要。在高能物理学领域,大型强子对撞机(LHC)每年产生的数据存储于超过40个国家的140个计算中心。由于数据的分布特点,将作业需要的数据汇聚到一个计算中心是不实用的。数据中心间的数据传输成为影响MapReduce任务调度的一个重要因素。在考虑截止期、数据本地化、中间数据处理和负载均衡的影响下,本文研究在地理分布的异构多数据中心下的MapReduce任务调度问题,具有重要的理论意义和应用前景。 本文考虑的在地理分布的异构多数据中心下的MapReduce任务调度问题,首先改进了G-Hadoop框架,并针对Map、Shuffle和Reduce阶段的问题特点和特性,分别建立了三个阶段的数学模型,然后给出了优化目标和约束条件,最后提出了在地理分布的异构多数据中心下的MapReduce任务调度算法。该算法主要分为三个部分:Map阶段任务调度、Reduce数据中心选择和Reduce阶段任务调度。在每个心跳期,根据当前系统的可用slot资源,以及Map阶段和Reduce阶段的作业和任务排序规则,构建任务就绪队列。Map阶段任务调度主要考虑数据本地化影响,以最小化总数据本地化代价为原则进行任务调度;在考虑作业中间数据处理时间以及Reduce阶段预估时间代价下,Reduce数据中心选择将会为每一个完成Map阶段的作业选择一个合适的数据中心处理该作业的Reduce任务,同时兼顾数据中心负载均衡;Reduce阶段任务调度是以最小化总任务执行时间为原则进行任务调度。 为验证所提出算法的效率和有效性,采用多因素方差分析技术对算法的相关参数和组件进行测试和分析,得到最适合求解该问题的相关参数值和组件;将提出的算法与对比算法在不同数据中心节点规模和作业规模的实例上进行比较和分析。实验结果表明,所提算法在不同数据中心节点规模和作业规模都优于对比算法。

著录项

  • 作者

    陈复超;

  • 作者单位

    东南大学;

  • 授予单位 东南大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 李小平;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    异构; 数据中心;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号