首页> 中文学位 >高性能计算中作业调度技术与集群管理系统的研究
【6h】

高性能计算中作业调度技术与集群管理系统的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪 论

1.1 课题研究的背景及意义

1.2 国内外研究现状和发展趋势

1.3 本文的主要研究工作及主要章节安排

1.4 本章小结

第2章 高性能计算集群的体系架构

2.1 集群系统概述

2.2 Linux高性能集群系统

2.3 Linux高性能集群系统平台的构成

2.4 典型Linux高性能集群拓扑图

2.5 本章小结

第3章 基于Web的高性能计算集群管理系统

3.1 集群管理系统中作业调度系统的选取

3.2 集群管理系统Web服务网格门户技术

3.3 集群监控工具Ganglia的架构及工作原理

3.4 集群管理系统所用到的主要技术

3.5 CCLAB各模块工作状态显示

3.6 本章小结

第4章 基于节点负载情况自定义优先级预约回填策略的设计

4.1 作业调度分类及过程

4.2 Torque的体系架构

4.3 Torque默认的调度器

4.4 集成调度器Maui

4.5 基于节点负载情况自定义优先级预约回填策略

4.6 BLPRB策略的算法理论分析

4.7 本章小结

第5章 BLPRB策略模拟实验及性能分析

5.1 搭建集群环境

5.2 衡量作业调度性能的指标

5.3 实验结果分析

5.4 本章小结

第6章 总结与展望

6.1 全文小结

6.2 未来展望

参考文献

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

计算科学从诞生以来,已经在科学研究、工程技术以及军事等方面取得了巨大的成就。在计算科学的发展过程中,高性能计算技术凭借其易用性、灵活性和平台无关性等特点,在国内外广受关注。同时,高性能计算也是许多计算学科的工具基础,正因如此,高性能计算中常用的集群技术正愈发受到各科研部门的重视和关注。
  集群管理系统主要包括了资源管理、作业管理和用户管理,本文主要从高性能计算的起源、发展趋势以及相比大型机的优势所在等方面阐述高性能计算中资源管理、作业管理和用户管理的研究成果。
  本文主要的工作如下:
  1、介绍了集群硬件架构的发展过程,分析了Linux高性能集群系统平台的构成,阐述了集群中各硬件节点以及所用网络的功能,同时对集群中软件架构进行了分析;
  2、以资源管理器Torque与作业调度器Maui组合为基础,结合监控软件Ganglia,给出利用Python语言在Django框架下开发集群系统管理软件CCLAB的过程。
  3、分析了CCLAB中“作业调度”、“集群用户”和“集群监控”三个Portlet的设计开发过程,给出了CCLAB中URL的设计过程,并分析了文中采用的GPFS并行文件系统、消息传递接口(MPI)技术以及集群远程电源管理的工作原理;
  4、分析了作业调度的分类和过程,根据作业调度器Maui调度作业的方式对作业调度进行数学模型抽象,通过有向无环图(DAG图)解释调度过程。在分析了常用的FCFS策略、优先级调度策略、Firstfit策略、Bestfit策、预约策略和回填策略优缺点的基础上,改进并分析了一种基于节点负载情况自定义优先级预约回填的策略(“BLPRB”策略),拓展了单、双策略的研究,并对其实现节点负载评估、作业优先级确定和预约资源以及回填作业的过程进行详细分析,给出“BLPRB”策略确定预约作业最迟执行时间和解决大作业饥饿问题的算法理论分析,最后将该策略集成到Maui调度器中。
  在搭建的高性能计算平台上进行验证分析,结果表明BLPRB策略相比Firstfit和FCFS,作业最大响应时间最大减幅达到26.17%和25.99%,吞吐率最大提升达到54.55%和30.77%,对比Firstfit策略和FCFS策略,BLPRB策略在平均等待时间上的最大降幅分别为35.22%和60.58%。测试结果表明BLPRB策略一定程度上提高了集群的系统利用率和吞吐率。文中开发的CCLAB大大降低了集群管理员的负担,有一定的实际价值,改进后的新型作业调度策略能在一定程度上提升集群资源的利用率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号