声明
摘要
第1章绪论
1.1研究背景及研究意义
1.2国内外研究现状
1.2.1能耗统计与建筑节能现状
1.2.2大数据平台研究现状
1.3论文研究内容
1.4论文组织结构
第2章相关技术背景
2.1大数据分布式处理框架Hadoop
2.1.1作业调度与集群资源管理框架YARN
2.1.2分布式文件系统HDFS
2.1.3 MapReduce计算框架
2.2内存计算框架Spark
2.2.1 Spark中的主要组件
2.2.2 Spark弹性分布式数曙集与有向无环图
2.2.3 Spark中的检查点机制
2.3其他相关技术
2.3.1海量日志采集系统Flume
2.3.2分布式消息队列Katka
2.3.3数据仓库Hive
2.3.4分布式列式数据库HBase
2.4本章小结
第3章平台总体需求分析与设计
3.1总体需求分析
3.1.1平台功能需求
3.1.2平台性能需求
3.2平台总体架构设计
3.2.1大数据平台架构分析
3.2.2批处理层设计
3.2.3实时处理层设计
3.2.4服务层设计
3.3本章小结
第4章平台关键组件设计
4.1基于YARN资源调度器的作业数调节方法设计
4.1.1 YARN的研究现状分析
4.1.2基于YARN资源调度器的作业数调节方法
4.2 Spark自动化检查点设置方法设计
4.2.1 Spark检查点研究现状分析
4.2.2 RDD权重计算模型
4.2.3 Spark自动化检查点设置方法
4.3本章小结
5.1平台实现
5.1.1平台搭建与配置
5.1.2批处理层实现
5.1.3实时处理层实现
5.1.4服务层实现
5.2平台关键模块性能测试
5.2.1基于YARN资源调度器的作业数调节方法测试
5.2.2 Spark自动化检查点设置方法测试
5.3本章小结
第6章总结与展望
6.1总结
6.2展望
参考文献
攻读硕士学位期间的研究成果
致谢
浙江理工大学;