声明
摘要
引言
1 研究背景
1.1 认知海量数据
1.2 国内外研究现状
1.2.1 运用的方法
1.2.2 存在的问题
1.3 研究意义
1.4 本章总结
2 相关技术
2.1 Hadoop平台
2.1.1 产生背景
2.1.2 相关组件
2.1.3 作用和意义
2.2 MapReduce编程模型
2.2.1 MapReduce介绍
2.2.2 MapReduce框架
2.2.3 应用范围
2.3 本章小结
3 基于抽样的方法设计
3.1 总体设计
3.1.1 实现步骤
3.1.2 解决的问题
3.1.3 存在的问题
3.2 抽样
3.2.1 抽样种类
3.2.2 抽样设计
3.2.3 理论证明
3.3 分区
3.3.1 分区方法
3.3.2 分区过程
3.3.3 算法设计
3.3.4 本章小结
4 实验部分
4.1 实验配置
4.1.1 集群架构
4.1.2 数据生成算法
4.2 实验性能评估
4.2.1 执行时间评估
4.2.2 数据平衡
4.3 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢