基于Spark的方体计算与存储

摘要

联机分析处理(OLAP)工具基于方体(Data Cube)提供在多种粒度上对多维数据的交互式分析,成为现代数据仓库和决策支持系统的重要组件.大数据时代下,方体呈指数型膨胀,传统的单机生成技术陷入内存溢出、维度爆炸的困境,将分布式计算引入方体计算是必然选择.本文适配Spark的平台特性,提出行之有效的并行方体生成算法PipeCube,以及配套的物化设计和查询方法.本算法将搜索格划分为多条线型pipeline并串行执行之,同时引入数据炸裂技术和离散型pipeline的设计增加并行度;针对大数据量下的OLAP操作,本文设计方体的分布式存储和HashMap索引以实现精准定向,避免对文件的全量扫描.在不同数据规模和不同维度数量上的实验表明,PipeCube算法高度胜任大数据量、高维度数和有限内存的计算场景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号