首页> 中文期刊> 《中国科技论文》 >基于迭代式MapReducede的海量数据并行聚类算法研究

基于迭代式MapReducede的海量数据并行聚类算法研究

         

摘要

为解决传统K-means算法在处理海量数据时存在的不足,提出了1种适用于并行Canopy-Kmeans算法的迭代式MapReduce模型.通过Canopy算法对数据进行初始聚类,得到初始聚类中心,并按照初始聚类将数据存储于Mapper节点,减少Mapper和Reducer节点之间通信线路,减小运算量;在Mapper节点和Reducer节点之间建立互通信,将聚类中心作为迭代流通信息,减少信息流量;最终通过1次运算过程输出最终聚类结果.实验结果证明,改进的算法在时间、正确率和加速比性能方面,均优于传统的串行K-means算法,并在基于传统MapReduce模型的K-means算法基础上有所提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号