基于迭代式MapReducede的海量数据并行聚类算法研究

高见文; 薛行贵; 罗杰; 姜源; 吴启武

首页> 中文期刊> 《中国科技论文》 >基于迭代式MapReducede的海量数据并行聚类算法研究

基于迭代式MapReducede的海量数据并行聚类算法研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为解决传统K-means算法在处理海量数据时存在的不足,提出了1种适用于并行Canopy-Kmeans算法的迭代式MapReduce模型.通过Canopy算法对数据进行初始聚类,得到初始聚类中心,并按照初始聚类将数据存储于Mapper节点,减少Mapper和Reducer节点之间通信线路,减小运算量;在Mapper节点和Reducer节点之间建立互通信,将聚类中心作为迭代流通信息,减少信息流量;最终通过1次运算过程输出最终聚类结果.实验结果证明,改进的算法在时间、正确率和加速比性能方面,均优于传统的串行K-means算法,并在基于传统MapReduce模型的K-means算法基础上有所提高.

著录项

来源
《中国科技论文》 |2016年第14期|1626-1631|共6页
作者
高见文; 薛行贵; 罗杰; 姜源; 吴启武;
展开▼
作者单位

武警工程大学研究生管理大队,西安710086;

武警工程大学研究生管理大队,西安710086;

武警工程大学研究生管理大队,西安710086;

武警工程大学研究生管理大队,西安710086;

武警工程大学信息工程系,西安710086;

展开▼
原文格式 PDF
正文语种 chi
中图分类理论、方法;信息处理技术;
关键词
数据挖掘; 迭代式MapReduce; Canopy算法; K-means算法; 并行运算;

相似文献

中文文献
外文文献
专利

1. 基于迭代式MapReducede的海量数据并行聚类算法研究 [J] . 高见文1 ,薛行贵1 ,罗杰1 . 中国科技论文 . 2016,第014期
2. 基于Graph模型的海量用电数据并行聚类分析 [J] . 陶鹏 ,张洋瑞 ,李梦宇 . 电力科学与技术学报 . 2020,第006期
3. 基于分布式无共享架构的海量数据并行查询平台 [J] . 秦东明 ,喻剑 ,张波 . 计算机科学 . 2019,第004期
4. 基于Hadoop的海量安全日志聚类算法研究 [J] . 陆勰 ,罗守山 ,张玉梅 . 信息网络安全 . 2018,第008期
5. 基于Spark的分布式大数据并行化聚类方法研究 [J] . 陶婧 . 湖北第二师范学院学报 . 2019,第008期
6. 面向可视化的HDF5格式海量数据并行转换方法研究 [C] . 谢光益 ,蔡勋 ,刘衡竹 . 第五届全国虚拟现实与可视化技术及应用学术会议 . 2005
7. 基于Sector/Sphere云计算平台的海量GC-MS数据并行处理算法研究与实现 [A] . 任洪军 . 2012

基于迭代式MapReducede的海量数据并行聚类算法研究

摘要

著录项

相似文献

相关主题

期刊订阅