【24h】

Incomplete Big Data Distributed Clustering

机译:不完整的大数据分布式聚类

获取原文

摘要

Partially missing or blurring attribute values make data become incomplete during collecting data. Generally we use imputation or discarding method to deal with incomplete data before clustering. In this paper we proposed an a new similarity metrics algorithm based on incomplete information system. First algorithm divided the data set into a complete data set and non complete data set, and then the complete data set was clustered using the affinity propagation clustering algorithm, incomplete data according to the design method of the similarity metric is divided into the corresponding cluster. In order to improve the efficiency of the algorithm, designing the distributed clustering algorithm based on cloud computing technology. Experiment demonstrates the proposed algorithm can cluster the incomplete big data directly and improve the accuracy and effectively.
机译:部分丢失或模糊属性值使数据在收集数据期间变得不完整。 一般来说,我们使用归咎或丢弃方法来处理群集之前的不完整数据。 本文提出了一种基于不完整信息系统的新的相似度量算法。 第一算法将数据集分成完整的数据集和非完整数据集,然后使用关联传播聚类算法群集完整数据集,根据相似度量的设计方法的不完整数据被划分为相应的群集。 为了提高算法效率,基于云计算技术设计分布式聚类算法。 实验演示了所提出的算法可以直接聚类不完整的大数据并有效地提高准确性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号