首页> 中文期刊> 《计算机科学》 >一种基于MapReduce的文本聚类方法研究

一种基于MapReduce的文本聚类方法研究

         

摘要

在文本聚类中,相似性度量是影响聚类效果的重要因素.常用的相似性度量测度,如欧氏距离、相关系数等,只能描述文本间的低阶相关性,而文本间的关系非常复杂,基于低阶相关测度的聚类效果不太理想.一些基于复杂测度的文本聚类方法已被提出,但随着数据规模的扩展,文本聚类的计算量不断增加,传统的聚类方法已不适用于大规模文本聚类.针对上述问题,提出一种基于MapReduce的分布式聚类方法,该方法对传统K-means算法进行了改进,采用了基于信息损失量的相似性度量.为进一步提高聚类的效率,将该方法与基于MapReduce的主成分分析方法相结合,以降低文本特征向量的维数.实例分析表明,提出的大规模文本聚类方法的聚类性能比已有的聚类方法更好.

著录项

  • 来源
    《计算机科学》 |2016年第1期|246-250269|共6页
  • 作者单位

    北京交通大学软件学院 北京100044;

    山东省计算中心(国家超级计算济南中心)济南250014;

    山东省计算机网络重点实验室 济南250014;

    山东省电子政务大数据工程技术研究中心 济南250014;

    山东省计算机网络重点实验室 济南250014;

    山东省电子政务大数据工程技术研究中心 济南250014;

    山东省计算中心(国家超级计算济南中心)济南250014;

    山东省计算机网络重点实验室 济南250014;

    山东省计算机网络重点实验室 济南250014;

    山东省电子政务大数据工程技术研究中心 济南250014;

    山东省计算机网络重点实验室 济南250014;

    山东省电子政务大数据工程技术研究中心 济南250014;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 程序设计、软件工程;
  • 关键词

    文本聚类; MapReduce; K-means; 信息损失;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号