一种基于MapReduce的文本聚类方法研究

李钊; 李晓; 王春梅; 李诚; 杨春

首页> 中文期刊> 《计算机科学》 >一种基于MapReduce的文本聚类方法研究

一种基于MapReduce的文本聚类方法研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在文本聚类中,相似性度量是影响聚类效果的重要因素.常用的相似性度量测度,如欧氏距离、相关系数等,只能描述文本间的低阶相关性,而文本间的关系非常复杂,基于低阶相关测度的聚类效果不太理想.一些基于复杂测度的文本聚类方法已被提出,但随着数据规模的扩展,文本聚类的计算量不断增加,传统的聚类方法已不适用于大规模文本聚类.针对上述问题,提出一种基于MapReduce的分布式聚类方法,该方法对传统K-means算法进行了改进,采用了基于信息损失量的相似性度量.为进一步提高聚类的效率,将该方法与基于MapReduce的主成分分析方法相结合,以降低文本特征向量的维数.实例分析表明,提出的大规模文本聚类方法的聚类性能比已有的聚类方法更好.

著录项

来源
《计算机科学》 |2016年第1期|246-250269|共6页
作者
李钊; 李晓; 王春梅; 李诚; 杨春;
展开▼
作者单位

北京交通大学软件学院北京100044;

山东省计算中心(国家超级计算济南中心)济南250014;

山东省计算机网络重点实验室济南250014;

山东省电子政务大数据工程技术研究中心济南250014;

山东省计算机网络重点实验室济南250014;

山东省电子政务大数据工程技术研究中心济南250014;

山东省计算中心(国家超级计算济南中心)济南250014;

山东省计算机网络重点实验室济南250014;

山东省计算机网络重点实验室济南250014;

山东省电子政务大数据工程技术研究中心济南250014;

山东省计算机网络重点实验室济南250014;

山东省电子政务大数据工程技术研究中心济南250014;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
文本聚类; MapReduce; K-means; 信息损失;

相似文献

中文文献
外文文献
专利

1. 基于MapReduce的改进k-means文本聚类算法 [J] . 刘澎 ,陆介平 . 信息技术 . 2016,第011期
2. 基于MapReduce和网格密度的文本聚类分析研究 [J] . 孙海军 . 信息系统工程 . 2014,第010期
3. 基于MapReduce的并行遮盖文本聚类算法 [J] . 张亚楠 ,谭跃生 . 内蒙古科技大学学报 . 2013,第003期
4. 一种基于n—gram短语的文本聚类方法研究 [J] . 孙桂煌 . 现代计算机（专业版） . 2011,第014期
5. 一种基于MapReduce的改进文本输入方式的并行分词方法研究 [J] . 徐宏博 ,赵文涛 ,孟令军 . 电脑知识与技术 . 2016,第022期
6. 一种基于自动阈值发现的文本聚类方法 [C] . 张猛 ,王大玲 ,于戈 . 第二十一届中国数据库学术会议 . 2004
7. 基于MapReduce的文本聚类算法并行化研究与实现 [A] . 徐春华 . 2017

一种基于MapReduce的文本聚类方法研究

摘要

著录项

相似文献

相关主题

期刊订阅