基于MapReduce的文本聚类算法并行化研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

网络中每天产生海量的文本、视频、图片等数据，其中文本数据占据了很大的比例且蕴含许多重要的信息，对文本数据进行数据挖掘在商业、医疗、科研等方面有着重要的价值。文本聚类是一种无监督的文本挖掘方法，它将文本数据集合划分为多个簇，簇中的文本相似，而不同簇间的文本相似度低。文本聚类在多个领域得到使用，如自然语言处理中利用文本聚类进行冗余消除，搜索引擎利用文本聚类产生简洁高效的搜索结果等。在面对大规模文本数据时，传统的文本聚类方法难以有效地处理。为了有效地对大规模文本数据进行聚类，本文对基于MapReduce编程模型的文本聚类算法进行研究。
　　吸引子传播算法（AP）是近年来提出的一种高效聚类算法，它通过数据对象间的消息传递选择聚类中心，并且不使用聚类个数作为参数，但AP算法存在振荡和聚类划分过细的问题。本文在解决AP算法缺陷的基础上，将其应用于文本聚类。
　　本文的主要内容如下：
　　1.在对文本预处理相关技术详细研究的基础上，针对词袋子模型在文本语义表达上的不足，提出将基于神经网络的 word2vec词向量模型和词频逆文档频率（TFIDF）相结合进行文本表示的方案，并将此方案应用于本文的文本表示中。
　　2.布谷鸟搜索算法（CS）是一种简单高效的元启发式算法，针对CS算法使用固定步长因子和发现概率导致算法易陷入局部最优解的不足，本文将当前最佳解信息和高斯扰动引入CS算法中，提出一种改进的CS算法，接着将其与AP算法相结合，提出一种基于改进CS算法的AP算法(CSAP)算法。
　　3. Spark是一个基于内存模型的 MapReduce实现，与 Hadoop平台相比， Spark提供大量友好的编程接口而不用过多的关注Map和Reduce函数的编写；Spark基于内存模型，中间结果存储在内存中，运行效率高，更适合迭代性算法。本文基于Spark平台，提出CSAP算法的并行化方案，并取得不错的加速比。

著录项

作者
徐春华;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科电子与通信工程
授予学位硕士
导师姓名孙健;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
文本聚类; 布谷鸟搜索算法; 吸引子传播算法; 迭代性算法; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于MapReduce并行化计算的大数据聚类算法 [J] . 张文杰 ,蒋烈辉 . 计算机应用研究 . 2020,第001期
2. 基于MapReduce的KMeans聚类算法的并行化实现 [J] . 张友海 ,李锋刚 . 九江学院学报（自然科学版） . 2017,第001期
3. 基于mapreduce的COBWEB聚类算法并行化研究 [J] . 陶雪娇 ,蒋阳 . 福建电脑 . 2017,第003期
4. 基于MapReduce的机器学习并行化研究与实现 [J] . 陈薇 . 产业与科技论坛 . 2017,第009期
5. 基于MapReduce网页文本并行化计算的研究 [J] . 尹铁源 ,张瑞琴 . 信息通信 . 2018,第004期
6. k-means聚类算法的MapReduce并行化实现 [C] . 李锦文 ,张清辉 ,魏化震 . 第三届中国国家网格学术年会 . 2011
7. 基于MapReduce的聚类算法并行化研究 [A] . 刘德超 . 2016

基于MapReduce的文本聚类算法并行化研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅