首页> 中文学位 >基于MapReduce的文本聚类算法并行化研究与实现
【6h】

基于MapReduce的文本聚类算法并行化研究与实现

代理获取

目录

声明

第一章 绪 论

1.1 研究工作的背景与意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 本文的组织结构

第二章 MapReduce编程模型研究

2.1 MapReduce基本介绍

2.2 MapReduce模型实现

2.3 本章小结

第三章 文本聚类相关技术研究

3.1 文本预处理相关技术研究

3.2 聚类分析

3.3 word2vec简介

3.4 本章小结

第四章 布谷鸟搜索算法及其改进研究

4.1 布谷鸟搜索算法的理论基础

4.2 改进的布谷鸟搜索算法

4.3 仿真实验

4.4 本章小结

第五章 基于改进CS算法的吸引子传播算法研究

5.1 AP算法研究

5.2 AP算法改进

5.3 仿真实验

5.4 本章小结

第六章 基于Spark的文本聚类并行化研究

6.1基于Spark的文本预处理研究

6.2 基于Spark的CSAP算法研究

6.3实验验证

6.4 本章小结

第七章 总结与展望

7.1全文总结

7.2未来工作展望

致谢

参考文献

展开▼

摘要

网络中每天产生海量的文本、视频、图片等数据,其中文本数据占据了很大的比例且蕴含许多重要的信息,对文本数据进行数据挖掘在商业、医疗、科研等方面有着重要的价值。文本聚类是一种无监督的文本挖掘方法,它将文本数据集合划分为多个簇,簇中的文本相似,而不同簇间的文本相似度低。文本聚类在多个领域得到使用,如自然语言处理中利用文本聚类进行冗余消除,搜索引擎利用文本聚类产生简洁高效的搜索结果等。在面对大规模文本数据时,传统的文本聚类方法难以有效地处理。为了有效地对大规模文本数据进行聚类,本文对基于MapReduce编程模型的文本聚类算法进行研究。
  吸引子传播算法(AP)是近年来提出的一种高效聚类算法,它通过数据对象间的消息传递选择聚类中心,并且不使用聚类个数作为参数,但AP算法存在振荡和聚类划分过细的问题。本文在解决AP算法缺陷的基础上,将其应用于文本聚类。
  本文的主要内容如下:
  1.在对文本预处理相关技术详细研究的基础上,针对词袋子模型在文本语义表达上的不足,提出将基于神经网络的 word2vec词向量模型和词频逆文档频率(TFIDF)相结合进行文本表示的方案,并将此方案应用于本文的文本表示中。
  2.布谷鸟搜索算法(CS)是一种简单高效的元启发式算法,针对CS算法使用固定步长因子和发现概率导致算法易陷入局部最优解的不足,本文将当前最佳解信息和高斯扰动引入CS算法中,提出一种改进的CS算法,接着将其与AP算法相结合,提出一种基于改进CS算法的AP算法(CSAP)算法。
  3. Spark是一个基于内存模型的 MapReduce实现,与 Hadoop平台相比, Spark提供大量友好的编程接口而不用过多的关注Map和Reduce函数的编写;Spark基于内存模型,中间结果存储在内存中,运行效率高,更适合迭代性算法。本文基于Spark平台,提出CSAP算法的并行化方案,并取得不错的加速比。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号