中文文本关键词提取和文本聚类中聚类中心点选取算法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

现今文本处理领域研究的热点是如何方便用户快速准确的搜索到所需要的文本信息。文本聚类可以提高信息搜索效率，是文本检索的有效手段。关键词提取和聚类中心点选取是文本聚类研究中的关键问题。
　　常见的关键词提取算法可分为三类，基于语义的算法、基于机器学习的算法和基于统计模型的算法。基于语义的算法提高了关键词提取的准确率，但是依赖于背景知识库、词典等，无法提取出不包含于知识库的词或词组。基于机器学习的算法提高了关键词提取的准确率，但是训练样本、构建模型花费时间长。基于统计模型的算法原理简单，不需要训练样本，也不依赖于知识库。常见的聚类中心的选取方式有三种，随机选取初始聚类中心点、人为指定聚类中心点和根据待聚类点之间的相似度选取聚类中心点。随机选取的初始聚类中心点中可能包含“孤立点”，聚类结果局部最优。人为指定聚类中心点会因为每个人对文本集的了解程度不同而带有主观性，不适用于文本集数量很大的情况。根据待聚类点之间的相似度选取聚类中心点，可以使得选取的聚类中心点分布于各个类中并且尽量接近类中心点，但是计算聚类中心所需时间较长。
　　针对上述问题，本文做了如下研究：
　　（1）本文提出了基于词或词组长度和频数的关键词提取算法，算法首先提取出中文文本中出现频数较大的词或者词组，然后根据提取出的词或者词组的长度和在文本中出现的频数筛选出该文本的关键词。与现有的算法相比，本文提出的算法不依赖于背景知识库、词典等，可以提取出文本中的音译词和网络新词，无需通过对训练样本的训练获得统计参数，构建模型。
　　实验显示本文提出的关键词提取算法，关键词提取的准确率较高，提取出的关键词可以反映出该文本的主题。
　　（2）本文提出了基于文本之间相似度的聚类中心点选取算法，算法首先根据给定的文本集以及文本集中各个文本对应的关键词序列，构建向量空间模型，接着计算各个文本与其他文本之间的相似度，最后依据各个文本与其他文本之间的相似度筛选出聚类中心点。与现有的算法相比，本文算法选取的聚类中心点与较多的文本之间存在相似性且相似度值较大，同时相互之间的相似度较小。
　　实验显示本文提出的聚类中心点选取算法选取的聚类中心点分布于各个类中并且与类中心点接近。

著录项

作者
刘云;
展开▼
作者单位

江苏大学;

展开▼
授予单位江苏大学;
学科软件工程
授予学位硕士
导师姓名陈伟鹤;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
中文文本; 关键词提取; 文本聚类; 中心点选取; 机器学习; 统计模型;

相似文献

中文文献
外文文献
专利

1. 最优聚类个数和初始聚类中心点选取算法研究 [J] . 张素洁 ,赵怀慈 . 计算机应用研究 . 2017,第006期
2. 基于语境和语义的中文文本聚类算法研究 [J] . 吴勇 ,周军 . 科技信息 . 2010,第035期
3. DMK算法在中文文本聚类中的应用 [J] . 季圣洁 ,葛万成 . 信息通信 . 2018,第007期
4. ISOMAP在中文文本聚类分析中的应用 [J] . 王胜利 ,王科欣 . 微型电脑应用 . 2009,第008期
5. 小生境免疫算法在中文文本聚类中的应用 [J] . 于海 ,陈海雷 ,左万利 . 广西师范大学学报（自然科学版） . 2008,第001期
6. 基于WEKA的中文文本聚类研究 [C] . 韩普 ,刘艳云 . 2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIBOSS2011)学术研讨会 . 2011
7. 中文文本聚类中的特征提取 [A] . 石春刚 . 2006

中文文本关键词提取和文本聚类中聚类中心点选取算法研究

摘要

著录项

相似文献

相关主题

期刊订阅