基于TFIDF+LSA算法的新闻文本聚类与可视化

郝秀慧; 方贤进; 杨高明

首页> 中文期刊> 《计算机技术与发展》 >基于TFIDF+LSA算法的新闻文本聚类与可视化

基于TFIDF+LSA算法的新闻文本聚类与可视化

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也成为聚类研究的课题之一。该文提出一种结合词频反文档频率算法(term frequency,inverse document frequency,TFIDF)和潜在语义分析算法(latent semantic analysis,LSA)相结合的方法,来提高kmeans中文文本聚类的速度和可视化效果。将从网页上采集到的11456条新闻作为实验对象,通过基于TFIDF聚类和基于TFIDF+LSA聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient,SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index,CHI)和戴维斯-堡丁指数(Davies-Bouldin index,DBI)的值表明,该方法不仅能保证文本聚类的质量,还能大大提高文本聚类的速度和可视化效果。

著录项

来源
《计算机技术与发展》 |2022年第7期|34-38|共6页
作者
郝秀慧; 方贤进; 杨高明;
展开▼
作者单位

安徽理工大学计算机科学与工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
词频反文档频率; 潜在语义分析; 文本聚类速度; 文本聚类可视化; kmeans;

相似文献

中文文献
外文文献
专利

1. 一种基于MinHash的改进新闻文本聚类算法 [J] . 王安瑾 . 计算机技术与发展 . 2019,第002期
2. 四维文档向量模型的k-means新闻文本聚类算法 [J] . 高飞 ,鱼江 ,任芳 . 西藏大学学报（自然科学版） . 2013,第001期
3. 基于信息可视化技术的文本聚类方法研究 [J] . 杨峰 ,周宁 ,吴佳鑫 . 情报学报 . 2005,第006期
4. 基于蚁群算法的文本聚类算法的参数优化 [J] . 姚兴仁 ,赵刚 . 北京信息科技大学学报（自然科学版） . 2016,第003期
5. 基于DF算法改进的文本聚类特征选择算法 [J] . 樊东辉 ,王治和 ,陈建华 . 甘肃联合大学学报（自然科学版） . 2012,第001期
6. 基于隐主题分析和文本聚类的微博客新闻话题发现研究 [C] . 路荣 ,项亮 ,刘明荣 . 第六届全国信息检索学术会议 . 2010
7. 面向互联网新闻的文本聚类算法研究与实现 [A] . 闫玉华 . 2017

基于TFIDF+LSA算法的新闻文本聚类与可视化

摘要

著录项

相似文献

相关主题

期刊订阅