基于频繁词集和k-Means的Web文本聚类混合算法

王乐; 田李; 贾焰; 韩伟红

首页> 中文期刊> 《计算机工程与科学》 >基于频繁词集和k-Means的Web文本聚类混合算法

基于频繁词集和k-Means的Web文本聚类混合算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性.针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC.该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释.topHDC避免了已有算法中聚类结果受文档长度干扰的问题.在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法.

著录项

来源
《计算机工程与科学》 |2008年第8期|92-96119|共6页
作者
王乐; 田李; 贾焰; 韩伟红;
展开▼
作者单位

国防科技大学计算机学院;

湖南;

长沙;

410073;

国防科技大学计算机学院;

湖南;

长沙;

410073;

国防科技大学计算机学院;

湖南;

长沙;

410073;

国防科技大学计算机学院;

湖南;

长沙;

410073;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
文本挖掘; 聚类; 频繁词集; k-means;

相似文献

中文文献
外文文献
专利

1. 一种基于频繁词集表示的新文本聚类方法 [J] . 张雪松 ,贾彩燕 . 计算机研究与发展 . 2018,第001期
2. 基于句子级最大频繁单词集的Web文档聚类研究 [J] . 路松峰 ,陈云开 ,袁莉 . 计算机科学 . 2007,第007期
3. 基于Hadoop平台的一种改进K-means文本聚类算法 [J] . 潘俊辉 ,王辉 ,张强 . 微型电脑应用 . 2022,第1期
4. 基于Synonyms、k-means的短文本聚类算法 [J] . 回玥婷 ,夏懿嘉 ,陈紫荷 . 电脑知识与技术 . 2019,第001期
5. 基于改进粒子群和K-Means的文本聚类算法研究 [J] . 钮永莉1 ,武斌1 . 兰州文理学院学报：自然科学版 . 2019,第004期
6. 一种基于频繁词集的文本分类算法 [C] . Yuan Man ,袁满 ,Ouyang Yuanxin . 2012年第三届中国计算机学会服务计算学术会议 . 2012
7. 基于频繁词集和复杂网络的文本聚类 [A] . 陈梦 . 2019

基于频繁词集和k-Means的Web文本聚类混合算法

摘要

著录项

相似文献

相关主题

期刊订阅