首页> 中文期刊> 《计算机工程与科学》 >基于频繁词集和k-Means的Web文本聚类混合算法

基于频繁词集和k-Means的Web文本聚类混合算法

         

摘要

当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性.针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC.该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释.topHDC避免了已有算法中聚类结果受文档长度干扰的问题.在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号