首页> 中文会议>NDBC2009第26届中国数据库学术会议 >InfoSigs:一种面向WEB对象的细粒度聚类算法

InfoSigs:一种面向WEB对象的细粒度聚类算法

摘要

面向WEB对象的细粒度聚类已经成为学术界研究的热点。然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求。针对上述挑战,本文挖掘WEB文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对WEB对象的细粒度聚类。算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录问的相似度,减少噪音对合并过程的影响。实验结果表明,InfoSigs算法比传统聚类算法,如I-Match和Shingling,在F-MEASURE值上平均约有21.3%的提高,可以有效地运用到多领域WEB对象的聚类问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号