首页> 中文期刊> 《计算机工程与应用》 >基于频繁子树模式的GML文档结构聚类算法

基于频繁子树模式的GML文档结构聚类算法

         

摘要

This paper presents algorithm GCFS for clustering GML document structure based on frequent subtree patterns.It firstly mines all maximal and closed frequent Induced subtrees from GML documents; then chooses some subtree patterns to form the clustering features,weights these features according to the length of subtree pattern,computes the similarity of two GML documents by cosine function,uses K-Means algorithm to cluster documents by clustering features.Experiment results show that GCFS is effective and efficient.Its performance is superior to other GML clustering algorithms.%提出了一种基于频繁子树模式的GML文档结构聚类算法GCFS(GML Clustering based on Frequent Subtree patterns),与其他相关算法不同,该算法首先挖掘GML文档集合中的最大与闭合频繁Induced子树,并将其作为聚类特征,根据频繁子树的大小赋予不同的权值,采用余弦函数定义相似度,利用K-Means算法对聚类特征进行聚类.实验结果表明算法GCFS是有效的,具有较高的聚类效率,性能优于其他同类算法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号