首页> 中文期刊> 《计算机工程与应用》 >一种基于文档拓扑的相似性搜索算法

一种基于文档拓扑的相似性搜索算法

         

摘要

Searching for similar documents from the large number of documents quickly and efficiently is an important and time-consuming problem.The existing algorithms first find the candidate document set, and then sort them based on a document related evaluation to identify the most relevant ones.A topology-based document similarity search algorithm--Hub-Nis put forward, and the document similarity search problem is transformed into graph search problem, applying the pruning techniques, reducing the scope of scanned documents, and significantly improving retrieval efficiency.lt proves to be effective and feasible through experiment.%从海量文档中快速有效地搜索到相似文档是一个重要且耗时的问题.现有的文档相似性搜索算法是先找出候选文档集,再对候选文档进行相关性排序,找出最相关的文档.提出了一种基于文档拓扑的相似性搜索算法-Hub-N,将文档相似性搜索问题转化为图搜索问题,应用相应的剪枝技术,缩小了扫描文档的范围,提高了搜索效率.通过实验验证了算法的有效性和可行性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号