首页> 中文会议>2009中国计算机大会 >基于记录相似度估计的高效重复记录检测算法

基于记录相似度估计的高效重复记录检测算法

摘要

信息集成过程中出现的重复记录的存在为数据处理和分析带来了困难。重复记录检测已经成为当前数据库研究中的热点问题之一。基于二分图最优匹配的重复记录检测算法具有考虑到模式异构,支持多种数据类型等特点,适用于信息集成中的重复记录检测。然而,这种方法的不足之处在于其需要较大的时间开销,且由于其分类要求严苛,使得算法召回率受到影响.本文针对基于二分图最优匹配的方法存在的两个问题,基于编辑距离满足三角不等式以及记录相似度和属性相似度满足线性关系这两个性质,提出了一种基于记录相似度估计的高效重复记录检测算法,弥补了原始算法的两个缺点。理论分析和实验结果都表明了本文提出方法的正确性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号