首页> 外文会议>21st international conference on software engineering and data engineering 2012 >Deduplication Algorithms for DataBases and Data Warehouses
【24h】

Deduplication Algorithms for DataBases and Data Warehouses

机译:数据库和数据仓库的重复数据删除算法

获取原文
获取原文并翻译 | 示例

摘要

Data deduplication is a very important step in the process of heterogeneous data integration. It ensures a better quality of data results. Thus, the extraction of knowledge from these data is more accurate. We present in this paper, two sequential algorithms, improvements over Swoosh algorithms, to eliminate similar data. These algorithms are based on the Match and Merge functions that we have denned. The Match function is based on calculations of similarity distances depending on the type of data. The Merge function uses logical rules. We experimentally evaluate the algorithms using a random generated data.
机译:重复数据删除是异构数据集成过程中非常重要的一步。它确保了更好的数据结果质量。因此,从这些数据中提取知识更为准确。我们在本文中提出了两种顺序算法,它们是对Swoosh算法的改进,以消除相似数据。这些算法基于我们已经定义的Match和Merge函数。匹配功能基于根据数据类型的相似距离的计算。合并功能使用逻辑规则。我们使用随机生成的数据实验性地评估算法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号