首页> 中文期刊> 《北京信息科技大学学报(自然科学版)》 >基于模糊综合评判的相似重复记录清洗方法

基于模糊综合评判的相似重复记录清洗方法

         

摘要

相似重复记录清洗对于提高数据仓库的数据质量有极其重要的意义,字段匹配算法是最常用的检测算法之一.针对该算法中属性权值确定主观性过强的问题,提出基于多用户模糊综合评判确定属性等级并根据用户评价结果计算属性权值的方法.在此基础上,进一步将属性切分为原子,通过计算原子相似度进而计算属性相似度,最后进行记录判重.实验结果表明该方法能较客观地反映属性的重要程度,通过切分属性为原子并判重也进一步提高了检测的精度.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号