首页> 中文学位 >基于DBSCAN算法的相似重复记录检测方法研究
【6h】

基于DBSCAN算法的相似重复记录检测方法研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1问题的提出

1.2数据质量问题

1.2.1数据质量问题的概述

1.2.2数据质量问题的分类

1.3数据清洗的研究现状

1.3.1国外的研究现状

1.3.2国内研究现状

1.4数据清洗应用的基本领域

1.5本文的工作和内容组织

第2章数据清洗中相似重复记录知识

2.1相似重复记录概述

2.2记录的匹配知识

2.2.1距离函数

2.2.2相似度度量(Similarity Measure)方法

2.2.3基于N-gram的字符串匹配算法

2.2.4编辑距离(Edit Distance)

2.2.5 Cosine相似度(Cosine Simirality)函数

2.2.6 N-gram层次空间相似度度量

2.3消除相似重复记录的基本算法简介

2.3.1优先队列排序算法

2.3.2多个关键字相组合对数据集进行排序的方法

2.3.3 Smith-Waterman算法

2.3.4对象合并

2.3.5近邻排序算法

2.3.6改进的SNM算法

2.3.7 DBSCAN聚类方法

2.4清洗结果的评价标准

2.5本章小结

第3章DBSCAN聚类算法

3.1聚类

3.1.1主要聚类方法的分类

3.1.2 DBSCAN聚类之前的问题分析(数据准备)

3.2 DBSCAN聚类算法

3.3本章小结

第4章DBSCAN算法存在的问题及改进

4.1 DBSCAN算法存在的问题

4.2 pair-wise比较算法

4.3本章小结

第5章相似重复记录检测方法的实现

5.1数据结构的需求分析和定义

5.2与数据库的底层连接及数据交换

5.3 DBSCAN的聚类过程

5.3.1准备DBSCAN表

5.3.2寻找核心点

5.3.3聚类

5.4检测相似重复记录的算法

5.5测试实验

5.6本章小结

结论

参考文献

致谢

展开▼

摘要

随着信息技术的飞速发展,决策人员在进行决策分析时对各方面信息和数据的依赖性越来越强,于是在数据库的基础上产生了满足决策分析所需要的数据环境-数据仓库。在构建数据仓库的过程中,其数据源是以异构形态分布的,这就使得导入数据仓库的数据存在问题,致使应用于数据仓库前端的决策支持系统的分析结果受到影响,从而影响决策支持系统的服务的质量。因此,企业数据质量管理正在获得越来越多的关注,数据清洗也正在成为数据仓库和数据挖掘乃至网络数据处理的一个重要课题,而相似重复记录的检测是完成数据清洗的关键。 本文首先对数据清洗的知识进行了全面阐述,介绍了数据清洗的概念、意义和国内外研究现状,并对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析和总结。在此基础上,论文详细讨论了相似重复记录检测所用到的相关知识和基本算法,对字段匹配和记录的相似性进行了深入的研究,并针对各步中存在的问题进行了改进,相似重复记录检测过程中,应用DBSCAN聚类算法对数据集中的记录进行聚类,DBSCAN具有聚类快,抗噪声能力强,能够发现任意形状簇的优势,但在对记录中的字符型变量转换为空间中的向量坐标时,用到了字符的ASCⅡ码,这样就会把本来不重复的记录归为一类,而且该聚类的特点,是根据区域的连通性来逐渐聚类,所以也会把一些记录区别比较大的记录也聚在同一个类中,在这种情形下采用pair-wise比较算法对聚类之后的每个类中的记录进行一次记录比较,以便更加准确的发现相似重复记录。 用DBSCAN聚类算法和pair-wise算法(称为改进的算法)对一个大的数据集进行测试,结果表明准确率有了一定的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号