文摘
英文文摘
声明
第1章绪论
1.1问题的提出
1.2数据质量问题
1.2.1数据质量问题的概述
1.2.2数据质量问题的分类
1.3数据清洗的研究现状
1.3.1国外的研究现状
1.3.2国内研究现状
1.4数据清洗应用的基本领域
1.5本文的工作和内容组织
第2章数据清洗中相似重复记录知识
2.1相似重复记录概述
2.2记录的匹配知识
2.2.1距离函数
2.2.2相似度度量(Similarity Measure)方法
2.2.3基于N-gram的字符串匹配算法
2.2.4编辑距离(Edit Distance)
2.2.5 Cosine相似度(Cosine Simirality)函数
2.2.6 N-gram层次空间相似度度量
2.3消除相似重复记录的基本算法简介
2.3.1优先队列排序算法
2.3.2多个关键字相组合对数据集进行排序的方法
2.3.3 Smith-Waterman算法
2.3.4对象合并
2.3.5近邻排序算法
2.3.6改进的SNM算法
2.3.7 DBSCAN聚类方法
2.4清洗结果的评价标准
2.5本章小结
第3章DBSCAN聚类算法
3.1聚类
3.1.1主要聚类方法的分类
3.1.2 DBSCAN聚类之前的问题分析(数据准备)
3.2 DBSCAN聚类算法
3.3本章小结
第4章DBSCAN算法存在的问题及改进
4.1 DBSCAN算法存在的问题
4.2 pair-wise比较算法
4.3本章小结
第5章相似重复记录检测方法的实现
5.1数据结构的需求分析和定义
5.2与数据库的底层连接及数据交换
5.3 DBSCAN的聚类过程
5.3.1准备DBSCAN表
5.3.2寻找核心点
5.3.3聚类
5.4检测相似重复记录的算法
5.5测试实验
5.6本章小结
结论
参考文献
致谢
哈尔滨工程大学;