基于DBSCAN算法的相似重复记录检测方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的飞速发展，决策人员在进行决策分析时对各方面信息和数据的依赖性越来越强，于是在数据库的基础上产生了满足决策分析所需要的数据环境－数据仓库。在构建数据仓库的过程中，其数据源是以异构形态分布的，这就使得导入数据仓库的数据存在问题，致使应用于数据仓库前端的决策支持系统的分析结果受到影响，从而影响决策支持系统的服务的质量。因此，企业数据质量管理正在获得越来越多的关注，数据清洗也正在成为数据仓库和数据挖掘乃至网络数据处理的一个重要课题，而相似重复记录的检测是完成数据清洗的关键。本文首先对数据清洗的知识进行了全面阐述，介绍了数据清洗的概念、意义和国内外研究现状，并对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析和总结。在此基础上，论文详细讨论了相似重复记录检测所用到的相关知识和基本算法，对字段匹配和记录的相似性进行了深入的研究，并针对各步中存在的问题进行了改进，相似重复记录检测过程中，应用DBSCAN聚类算法对数据集中的记录进行聚类，DBSCAN具有聚类快，抗噪声能力强，能够发现任意形状簇的优势，但在对记录中的字符型变量转换为空间中的向量坐标时，用到了字符的ASCⅡ码，这样就会把本来不重复的记录归为一类，而且该聚类的特点，是根据区域的连通性来逐渐聚类，所以也会把一些记录区别比较大的记录也聚在同一个类中，在这种情形下采用pair-wise比较算法对聚类之后的每个类中的记录进行一次记录比较，以便更加准确的发现相似重复记录。用DBSCAN聚类算法和pair-wise算法(称为改进的算法)对一个大的数据集进行测试，结果表明准确率有了一定的提高。

著录项

作者
崔亮;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科计算机应用技术
授予学位硕士
导师姓名王燕;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.132;
关键词
DBSCAN聚类算法; 相似重复记录; 数据仓库; 数据清洗;

相似文献

中文文献
外文文献
专利

1. 基于遗传神经网络的相似重复记录检测方法研究 [J] . 肖蕾 ,郭乐江 ,胡亚慧 . 舰船电子工程 . 2011,第002期
2. 基于相似重复记录检测的特征优选方法研究 [J] . 曹小峰 . 计算机工程与设计 . 2009,第023期
3. 关键属性组的相似重复记录检测方法研究 [J] . 宋国兴 ,周喜 ,马博 . 科学技术与工程 . 2017,第019期
4. 基于多目标蚁群优化的单类支持向量机相似重复记录检测 [J] . 吕国俊 ,曹建军 ,郑奇斌 . 兵工学报 . 2020,第002期
5. 基于划分的海量数据相似重复记录检测 [J] . 李莉 ,张晓雯 . 计算机系统应用 . 2019,第003期
6. 基于记录相似度估计的高效重复记录检测算法 [C] . 李默涵 ,王宏志 ,李建中 . 2009中国计算机大会 . 2009
7. 大数据环境下文本数据相似重复记录检测方法研究 [A] . 余通 . 2018

基于DBSCAN算法的相似重复记录检测方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅