首页> 中文学位 >数据仓库构建之数据预备域的数据质量问题研究
【6h】

数据仓库构建之数据预备域的数据质量问题研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景

1.2 研究目的和意义

1.3 数据预备域数据质量问题的国内外研究现状

1.4 本文研究的主要内容

1.5 本文创新点说明

2 数据仓库构建之数据预备域

2.1 数据仓库环境

2.2 数据仓库构建过程

2.3 数据预备域的结构

2.4 数据预备域的特点

2.5 本章小结

3 数据预备域的数据质量问题研究

3.1 研究数据预备域数据质量的背景

3.2 数据预备域之数据质量维度

3.3 数据预备域之数据可能存在的问题

3.4 数据预备域产生数据质量问题的原因

3.5 本章小结

4 数据预备域中相似重复记录识别算法的比较

4.1 相似重复记录识别算法简述

4.2 记录匹配算法

4.3 Cosine相似度在数据预备域中的实现

4.4 本章小结

5 基于数据预备域的记录匹配算法

5.1 基本术语和定义

5.2 消除相似重复记录算法

5.3 基于SNM算法的改进和实现

5.4 实验方法与结果分析

5.5 本章小结

6 论文总结与展望

6.1 论文研究总结

6.2 研究展望

参考文献

后记

附录:攻读硕士学位期间发表的部分学术论著

展开▼

摘要

数据仓库技术日新月异,再加上大数据时代的到来,企业需要多角度处理海量数据并从中获取决策支持的信息,面向事务处理的操作型数据库就显得力不从心,而面向主题集成海量数据的集成性数据仓库应企业的需求,开始快速发展起来。数据质量的高低能够对企业的发展起到至关重要的作用,低质量的数据会影响、甚至阻碍企业决策的准确性,相反,高质量的数据却可以推动企业对于决策准确性的判定。目前,数据仓库已经得到企业的广泛认可,而随着它们在企业中的应用,数据的质量成为了越来越多企业所关注的问题,也成为了建设数据仓库项目的决定性因素。
  数据仓库环境由数据预备域、数据处理域和数据存储域等三个相互独立的组件组成,其中数据预备域主要负责接收和转换来自源应用系统的数据,其输出的数据质量将直接决定着整个数据仓库的质量。本文首先讨论数据预备域的数据质量维度,在此基础上,讨论从操作源应用系统来的数据可能存在的质量问题,然后针对这些问题,讨论在数据预备域中如何处理,以得到高质量的数据。最后,本文对数据清洗问题,特别是探测和消除重复记录方面,做了充分的研究后,提出了基于数据预备域的记录匹配算法和消除数据仓库中相似重复记录的方法,以期消除数据仓库中的相似重复记录,进而提高数据质量。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号