封面
声明
中文摘要
英文摘要
目录
1 绪论
1.1 研究背景
1.2 研究目的和意义
1.3 数据预备域数据质量问题的国内外研究现状
1.4 本文研究的主要内容
1.5 本文创新点说明
2 数据仓库构建之数据预备域
2.1 数据仓库环境
2.2 数据仓库构建过程
2.3 数据预备域的结构
2.4 数据预备域的特点
2.5 本章小结
3 数据预备域的数据质量问题研究
3.1 研究数据预备域数据质量的背景
3.2 数据预备域之数据质量维度
3.3 数据预备域之数据可能存在的问题
3.4 数据预备域产生数据质量问题的原因
3.5 本章小结
4 数据预备域中相似重复记录识别算法的比较
4.1 相似重复记录识别算法简述
4.2 记录匹配算法
4.3 Cosine相似度在数据预备域中的实现
4.4 本章小结
5 基于数据预备域的记录匹配算法
5.1 基本术语和定义
5.2 消除相似重复记录算法
5.3 基于SNM算法的改进和实现
5.4 实验方法与结果分析
5.5 本章小结
6 论文总结与展望
6.1 论文研究总结
6.2 研究展望
参考文献
后记
附录:攻读硕士学位期间发表的部分学术论著