首页> 中文学位 >数据质量和隐私保护中聚类分类算法的应用研究
【6h】

数据质量和隐私保护中聚类分类算法的应用研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章引言

1.1研究背景

1.2数据质景和隐私保护相关研究现状

1.2.1数据质量的定义

1.2.2数据质量整体框架研究现状

1.2.3数据质量技术研究现状

1.2.4基于隐私保护的数据挖掘研究现状

1.3聚类算法相关研究现状

1.3.1等级法(hierarchical method)

1.3.2划分法(partitioning method)

1.3.3基于密度的方法(density-based method)

1.3.4基于网格的方法(grid-based method)

1.3.5基于模型的方法(model-based method)

1.4分类预测相关研究现状

1.5本文工作

1.5.1 研究内容与成果

1.5.2组织结构

第二章连续分类预测一致性算法

2.1简介

2.2连续分类预测一致性定义

2.2.1连续函数定义

2.2.2连续分类一致性定义

2.3 SOM聚类算法中的连续分类一致性定义

2.3.1 SOM方法介绍

2.3.2关于SOM的连续分类一致性定义

2.4基于SOM连续分类一致性定义的分类算法

2.4.1 BP方法简介

2.4.2 基于SOM连续分类一致性定义的分类算法

2.4.3 问题定义和试验结果的对比分析

2.5连续分类预测一致性定义的分析

2.6结论和展望

第三章基于聚类加权的快速核办法

3.1引言

3.2相关工作

3.2.1核方法介绍

3.2.2基于聚类加权的快速核方法框架

3.3基于聚类加权的快速核Foley-Sammon变换(FCKFST)算法

3.3.1 Kernel Foley-Sammon Transform介绍

3.3.2 基于聚类加权的快述Foley-Sammon变换(FCFST)算法

3.3.3 基于聚类加权的快速Kernel Foley-Sammon变换(FCKFST)算法

3.3.4实验结果

3.4基于聚类加权的快速Kernel Principal Component Analysis(KPCA)算法

3.4.1 Kernel Principal Component Analysis介绍

3.4.2基于聚类的PCA方法

3.4.3 基于聚类加权的快速Kernel Principal Component Analysis (FKPCA)算法

3.4.4 实验结果

3.5理论分析

3.6 结论

第四章 基于偏离Gauss分布的变量聚类ICA方法

4.1引言

4.2等级聚类方法介绍

4.3 基于Parson Correlation 相关关系数的变量聚类ICA方法

4.4基于偏离Gauss分布的变量聚类ICA方法

4.4.1 基于偏离Gauss分布的变量聚类方法

4.4.2基于偏离Gauss分布的变量聚类ICA方法

4.5实验结果和分析

4.6结论

第五章基于反向分层变量聚类的数据库加速算法

5.1 引言

5.2问题描述

5.3 基于反向分层变量聚类的加速算法

5.4 实验结果

5.5结语

第六章基于等距加密和案例推理的旅游线路聚类算法

6.1引言

6.2相关工作

6.2.1基于案例推理

6.2.2基于隐私保护的数据挖掘

6.3基于旋转变换和案例推理的旅游线路聚类算法

6.3.1旋转变换加密算法

6.3.2 基于旋转变换和案例推理的旅游线路聚类算法

6.3.3安全性分析

6.4基于Johuson-Lindenstrauss随机映射和K-最近邻法的旅游线路分类算法

6.5基于流形学习和K-最近邻法的旅游线路分类算法

6.5.1流形学习的介绍

6.5.2 几种常见流形学习算法介绍

6.5.3 基于流形学习和K-最近邻法的旅游线路分类算法

6.6实验结果

6.6.1实际数据集

6.6.2实验过程和结果

6.7结束语

第七章结合先验知识和分形理论的水量预测算法

7.1改进嵌入维数和时间延迟计算的GP预测算法

7.1.1 GP算法

7.1.2 改进嵌入维数和时间延迟计算的GP预测算法

7.2结合先验知识和分形理论的水量预测算法

7.2.1 结合先验知识和分形理论的水量预测算法

7.2.2实验结果

7.3 结论和展望

第八章结论

参考文献

攻读博士学位期间的研究成果

致谢

展开▼

摘要

数据质量和隐私保护问题已经引起了学术界广泛的关注,并已成为当前学术界的热点研究领域.数据质量并不仅仅是指数据错误,通常定义为数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)这四个指标在信息系统中得到的满足程度,也有文献把“适合使用”作为衡量数据质量的初步标准.基于隐私保护的数据挖掘是指在尽量不影响挖掘结果的情况下,让一些敏感信息得到尽可能多的保密. 当前数据质量的研究大多集中在相似重复记录清理、不完整数据清理和错误数据清理等方面.为了更适合不同数据挖掘任务的完成,本文拓宽了数据质量的定义内涵,将对数据集基于不同目标进行变换都称为提高数据质量的操作.本文主要使用了多种聚类策略来提高不同挖掘目标的数据质量. 本文拓展了传统的数据一致性(consistency)定义,借鉴连续函数的思想,提出了一个分类样本空间的一致性度量概念来衡量数据集的分类一致性,进一步将其推广到数值型连续数据上.作为具体验证,将提出的连续分类一致性定义用到了SOM方法中,得到基于SOM连续分类一致性定义的分类方法.最后从VC维的角度分析了提出算法的优点. 为了使核方法适用于大规模数据集的求解,本文提出了基于聚类加权的快速核方法.快速聚类核方法使用聚类方法让原始数据集规模缩小,从而解决了核计算中大规模矩阵的计算效率(甚至不可运行)的问题,使矩阵特征值求解问题的规模从O(n3)下降到O(τ3),τ<

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号