数据质量和隐私保护中聚类分类算法的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据质量和隐私保护问题已经引起了学术界广泛的关注，并已成为当前学术界的热点研究领域.数据质量并不仅仅是指数据错误，通常定义为数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)这四个指标在信息系统中得到的满足程度，也有文献把“适合使用”作为衡量数据质量的初步标准.基于隐私保护的数据挖掘是指在尽量不影响挖掘结果的情况下，让一些敏感信息得到尽可能多的保密. 当前数据质量的研究大多集中在相似重复记录清理、不完整数据清理和错误数据清理等方面.为了更适合不同数据挖掘任务的完成，本文拓宽了数据质量的定义内涵，将对数据集基于不同目标进行变换都称为提高数据质量的操作.本文主要使用了多种聚类策略来提高不同挖掘目标的数据质量. 本文拓展了传统的数据一致性(consistency)定义，借鉴连续函数的思想，提出了一个分类样本空间的一致性度量概念来衡量数据集的分类一致性，进一步将其推广到数值型连续数据上.作为具体验证，将提出的连续分类一致性定义用到了SOM方法中，得到基于SOM连续分类一致性定义的分类方法.最后从VC维的角度分析了提出算法的优点. 为了使核方法适用于大规模数据集的求解，本文提出了基于聚类加权的快速核方法.快速聚类核方法使用聚类方法让原始数据集规模缩小，从而解决了核计算中大规模矩阵的计算效率(甚至不可运行)的问题，使矩阵特征值求解问题的规模从O(n3)下降到O(τ3)，τ<

著录项

作者
吕威;
展开▼
作者单位

中山大学;

展开▼
授予单位中山大学;
学科应用数学
授予学位博士
导师姓名李磊,姚正安;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类数据安全;
关键词
数据质量; 隐私保护; 聚类分类算法; 数据一致性; 数据挖掘; 核方法; 先验知识; 分形理论; 水量预测;

相似文献

中文文献
外文文献
专利

1. 基于聚类分析的离群检测方法在电网数据质量管理中的应用研究 [J] . 严宇平 ,萧展辉 . 现代电子技术 . 2016,第015期
2. 基于最大树聚类的多超球体一类分类算法及其应用研究 [J] . 刘丽娟 ,陈果 . 中国机械工程 . 2012,第003期
3. 卷积神经网络中具有隐私保护属性的预测分类算法 [J] . 樊聪聪 ,向剑文 ,夏喆 . 计算机应用与软件 . 2022,第1期
4. 应用等距变换处理聚类分析中的隐私保护 [J] . 张国荣 ,印鉴 . 计算机应用研究 . 2006,第007期
5. 聚类评价在聚类算法选择中的应用研究 [J] . 王海燕 ,李晓玲 . 福建电脑 . 2015,第003期
6. Benford法则在水文数据质量挖掘中的应用研究 [C] . 余宇峰 ,万定生 . 2011全国开放式分布与并行计算学术年会 . 2011
7. 基于I-K-Means聚类的朴素贝叶斯HRNB分类算法在入侵检测中的应用研究 [A] . 崔静静 . 2014

数据质量和隐私保护中聚类分类算法的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅