首页> 中文学位 >大型数据集中离群数据挖掘算法研究及应用
【6h】

大型数据集中离群数据挖掘算法研究及应用

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 选题背景及研究意义

1.2 论文的主要研究内容及结构

2 离群数据挖掘的基础知识

2.1 数据基础

2.2 离群数据挖掘概述

2.3 离群数据挖掘与数据仓库的关系

2.4 离群挖掘相关技术

2.5 本章小结

3 离群数据挖掘算法概述

3.1 基于统计的算法

3.2 基于偏离的算法

3.3 基于规则的算法

3.4 基于聚类的算法

3.5 基于密度的算法

3.6 基于距离的算法

3.7 离群数据的分析

3.8 本章小结

4 基于两次聚类的离群数据挖掘算法

4.1 两种有效的KNN离群挖掘算法

4.2 基于两次聚类的离群数据挖掘方法

4.3 基于两次聚类的离群挖掘算法实验结果

4.4 本章小结

5 基于两次聚类的离群数据挖掘算法的应用

5.1 数据来源

5.2 数据预处理

5.3 挖掘过程及结果

5.4 本章小结

6 总结与展望

6.1 论文工作总结

6.2 后续工作展望

致谢

参考文献

附 录

展开▼

摘要

目前,数据挖掘在很多领域都是比较热门的一个话题,它是一个从大量的原始数据中发现潜在知识的过程。离群挖掘的主要目的是从大量的、不完全的、有噪声的各种数据中,发现隐含在其中的人们事先不知道但又具有潜在价值的信息或者知识。而离群数据是这样一种数据:它明显偏离其它数据、不满足数据的一般模式或者行为。
  离群点可能是“噪音”,但也可能是有意义的事件。实际情况下,在某些应用中,那些很少发生的事件很可能比经常发生的事件更有研究价值。因此,离群数据挖掘是一项非常重要且有意义的研究工作。离群数据挖掘已广泛应用于股票市场、电信、金融、入侵检测、天气预报等许多领域。离群数据挖掘包括两部分:离群数据检测和离群数据分析。本文主要研究了离群数据挖掘中的关键问题——离群数据的检测,通过分析几种离群数据挖掘算法的优缺点,提出了基于两次聚类的KNN离群数据挖掘算法,并通过在综合数据集上的实验验证了算法的准确性、高效性以及扩展性,最后将此算法应用于一个论坛注册用户行为的挖掘。本文的主要工作包括如下几方面:
  1.阐述了离群数据挖掘的国内外现状及其研究的意义、离群数据挖掘的过程及其与数据仓库的关系。综合分析了现有的离群数据挖掘算法,研究了常用的几种离群数据挖掘算法,分析了它们的优缺点、适用范围等。
  2.详细分析了两种基于KNN的离群数据挖掘算法,并在这两个算法的基础上提出了基于两次聚类的KNN离群数据挖掘算法,在综合数据集上的实验结果表明:基于两次聚类的离群数据挖掘算法是准确的,且较之于原算法更加高效。
  3.将基于两次聚类的算法应用于一个论坛注册用户的行为分析,结果证明了算法的准确性。
  论文通过在综合数据集以及真实数据集下进行的实验来评估基于两次聚类算法的性能。实验数据分别来自于UCI机器学习库、自动随机生成数据和一个团购导航网站论坛的注册用户。实验结果表明该算法准确且高效,实验取得了令人满意的结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号