首页> 中文学位 >在概念漂移的数据流中可探测新颖类别的分类技术
【6h】

在概念漂移的数据流中可探测新颖类别的分类技术

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

§1.1 研究背景与意义

§1.2 国内外研究现状

§1.3 研究内容

§1.4 文章组织结构

第二章 决策树分类算法和多分类器集成技术

§2.1分类的概念

§2.2 决策树分类算法

§2.3 ID3算法

§2.4 C4.5算法

§2.5多分类器集成技术

§2.6 本章小结

第三章 概念漂移和数据流集成分类技术

§3.1 数据流中的概念漂移及其检测方法

§3.2 数据流集成分类技术

§3.3自适应窗口大小的WCE技术

§3.4 算法描述与分析

§3.5 算法实验

§3.6 本章小结

第四章 可探测新颖类别的数据流分类技术

§4.1引言

§4.2 新颖类别探测

§4.3新颖类别探测框架

§4.4 基于聚类的新颖类别探测技术

§4.5 新颖类别探测算法改进

§4.6 实验结果与分析

§4.7 本章小结

第五章 总结与展望

§5.1 研究工作总结

§5.2 今后工作展望

参考文献

致谢

攻读硕士学位期间发表的论文和参与的科研项目

展开▼

摘要

分类问题一直以来都是数据挖掘领域中一项重要的研究内容,在许多领域有着重要的应用。在传感器网络、股票交易、互联网以及卫星导航等信息传输领域中,连续、无限且分布随时间动态变化的流式数据逐渐成为数据的主要表现形式,人们迫切地希望从这些不断增长的数据中挖掘出有用的知识。但是,动态变化的数据流中不但包含已知概念间的演变(概念漂移),还包含已知概念到未知概念的演变(新颖类别),这些潜在的未知的新颖概念给数据流挖掘研究提出了新的挑战。现有的数据流分类技术大多只关注于如何解决数据流快速、无限以及概念漂移等问题,而较少考虑到数据流中可能演变出新颖类别的情况。  针对以上提出的问题,本文从传统的数据流分类技术和基于概念漂移检测的集成分类技术入手,对可探测新颖类别的数据流分类技术展开研究。主要研究工作有:  (1)针对已有的数据流集成分类技术WCE将数据流等分成固定大小的数据块,以及频繁更新分类模型,导致分类准确率较低和处理速度较慢的问题,提出基于可变尺度滑动窗口的改进算法WCE-D。该算法对滑动窗口中流数据的分布变化进行周期检测以判断概念漂移,然后依据漂移状态决定是否学习和更新分类模型并调整窗口(数据块)大小,从而提高数据流的分类精度和减少分类耗时。实验结果表明,该算法比已有算法具有更高的分类精度和更快的分类速度。  (2)针对传统的k-means算法对初始中心点敏感,且假定数据对象所有属性具有相同权重的问题,结合k-means++的初始中心点选择算法和属性加权技术,提出了改进算法w-kmeans++。改进后的算法使用具体的算法来选择初始中心点,减少了算法的迭代次数。并且,算法在聚类计算中依据数据对象属性的重要程度赋予其不同的权重,使得聚类结果更接近实际情况。实验结果表明,与k-means和k-means++比较, w-kmeans++算法的聚类效果更好,速度更快。  (3)针对现有的可探测新颖类别的数据流集成分类技术新颖类别探测准确率不高和处理速度较慢的问题,采用改进的WCE-D算法作为分类算法框架以提高分类精度和分类速度,并采用改进的聚类算法w-kmeans++来聚类探测新颖类别,以提高新颖类别探测精度,最终完整提出一种在概念漂移的数据流中可探测新颖类别的集成分类算法DNCS。实验结果表明,DNCS算法较已有的算法具有更高的新颖类别探测精度和分类准确率以及更快的分类速度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号