首页> 中文学位 >基于Ⅳ属性选择的随机森林模型研究
【6h】

基于Ⅳ属性选择的随机森林模型研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

致谢

引 言

第一章 数据挖掘概述

1.1数据挖掘概念

1.1.1数据挖掘的定义

1.1.2数据挖掘应用的现状

1.2数据挖掘任务及挑战

1.2.1高维数据挖掘

1.2.2海量数据挖掘

1.2.3流数据挖掘

1.2.4数据挖掘面临的挑战

1.3本章小结

第二章 属性选择方法概述

2.1属性选择概述

2.1.1属性选择定义

2.1.2属性选择的分类

2.1.3属性选择的评估方法

2.1.4属性选择面临的困难

2.2经典属性选择方法概述

2.2.1 Relief方法

2.2.2主成分分析方法(PCA)

2.2.3粗糙集合方法

2.2.4信息熵方法

2.2.5遗传算法

2.2.6 One-R方法

2.2.7 Wrapper方法

2.3属性选择方法实验及分析

2.4本章小结

第三章 Information Value概述

3.1 WoE(Weight of Evidence)简介

3.1.1 WoE的定义

3.1.2 WoE计算示例

3.1.3 WoE的优点

3.2 IV(Information Value)简介

3.2.1 IV指标的定义

3.2.2 IV指标计算示例

3.2.3 IV指标的优点与不足

3.3本章小结

第四章 基于IV指标的属性选择方法及分类模型研究

4.1基于IV的属性选择指标

4.2 FS-IV属性选择方法

4.2.1算法思想

4.2.2实验结果及分析

4.2.3实验分析

4.3基于FS-IV的随机森林算法

4.3.1随机森林简介

4.3.2随机森林讨论

4.3.3算法描述

4.3.4实验结果及分析

4.4本章小结

第五章 FS-IV及IV-RF模型的应用研究

5.1 入侵检测应用

5.1.1入侵检测数据集分析

5.1.2实验及分析

5.2网络交易数据流应用

5.2.1 Yahoo Shopping数据流分析

5.2.2实验结果及分析

5.3高维数据集上的应用

5.3.1高维数据集分析

5.3.2实验结果及分析

5.4本章小结

第六章 总结与展望

6.1本文总结

6.2工作展望

参考文献

攻读硕士学位期间参加研究的课题和发表的论文

展开▼

摘要

随着信息技术的迅速发展,众多应用领域如银行金融业、电子商务、生物信息、网络安全等产生了爆炸式的信息。不仅在数据规模上具有高维、海量的特征,在信息内容上还具有冗余多、噪音多的特点。这样的数据给挖掘技术带来了巨大的挑战,尤其是处理数据流等问题时,模型的实时性无法保障,使得更注重训练数据质量的分类模型训练周期变长,精度下降。因此,如何有效的减小数据规模,提高数据质量对提高分类模型的性能有着重要意义。
   本文针对属性选择及分类问题开展了以下工作的研究:
   (1)针对数据挖掘所面临的挑战,分析了有效缩减数据规模是重要的可行方法,并在此基础上概述了各类经典属性选择方法,探讨了它们的特点与不足。
   (2)针对已有属性选择方法在处理高维、海量数据时,时空性能与效果上的不足,分析了将WoE与IV指标引入属性选择的可行性及存在的问题,在解决这些问题的基础上提出了基于IV指标的属性选择方法FS-IV,实验表明该算法是有效的,与经典属性选择方法相比时空性能有明显优势,并具有一定的抗噪性。
   (3)针对属性选择后数据集出现的数据量大幅减少、优势属性集中可能会导致的过拟合等问题,分析了解决手段,将FS-IV方法与随机森林模型结合,提出了基于IV指标的随机森林模型,实验表明该模型与C4.5,朴素贝叶斯及经过FS-IV约简的C4.5与朴素贝叶斯模型相比,在不损失精度的情况下,时间性能大幅提升。
   (4)根据高维、海量、流数据等实际问题,对FS-IV及IV-RF模型做了适应性改进,实验表明它们对高维、海量数据有着很好的处理效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号