基于Ⅳ属性选择的随机森林模型研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的迅速发展，众多应用领域如银行金融业、电子商务、生物信息、网络安全等产生了爆炸式的信息。不仅在数据规模上具有高维、海量的特征，在信息内容上还具有冗余多、噪音多的特点。这样的数据给挖掘技术带来了巨大的挑战，尤其是处理数据流等问题时，模型的实时性无法保障，使得更注重训练数据质量的分类模型训练周期变长，精度下降。因此，如何有效的减小数据规模，提高数据质量对提高分类模型的性能有着重要意义。
　　本文针对属性选择及分类问题开展了以下工作的研究：
　　 (1)针对数据挖掘所面临的挑战，分析了有效缩减数据规模是重要的可行方法，并在此基础上概述了各类经典属性选择方法，探讨了它们的特点与不足。
　　 (2)针对已有属性选择方法在处理高维、海量数据时，时空性能与效果上的不足，分析了将WoE与IV指标引入属性选择的可行性及存在的问题，在解决这些问题的基础上提出了基于IV指标的属性选择方法FS-IV，实验表明该算法是有效的，与经典属性选择方法相比时空性能有明显优势，并具有一定的抗噪性。
　　 (3)针对属性选择后数据集出现的数据量大幅减少、优势属性集中可能会导致的过拟合等问题，分析了解决手段，将FS-IV方法与随机森林模型结合，提出了基于IV指标的随机森林模型，实验表明该模型与C4.5，朴素贝叶斯及经过FS-IV约简的C4.5与朴素贝叶斯模型相比，在不损失精度的情况下，时间性能大幅提升。
　　 (4)根据高维、海量、流数据等实际问题，对FS-IV及IV-RF模型做了适应性改进，实验表明它们对高维、海量数据有着很好的处理效果。

著录项

作者
杨秋洁;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科计算机软件与理论
授予学位硕士
导师姓名胡学钢;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类软件工程;
关键词
属性选择; 随机森林模型; 数据挖掘; 时空性能;

相似文献

中文文献
外文文献
专利

1. 基于属性选择的贝叶斯网络模型在临床缺失数据中的研究与应用 [J] . 陈姿羽 ,李伟鹏 . 南方医科大学学报 . 2008,第010期
2. 针对基于随机森林的网络入侵检测模型的优化研究 [J] . 章缙 ,李洪赭 ,李赛飞 . 计算机与数字工程 . 2022,第1期
3. 基于随机森林算法的乳腺癌预测模型的研究 [J] . 汪家清 ,韦哲 ,张太鹏 . 中国医学装备 . 2022,第1期
4. 基于随机森林模型的岸线不透水面提取方法研究 [J] . 张友才 ,李强 ,臧英平 . 地理空间信息 . 2022,第1期
5. 基于随机森林模型的长租公寓租金定价评估研究 [J] . 朱红章 ,魏子繁 . 建筑经济 . 2021,第006期
6. 基于SVM和信息增益的属性选择算法在个人信用评价模型中的应用 [C] . 吴敏烨 . 第一届研究生IT创新学术论坛 . 2008
7. 基于属性选择算法和支持向量机的组合预测模型研究 [A] . 周永胜 . 2017

基于Ⅳ属性选择的随机森林模型研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅