基于随机森林两阶段逐步变量选择算法的研究及应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着多种数据自动采集技术、移动互联网、物联网、云计算的快速发展，在经济、生物等各领域在迅速积累着大量数据，由此产生的数据维度越来越高。变量数大大超过样本数，即“大P小N”问题。随机森林是一种常用的高维数据处理方法。它运行速度快，能有效处理非线性、交互作用、具有相关性的数据，一般不会产生过度拟合。随机森林自带的变量重要性得分评价更是随机森林算法的一大特点，可以应用到多种回归和分类问题，在经济、生物等各领域都有广泛研究。因此，本文提出基于随机森林两阶段逐步变量选择的算法(TSRF)，主要内容如下：
　　1.变量重要性排序改进方法：针对文献[53]所提出的变量中含有大量噪声变量以及与所选变量相关的变量，会影响真正要被选择的变量得分问题。本文提出第一阶段基于分组的随机森林变量重要性排序改进，目的是进一步提高重要变量与噪声变量的区分度。利用普通数据模拟实验与生物中的遗传数据模拟实验来验证方法的有效性和可行性。
　　2.逐步选择变量改进方法：将随机森林与逐步选择变量方法相结合，提出基于随机森林的逐步变量选择改进。对自变量进行筛选，选入与因变量高度相关的变量，剔除不相关变量，使得算法建模后的自变量选择更加准确。利用普通数据模拟实验与生物中的遗传数据模拟实验来验证方法的有效性和可行性。
　　其中普通数据模拟包含分类数据及回归数据。研究不同情况下，样本数量N、变量数目P、变量间的相关系数r以及分组数对基于两阶段随机森林逐步变量选择的影响。生物中的遗传数据模拟包含单个数量性状基因座模拟与多个数量性状基因座模拟。通过设定染色体长度、条数、数量性状基因座位置、标记数量等，来验证基于两阶段随机森林逐步变量选择对特定遗传数据处理的有效性和可行性。
　　3.对比分析：对水稻穗粒数的实例数据进行标记选择实证研究。将处理后的结果与SCAD惩罚函数、弹性网回归Elastic Net参数估计方法的结果、传统数量性状基因座定位WinQTLcart2.5软件的运行结果比较，发现基于随机森林两阶段逐步变量选择算法有较大改进，能准确筛选变量。
　　基于两阶段随机森林逐步变量选择的算法对经济、生物中高维数据的变量选择具有重要的意义。

著录项

作者
冯盼峰;
展开▼
作者单位

福建农林大学;

展开▼
授予单位福建农林大学;
学科应用经济学
授予学位硕士
导师姓名温永仙;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类经济数学方法;
关键词
随机森林; 逐步选择变量; 变量选择算法; 高维数据处理;

相似文献

中文文献
外文文献
专利

1. 基于互信息和随机森林的混合变量选择算法 [J] . 赵伟卫 ,李艳颖 ,赵风芹 . 吉林大学学报（理学版） . 2017,第004期
2. 基于两阶段随机森林的螺丝锁附结果判别研究 [J] . 邓煜 ,李明 ,周稻祥 . 太原理工大学学报 . 2020,第002期
3. 基于随机森林和投票机制的大数据样例选择算法 [J] . 周翔 ,翟俊海 ,黄雅婕 . 计算机应用 . 2021,第001期
4. 基于随机森林特征选择算法的鼻咽肿瘤分割 [J] . 李鲜 ,王艳 ,罗勇 . 计算机应用 . 2019,第005期
5. 基于随机森林的自适应特征选择算法 [J] . 刘凯 ,郑山红 ,蒋权 . 计算机技术与发展 . 2018,第009期
6. 基于随机森林对变量选择的探讨 [C] . 向永靖 ,何沿平 ,郁钟铭 . 贵州省系统工程学会第六届学术年会 . 2016
7. 几种逐步变量选择算法的探索与推广 [A] . 沈伟 . 2016

基于随机森林两阶段逐步变量选择算法的研究及应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅