首页> 中文期刊> 《计算机技术与发展》 >Hadoop环境下基于随机森林的特征选择算法

Hadoop环境下基于随机森林的特征选择算法

         

摘要

针对传统随机森林算法不能有效、快速地处理海量高维数据,导致分类效果不理想的问题,以提高分类准确率和运行效率为目的,提出了一种基于Hadoop平台的分布式可扩展随机森林算法.该算法采用基于袋外数据集测试准确率变化的特征选择算法,在分布式平台上使用MapReduce构建随机森林,然后通过改变袋外数据的每一列特征获取每一棵决策树对应的特征重要性度量及权重,运用两者的加权求和求得特征重要性排序,其中决策树的权重取决于决策树与集体随机森林预测的一致性.最后,在特征重要性排序的基础上引入了一定的随机性,确保了每棵树的强度,又减少了树与树间的相关性.实验结果表明,相比于传统单机模式下的随机森林特征选择算法,该算法在分类的准确性和运行效率上效果良好.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号