MapReduce实现的改进决策树

         

摘要

针对某些数据集中不同属性对类别产生的影响程度有所不同,提出了属性权值的概念,用于改进C4.5决策树算法.通过计算得到不同属性在分类过程中对类别的重要程度,分别赋予不同属性不同的权值,以不同权值计算属性信息增益率,从而找到最佳决策属性;同时将算法运行在HDFS集群,通过Hadoop平台控制多台计算机同时处理待分类数据集,以并行的方式构造决策树.实验结果表明,改进的C4.5算法在处理不同属性对分类结果影响程度不同的数据时比传统C4.5算法具有更高的准确率,并且由于程序并行运行,能够更加高效地处理大型数据,具有很好的可扩展性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号