首页> 中文期刊> 《计算机技术与发展》 >面向图书主题分类的随机森林算法的应用研究

面向图书主题分类的随机森林算法的应用研究

         

摘要

cqvip:针对传统随机森林算法对文本特征提取质量不高导致分类效果差的问题,提出一种对图书等大数据量文本信息文本的改进的随机森林算法。又由于传统随机森林决策树质量难以保证,提出一种加权投票提高决策树质量的机制。算法主要由两方面组成,一方面是基于文本主题特征提取的Tr-K方法,目的是提高文本主题特征的质量与代表性;另一方面是基于bootstrap抽样时遗留的1/3袋外数据提出的验证机制。文中采用的是20 Newsgroups数据集和来自于搜狗实验室提供的中文分类语料库,中英文两种数据集充分考虑了该模型的泛化性,并在实验中验证了不同数据集下较传统随机森林算法拥有更优秀的分类能力。Python环境下的实验数据表明,该方法在文本分类中相对于C4.5、KNN、SVM、原始随机森林算法可以取得更好的结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号