首页> 中文学位 >数据挖掘中决策树分类算法的研究
【6h】

数据挖掘中决策树分类算法的研究

代理获取

目录

摘要

1 绪论

1.1 选题的背景

1.2 课题的研究意义

1.3 确定分类方法

1.3.1 常见分类方法

1.3.2 分类方法判定标准

1.3.3 确定分类方法

1.4 国内外研究动态

1.4.1 数据挖掘国外研究动态

1.4.2 数据挖掘技术在商业银行中的应用现状

1.4.3 决策树研究历史与动态

1.5 决策树算法综述

1.5.1 决策树构造过程

1.5.2 常见的决策树算法

1.5.3 确定算法

1.6 论文的主要内容与创新

1.7 论文的组织结构

2 C4.5算法研究

2.1 C4.5算法原理

2.1.1 基础算法

2.1.2 C4.5算法

2.2 C4.5算法应用实例

2.3 本章小结

3 C4.5算法的改进

3.1 改进判别能力度量计算方式

3.2 改进算法的实际应用

3.3 连续属性处理上的改进

3.4 实验结果分析

3.5 本章小结

4 R-C4.5算法在银行信贷业务上的应用

4.1 个人消费信贷业务的发展现状

4.2 银行建立个人用户评级的意义

4.3 个人信用评级的建立方法

4.4 银行个人信用评级模型

4.4.1 数据获取

4.4.2 原始数据处理

4.4.3 选取训练集和测试集

4.4.4 模型构建与分析

4.4.5 测试结果分析

4.4.6 客户信用等级预测工具

4.5 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

一、公开申请的专利或软件著作权

二、参与的科研项目

致谢

声明

展开▼

摘要

数据挖掘作为一个应用非常广泛的新兴领域,有很多值得深入研究的问题。分类作为数据挖掘的重要组成部分,更是人们讨论研究的焦点。其中决策树分类算法因其效率较高、结构简单、通俗易懂以及分类精度高等特点广受人们青睐。
  本文在学习和分析现有数据挖掘理论的基础上,重点研究决策树分类中C4.5算法。主要内容:概述数据挖掘技术、详述分类与决策树技术、详细介绍C4.5算法、改进C4.5算法并将其应用到实例中去。
  本文的创新点是对C4.5算法进行改进,并应用到作为商业银行决策助手的实际应用中去。主要思路是:针对C4.5算法运行过程中需要进行多次扫描,导致效率不高的缺陷进行改进。共总结提炼出两种改进方式:一是针对类别属性只有正例集和反例集两种的特殊数据集,结合高等数学中泰勒公式和信息增益率的计算特点,提出对属性判别能力度量计算方式进行改进,优化其中的对数运算,提升运行效率;二是对连续属性的处理上的改进,现有的C4.5算法对连续属性处理,是通过将其离散化、排序后,比较所有划分点的信息增益率,从而选择分裂属性,改进算法提出寻找最佳划分点(即边界点)的思路优化划分点的选择,提高算法的运行效率。
  运用UCI数据集中常见的10组数据集对C4.5算法和改进算法反复进行MATLAB仿真实验,得出结论:改进算法大幅度提高了运行效率,节省了算法的占用空间,同时不会对决策树生成以及测试正确率造成影响。
  最后,利用改进后的算法对互联网上一家德国银行个人信贷数据进行建模,从实验效果来看,该模型稳定性良好、运行效率高、预测准确率高、占用空间少等优点,符合建模要求,合理可行。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号