首页> 中文学位 >个人征信数据不平衡结构处理及特征选择
【6h】

个人征信数据不平衡结构处理及特征选择

代理获取

目录

声明

1绪论

1.1研究背景

1.2本文主要工作

1.3论文的组织结构

1.4创新点

2信用评分数据探索分析

2.1征信数据描述

2.2缺失值处理

2.3数据离散化

2.4数据不平衡问题

2.5本章小结

3变量选择

3.1相关性指标确定

3.2logistic回归的Lasso估计方法

3.3logistic回归的Lasso估计方法改进

3.4本章小结

4模型比较分析

4.1 logistic回归模型比较

4.2决策树和随机森林模型比较

4.3支持向量机模型比较

4.4模型评估

4.5本章小结

5总结

参考文献

致谢

附录

展开▼

摘要

本文数据来源为“东证期货杯”全国大学生统计建模大赛中选题二提供的贷款机构历史业务数据[1]。首先,针对数据缺失,对连续变量根据数据缺失率分别采用删除法和多重填补法处理,名义变量采用特殊类别法处理;在信用数据不平衡问题上,结合K均值算法欠抽样与SMOTE过抽样组合抽样方法在处理数据不平衡问题上有较好的预测效果。其次,在变量体系指标选择方面,改进了logistic回归的Lasso估计,采用四种信用评分模型对变量选择方法进行比较:针对不同模型特点,该变量选择方法对预测结果有不同程度提升。最后,经过实验比较可得,随机森林分类精度高;logistic回归总体分类精度略低于其他模型,但对于数据中少类样本的识别要高于一般模型;决策树模型分类精度略低于随机森林,但对数据中少类样本识别率不高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号