首页> 中文学位 >基于参数压缩的变量筛选基本原理探讨
【6h】

基于参数压缩的变量筛选基本原理探讨

代理获取

目录

声明

摘要

1.1 大数据的背景

1.2 高维数据

1.3 高维数据变量筛选方法

第二章 理论

2.1 最小二乘

2.1.1 变量筛选

2.1.2 预测精度

2.2 Lasso及其理论性质

2.2.1 Lasso的发展及其思想

2.2.2 Lasso的解法

2.3 从几何意义以及效用角度看岭回归和Lasso

2.3.1 从几何角度看岭回归和Lasso

2.3.2 从效用角度看岭回归不可筛选变量的性质

2.3.3 从效用角度看Lasso及其可筛选变量性质

2.4 Oracle性质与SCAD方法

2.4.1 ORACLE性质

2.4.2 SCAD方法

2.5 自适应Lasso

2.5.1 自适应Lasso方法的提出

2.5.2 自适应Lasso的计算

2.5.3 兼顾SCAD和自适应Lasso的优点的惩罚函数

2.6 Group Lasso和Elastic Lasso

2.6.1 Group Lasso

2.6.2 Elastic Net Lasso

第三章 近期变量筛选模型的变化和发展

3.1 Random Forest

3.1.1 随机森林

3.1.2 随机森林的变量筛选

3.2 等级交互效应

3.3.1 All Pairs Lasso

3.3.2 Pliable Lasso

3.3 Lasso的几个应用和推广

第四章 实例分析

4.1 Lasso和各模型的比较

3.4.1 Lasso和岭回归的比较

3.4.2 Lasso,自适应Lasso和SCAD的比较

3.4.3 Lasso,Elastic Net Lasso和岭回归的比较

4.2 广义Stagewise算法的应用

第五章 后续发展

参考文献

致谢

展开▼

摘要

在统计学学科中,变量筛选问题已经有几十年的研究历史。在传统的线性统计模型中,逐步回归是一个非常有效的用来做变量筛选的统计方法。但逐步回归在处理高维数据的时候,该方法所存在的效率严重低下的问题就开始暴露出来了。从Tibshirani(1996)提出Lasso估计开始,变量筛选就成为一个新的热门领域被统计学家推广,并且发展得到了很多新的模型。
  作为本文的一个重要工作之一,就是梳理变量筛选模型的发展演变,以及探讨变量筛选模型的行之有效的基本原理。Tibshirani(1996)提出Lasso估计,解决了传统线性模型所不能解决的变量数目远大于样本量的问题。Lasso方法不仅可以得到良好的参数估计,并且还能达到减少无关变量的数目,精简模型的目的。为了有效的得到Lasso方法的参数估计,Fu在1998年提出了“shooting”算法;Osbome,M.R.随即提出了Forward-Stepwise Selection和Forward-Stagewise Regression算法;Efron在2004年提出了LARS。这些算法的提出,本身就是对Lasso方法有效性的最好的阐释。受这些算法的启发,本文将从“效用”角度阐释Lasso方法具备变量筛选的原理和岭回归在变量筛选中的失效问题。Lasso方法也有其天然的缺陷,得到模型的参数估计是有偏的,并且估计结果不稳定。Fan和Li(2001)提出一个优秀的估计模型的标准就是模型需要满足Oracle性质,即无偏性,稀疏性和连续性,并给出满足Oracle性质的SCAD方法。在新的标准下,更多的满足Oracle性质的方法被提出。Zou和Hastie(2005)提出了Elastic Net Lasso;Zou(2006)提出Adaptive Lasso;Yuan和Lin(2006)提出了Group Lasso等。与SCAD方法不是凸优化不同的是,上述方法的优化问题都满足凸优化的性质,即需要优化的目标函数的局部最优等于全局最优。并且Elastic Net Lasso和Group Lasso由于添加了二范数惩罚,使得变量筛选模型具备“组效应”,从而避免了在两个有较高相关性的有效变量中,只能选择一个变量的问题。为了能够更直观地比较各方法的优劣,文中给出了一些实例,并给出各自模型的计算效果。
  本文还将介绍近年来变量筛选模型的变化趋势。将简要介绍Bien,Taylor和Tibshirani(2010)提出的All Pairs Lasso,Tibshirani和Friedman(2018)提出了Pliable Lasso。他们是拥有等级交互效应的Lasso模型的变异,能够针对特定的目标群体,自行修改得到估计参数,以提高模型的估计精度。
  本文着力从“效用”角度去解释各个方法的原理,用更加清晰地方式认识变量筛选的原理,阐释各自方法的优劣。本文还将给出几个与Lasso有关的推广和应用。给出一个Stagewise的推广算法。由于变量模型逐步向复杂化方向发展,缺乏根本性的创新,本文在最后章节将指出现在变量筛选模型变化趋势所存在的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号