首页> 中文学位 >三种数据缺失下高维数据的变量筛选方法比较——基于数据模拟实验及基因选择实证
【6h】

三种数据缺失下高维数据的变量筛选方法比较——基于数据模拟实验及基因选择实证

代理获取

目录

声明

摘要

1.1.1 变量筛选

1.1.2 缺失数据

1.1.3 现有高维缺失数据处理方法在实践中的缺陷

1.2 研究目的与意义

1.3 本文的可能创新点与不足

第二章 低秩矩阵补全方法(Low-rank Matrix Completion)

2.1 低秩矩阵补全的原理与思路

2.2 快速迭代最小平方SVD方法简介

2.3 矩阵补全在高维缺失数据变量筛选中的应用

2.4 低秩矩阵补全法应用于在高维缺失数据变量筛选中的缺陷

第三章 GLASSO在高维缺失数据回归中的应用

3.1 高斯图模型

3.2 高斯图模型在多元线性回归中的应用

3.3 L1惩罚似然高斯图模型(GLASSO)

3.4 MissGLasso模型

第四章 三种方法的计算步骤及数据模拟试验比较

4.1 计算步骤

4.1.1 低秩矩阵补全填补后筛选方法计算过程

4.1.2 MissGLasso填充方法计算过程

4.1.3 MissGLasso2stage方法计算过程

4.2 低秩矩阵补全填补方法与MissGLasso模型方法的数据模拟比较

4.3 对比较结果的分析及三种方法优劣势

4.3.1 MissGLasso填充方法

4.3.2 MissGLasso2stage方法

4.3.3 低秩矩阵补全填补法

5.1 基因微阵列谱数据

5.2 基因微阵列谱数据获取

5.3 数据处理及实证结果

第六章 结论与展望

6.1 结论

6.2 展望

参考文献

致谢

展开▼

摘要

信息技术的不断发展,极大地促进了数据获取技术的进步,对高维数据进行统计分析的需求也日益凸显。然而面对高维数据,尤其是典型的“大p小n”问题,传统统计方法的有效性受到了挑战。因此,高维数据建模以及相应的模型选择问题成为研究热点,不过高维数据带来的另一难题——“数据缺失”也不应被忽视。
  针对高维数据的模型选择、变量筛选问题,目前已经有了很多成熟的方法,然而这些方法多以完全数据为前提,未考虑数据缺失的情况。因此面对数据缺失下的高维数据变量筛选问题时,多采用“先填补再筛选”的策略(完全集分析会损失大量样本)。虽然目前已有相当数量的缺失数据填补方法被提出,不过这些经典的填补方法虽具有良好的统计性质却不适合应用于实际数据分析中。
  传统的缺失数据研究将数据缺失模式分为随机缺失(MAR)、完全随机缺失(MCAR)和非随机缺失(MNAR),缺失数据处理方法经历了完全数据集分析、替代填补法、模型预测填补法、条件分布信息提取等一系列的发展往往更专注于理论性质的研究,针对实践中的多重数据缺失问题的有效方法并不多见。
  本文将介绍一种与经典方法思路不同的来源于机器学习领域的缺失数据填补方法——低秩矩阵补全(Low-rank Matrix Completion),这种方法的适用范围更广,另外在最新的方法支持下,其计算速度也较快。本文也会介绍较为成熟的多重缺失数据变量筛选方法的基础MissGLasso模型,Nicolas St(a)dler和Peter Bühlmann(2011)基于MissGLasso模型提出了两种方法:MissGLasso填充方法和MissGLasso2stage方法。这三种缺失数据处理方法都是便于处理多重数据缺失的统计方法。本文将对来源于统计学之外的新方法与经典的缺失数据处理方法进行对比,比较这些的理论、思路,并在数据模拟试验和实证研究中比较三种方法的优缺点,并研究造成缺陷的原因。
  其后,会将以上三种方法应用于实证研究,以枯草芽胞杆菌维生素B2产出量基因微序列数据中的基因选择的实际问题为例,测试各方法的实际效果。
  在本文的最后还将提出一些目前研究的不足之处,以及对未来研究方向的一些设想。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号