首页> 中文学位 >复杂资料综合投影寻踪回归分析法与综合传统回归分析法的比较研究
【6h】

复杂资料综合投影寻踪回归分析法与综合传统回归分析法的比较研究

代理获取

目录

声明

缩略词表

第一章 前言

1.1研究背景

1.2研究现状

1.3研究内容

1.4课题意义

1.5研究方法

1.6论文结构

第二章 综合投影寻踪回归分析法与综合传统回归分析法的基本理论知识

2.1综合投影寻踪回归分析法

2.2综合传统回归分析法

第三章 综合投影寻踪回归分析法与综合传统回归分析法的比较

3.1 基本原理上的比较

3.2投影寻踪回归实现的核心问题

3.3 建模思路比较

3.4 两类方法拟合效果和预测效果评价方法

第四章 数据分析及结果

4.1数据质量较好,不存在共线性、异常点等情况

4.2数据存在共线性情况

4.3数据存在异常点情况

4.4医学相关大样本数据分析

第五章 讨论

第六章 结论

第七章 总结与展望

7.1本论文的主要工作

7.2进一步工作展望

参考文献

附录

附录1基于Hermite多项式的投影寻踪回归技术代码

附录2求决定系数和相对误差绝对值均值

个人简历

代表论著

致谢

展开▼

摘要

复杂资料综合投影寻踪回归分析法与综合传统回归分析法的比较研究
  高维数据统计分析在现在的医学科学研究中越来越普遍,数据的高维问题使得传统的多元统计分析方法遇到了一些问题,如高维数据计算量大、出现维数祸根、低维稳健性很好的统计分析方法在高维时稳健性变差等。传统的分析方法远不能满足高维数据分析的需要,尤其是当高维数据分布为非正态时,原有建立在服从正态分布基础上的多元统计分析方法更显得无能为力。在此背景下,投影寻踪在上世纪60~70年代开始出现。
  为了分析或研究高维数据,投影寻踪将高维数据投影到可反映其原始数据结构或特征的低维空间(1~3维)上,用投影指标来度量投影分布所含信息的多少。故投影寻踪关键在于找到投影指标取值最大或最小时的投影方向,而目前多采用遗传算法来寻找最优投影方向。将投影寻踪与回归分析技术相结合就形成了投影寻踪回归分析技术。
  本研究旨在通过对同一复杂资料,分别采用投影寻踪回归分析法和传统回归分析法进行分析,然后比较二者的拟合效果和预测效果,以研究出对此资料更适合采用哪种分析方法。本研究可使投影寻踪回归的适用性更为具体,也可引起医学统计学数据分析者对投影寻踪这一方法的认识,从而有利于今后进行复杂资料回归分析时方法的合理选择。
  本文中所用的投影寻踪回归分析方法主要包括R中所能实现的投影寻踪回归方法(PPR包中包括的三种方法,Spline法、Gcvspline法、Supsmu法)和自行编制的投影寻踪回归软件中使用的方法(Hermite多项式法)。在本文中综合传统回归分析法主要指多重线性回归分析、主成分回归、岭回归、偏最小二乘回归和稳健回归。
  本课题研究中关于“复杂资料”的界定包括以下2种情形:
  第一种情形:自变量之间存在多重共线性关系。对于多重共线性,本文中传统回归分析方法采用主成分回归、岭回归和偏最小二乘回归处理;具体计算,将通过SAS中REG、PRINCOMP和PLS过程来实现。
  第二种情形:数据中存在异常点。对于存在异常点情形,本文中传统回归分析方法采用稳健回归;具体计算,将通过SAS中ROBUSTREG过程来实现。
  本文除考虑进行上述复杂资料情况比较外,也进行了对于数据质量较好(数据本身质量较好、不存在多重共线性及异常点等,并且采用多重线性回归分析拟合及预测效果均很好)情况下投影寻踪回归分析方法和传统的多重线性回归分析方法的比较。
  本文主要采用决定系数和相对误差绝对值的平均值来评价拟合效果,主要采用各预测样本相对误差的绝对值和预测误差的均方来评价预测效果。对于实际数据拟合样本采用的是原始的样本数据,预测样本采用的是对应于相应变量的平均值、最大值、最小值、中位数、四分之一分位数、四分之三分位数所形成的6个统计量值。
  经本研究发现,当实际数据本身质量较好时,采用投影寻踪回归分析方法在拟合和预测效果上均好于多重线性回归分析方法,不过二者之间的差别不大。用投影寻踪回归分析拟合,决定系数在0.9703~0.9988之间,相对误差均值在0.0039~0.0187之间,预测样本的MSE在12.91~16.77之间;用多重线性回归分析拟合,决定系数为0.9639,相对误差均值为0.0224,预测样本的MSE为18.80。而对于模拟数据本身质量较好时,投影寻踪回归分析和多重线性回归分析二者在拟合和预测效果上相差很小,难分高下,二者拟合效果评价指标决定系数均在0.9942以上。
  本文分析了三个自变量间存在共线性的实际数据。对第一个存在共线性的数据分析结果为:采用传统回归分析方法(主成分回归、岭回归和偏最小二乘回归)拟合,决定系数在0.9351~0.9386之间,相对误差均值在0.0497~0.0528之间,对于预测样本的MSE,主成分回归为1.18,岭回归为0.66,PLS回归为1.14;采用投影寻踪回归分析拟合,决定系数在0.9756~0.9846之间,相对误差均值在0.0316~0.0363之间,预测样本的MSE在0.69~0.86之间。对第二个存在共线性的数据分析结果为:采用传统回归分析方法(主成分回归、岭回归和偏最小二乘回归)拟合,决定系数在0.9039~0.9820之间,相对误差均值在0.0174~0.0383之间,对于预测样本的MSE,主成分回归为126.59,岭回归为208.40,PLS回归为215.82;采用投影寻踪回归分析拟合,决定系数在0.9823~0.9927之间,相对误差均值在0.0104~0.0175之间,预测样本的MSE在11.00~27.25之间。对第三个存在共线性的数据分析结果为:采用传统回归分析方法(主成分回归、岭回归和偏最小二乘回归)拟合,决定系数在0.8023~0.8924之间,相对误差均值在0.0450~0.0642之间,对于预测样本的MSE,主成分回归为0.61,岭回归为0.36,PLS回归为0.23;采用投影寻踪回归分析拟合,决定系数在0.8851~0.9980之间,相对误差均值在0.0046~0.0481之间,预测样本的MSE在0.03~0.65之间。
  本文分析了两个数据中存在异常点的实际数据。对第一个存在异常点的数据分析结果显示不论是采用投影寻踪回归分析还是采用稳健回归分析,对数据的拟合效果都很差。传统回归分析,决定系数最高为0.3641;投影寻踪回归分析,决定系数在0.1857~0.6650之间。对第二个存在异常点的数据分析结果为:M回归决定系数为0.8982,相对误差均值为0.1377,预测样本的MSE为3.3919;投影寻踪回归分析,决定系数在0.9423~0.9563之间,相对误差均值在0.0899~0.1138之间,预测样本的MSE在2.3604~3.0308之间。
  从本文研究结果可以得出如下结论:
  (1)考虑到多重线性回归分析与投影寻踪回归分析对于数据本身质量较好时拟合效果相差不大且拟合决定系数在0.95以上,并且投影寻踪回归分析计算难于多重线性回归分析,故在数据本身质量较好情况下的回归分析本文推荐采用多重线性回归方法。
  (2)可以认为,当数据存在共线性时采用投影寻踪回归分析方法进行分析要好于传统的对共线性数据的处理办法(主成分回归、岭回归和偏最小二乘回归)。
  (3)暂且认为当数据中存在异常点时,采用投影寻踪回归分析效果好于稳健回归分析。
  (4)数据本身质量非常重要,在科学研究中要重视科研设计(特别是应注意找准找全对结果变量有影响的自变量、具有足够大的样本含量且样本对于总体的代表性足够好),如果研究者在前期数据收集上忽略或遗漏了重要的原因变量,后期通过统计分析也难以弥补。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号