首页> 中文学位 >基于non-local先验的贝叶斯变量选择方法及其在极高维数据分析中的应用
【6h】

基于non-local先验的贝叶斯变量选择方法及其在极高维数据分析中的应用

代理获取

目录

声明

常用缩写词中英文对照表

前言

1 惩罚类方法

1.1 ISIS-SCAD、ISIS-MCP

1.2 软件实现

2 基于non-local先验贝叶斯变量选择方法

2.1 模型参数先验--non-local先验

2.2 模型空间先验

2.3 模型的后验概率

2.4 软件实现

3 模拟研究

3.1 模拟研究目的

3.2 模拟数据生成

3.3 模型评价指标

3.4 模拟结果

4实例分析

4.1 数据来源

4.2 结果

5 讨 论

5.1 算法讨论

5.2 结果讨论

参考文献

综述:高维组学数据分析中的贝叶斯变量选择方法简介

致谢

个人简历

展开▼

摘要

目的:通过模拟研究比较基于non-local先验的贝叶斯变量选择方法、ISIS-SCAD、ISIS-MCP在极高维数据分析中的表现,并将其应用到弥漫性大B细胞淋巴瘤(DLBCL, diffuse large B cell lymphoma)基因表达数据中,找出与DLBCL分型有关的基因,为临床上DLBCL的诊断和治疗提供依据。
  方法:基于non-local先验的贝叶斯变量选择方法—乘积逆矩先验(piMOM, product inverse moment)的基本原理,并将其与 ISIS-SCAD、ISIS-MCP方法应用到二分类logistic回归中。模拟研究中,根据协方差结构的不同将协变量间相关程度分为三种情况:相互独立、复合对称相关、自回归相关;样本量n=50、100、200、400、600;自变量维数 p=1000、3000,从模型相合性和模型预测准确性两个方面,评价不同极高维情况下三种变量选择方法的表现。实例分析中,将包含350个病人,3237个基因的 DLBCL数据分为训练集(n=245)和测试集(n=105),分别运用 piMOM、ISIS-SCAD、ISIS-MCP方法进行建模并验证,用AUC评价三种模型的优劣。
  结果:模拟研究发现:在 p=1000和 p=3000情况下,三种方法筛出的变量平均真阳性数大致相等,ISIS-SCAD、ISIS-MCP方法的平均假阳性数和预测均方误差、回归系数均方误差却明显高于non-local先验方法,且non-local先验方法随着维数的增加波动较小,较ISIS-SCAD、ISIS-MCP方法稳定。DLBCL基因表达数据经piMOM分析发现4个有意义的基因(MYBL1,CYB5R2,MAML3,BTLA),AUC为0.989;ISIS-SCAD发现7个有意义的基因(MYBL1,CYB5R2,MAML3,TNFRSF13B, S1PR2,SLC25A27,GAB1),AUC为0.981;ISIS-MCP发现5个有意义的基因(MYBL1,CYB5R2,MAML3,CHST2,SUB1),AUC为0.962。三种方法均筛出的基因为:MYBL1,CYB5R2,MAML3。
  结论:基于non-local先验的贝叶斯变量选择方法在模型选择和预测准确性方面优于传统的惩罚类方法,在一定程度上可以较好地控制假阳性率。MYBL1,BTLA, CYB5R2, MAML3可能与DLBCL分型有关。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号