基于non-local先验的贝叶斯变量选择方法及其在极高维数据分析中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目的：通过模拟研究比较基于non-local先验的贝叶斯变量选择方法、ISIS-SCAD、ISIS-MCP在极高维数据分析中的表现，并将其应用到弥漫性大B细胞淋巴瘤（DLBCL， diffuse large B cell lymphoma）基因表达数据中，找出与DLBCL分型有关的基因，为临床上DLBCL的诊断和治疗提供依据。
　　方法：基于non-local先验的贝叶斯变量选择方法—乘积逆矩先验（piMOM, product inverse moment）的基本原理，并将其与 ISIS-SCAD、ISIS-MCP方法应用到二分类logistic回归中。模拟研究中，根据协方差结构的不同将协变量间相关程度分为三种情况：相互独立、复合对称相关、自回归相关；样本量n=50、100、200、400、600；自变量维数 p=1000、3000，从模型相合性和模型预测准确性两个方面，评价不同极高维情况下三种变量选择方法的表现。实例分析中，将包含350个病人，3237个基因的 DLBCL数据分为训练集（n=245）和测试集（n=105），分别运用 piMOM、ISIS-SCAD、ISIS-MCP方法进行建模并验证，用AUC评价三种模型的优劣。
　　结果：模拟研究发现：在 p=1000和 p=3000情况下，三种方法筛出的变量平均真阳性数大致相等，ISIS-SCAD、ISIS-MCP方法的平均假阳性数和预测均方误差、回归系数均方误差却明显高于non-local先验方法，且non-local先验方法随着维数的增加波动较小，较ISIS-SCAD、ISIS-MCP方法稳定。DLBCL基因表达数据经piMOM分析发现4个有意义的基因（MYBL1，CYB5R2，MAML3，BTLA），AUC为0.989；ISIS-SCAD发现7个有意义的基因（MYBL1，CYB5R2，MAML3，TNFRSF13B， S1PR2，SLC25A27，GAB1），AUC为0.981；ISIS-MCP发现5个有意义的基因（MYBL1，CYB5R2，MAML3，CHST2，SUB1），AUC为0.962。三种方法均筛出的基因为：MYBL1，CYB5R2，MAML3。
　　结论：基于non-local先验的贝叶斯变量选择方法在模型选择和预测准确性方面优于传统的惩罚类方法，在一定程度上可以较好地控制假阳性率。MYBL1，BTLA， CYB5R2， MAML3可能与DLBCL分型有关。

著录项

作者
董晓强;
展开▼
作者单位

山西医科大学;

展开▼
授予单位山西医科大学;
学科流行病与卫生统计学
授予学位硕士
导师姓名王彤;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类卫生统计学;医用数学;
关键词
医学统计; 数据分析; 贝叶斯变量; 医学数学;

相似文献

中文文献
外文文献
专利

1. 基于non-local先验的贝叶斯变量选择方法及其在高维数据分析中的应用 [J] . 马金沙 ,董晓强 ,高倩 . 中国卫生统计 . 2020,第003期
2. 基于先验的贝叶斯先验选择方法 [J] . 李勇 . 重庆工商大学学报（自然科学版） . 2006,第006期
3. 基于参数的贝叶斯先验选择方法 [J] . 李勇 . 西南师范大学学报（自然科学版） . 2007,第002期
4. 贝叶斯统计学中先验分布的选择方法新探 [J] . 李勇 ,孙荣 . 西部论坛 . 2007,第005期
5. 先验信息的贝叶斯描述及M CM C方法在微波成像中的应用研究 [J] . 赵翔 ,黄卡玛 ,陈星 . 生物医学工程学杂志 . 2005,第6期
6. 贝叶斯工具变量分析方法在二分类数据中的应用研究 [C] . 向春 ,吴骋 ,贺佳 . 2014中国卫生信息技术交流大会 . 2014
7. 考虑自变量个数先验分布的贝叶斯变量选择 [A] . 吴祝慧 . 2009

基于non-local先验的贝叶斯变量选择方法及其在极高维数据分析中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅