首页> 中文学位 >基于得分检验的整体基因间共关联作用统计方法研究
【6h】

基于得分检验的整体基因间共关联作用统计方法研究

代理获取

目录

声明

摘要

符号说明

前言

原理与方法

一、基因-基因交互作用与共关联作用

1.1 基因-基因交互作用定义

1.2 基因-基因共关联作用定义

二、两整体基因间共关联作用统计量的构建

2.1 构建统计量

2.2 假设检验

三、统计模拟

3.1 模拟数据的产生

3.2 模型评价

3.3 模型比较

四、实际数据分析

4.1 类风湿性关节炎数据分析

4.2 冠心病数据分析

结果

一、统计模拟结果

1.1 统计量的稳定性评价

1.2 统计量的有效性评价

二、实际数据分析结果

2.1 类风湿性关节炎数据分析结果

2.2 冠心病数据分析结果

讨论

一、基因-基因共关联作用的合理性

二、用于检验基因-基因共关联作用的相关统计方法

三、SBS统计量的优越性

四、SBS统计量的局限性

结论

创新与不足

附录

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

全基因组关联研究(genome wide association study,GWAS)试图寻找与疾病状态相关的遗传位点,这对人类理解复杂疾病的遗传机制发挥着重要作用,同时也为成功实现复杂疾病的预防和诊治提供了崭新的技术方法。然而,总结GWAS的分析结果,却发现其与预期成果相差甚远,借助GWAS发现的遗传变异,较难解释大部分复杂疾病的遗传特征,这就引发了遗传度的缺失问题。导致该问题产生的原因有很多:如基因-基因联合效应的存在、罕见变异的影响、对已鉴定出与疾病相关等位基因效应的低估、表观遗传因素可能会导致亲人间比较相似,以及对所要研究疾病遗传度的过高估计等。其中,基因-基因交互作用的存在是对遗传度缺失的一个合理解释,其在疾病的认识和发展中占有重要作用。如果忽略了基因之间的交互作用,将无法真实准确地描述遗传变异的效应。
  流行病学中基因-基因交互作用可以理解为,在两基因变异独立作用于某疾病(或表型)的前提下,其对该疾病(或表型)的联合作用。统计学中常用logistic回归模型中的乘积项来表示传统意义上的相乘交互作用。此模型暗含了基因A和B间要符合近乎独立性假设。事实上,在复杂基因网络系统中,基因之间往往是通过特定通路结点之间的相关联而发挥网络调控作用,而并非相互独立地对疾病产生作用。在此基础上,本课题组提出了一种新概念—基因-基因共关联,其可以定义为与该病相关的两基因之间的联合效应,即为两基因独立情况下的交互作用和两基因不独立情况下的关联作用之和。通常,位于与某种疾病相关的同一条特定通路或同一个网络中的基因是协同工作的,并且与疾病相关的交互位点之间高度相关。在此背景下,基因-基因共关联要比基因-基因交互作用更加适用于处理遗传度的缺失问题。另外,检验基因-基因共关联作用可以在某种程度上为学习和构建遗传网络提供帮助。因此,发展能够有效检验基因-基因共关联的统计方法是一项十分重要而迫切的任务。
  为了检验两整体基因之间的共关联作用,本课题组已经发展了多种统计方法,如基于单核苷酸多态性(single nucleotide polymorphisms,SNPs)水平的Fisher r toz转换统计量、基于典型相关理论构建的统计量(statistic based on canonicalcorrelations,CCU)、基于核典型相关理论构建的统计量(statistic based on kernelcanonical correlation analysis,KCCU)及基于偏最小二乘路径模型构建的统计量(partial least squares path modeling,PLSPM)。然而现有的方法尚不能有效检验两整体基因间的共关联作用,各种方法在计算速度和检验效能上都具有一定程度的局限性。故发展有效基于整体基因检验基因-基因共关联作用的统计方法具有十分重要的意义。
  目的:
  本研究将基于经典得分检验理论构建一种新型统计量(score-based statistic,SBS),用于检验整体基因之间的共关联作用。
  方法:
  该统计量是想通过捕获两致病基因间的协方差效应,对基因-基因共关联作用进行检验。一系列理论推导、统计模拟和实际数据分析将被用来评价该统计方法的稳定性和有效性。为了更加全面地评价该方法的具体表现,在统计模拟和实际数据分析的过程中,几种常用方法同时被用来比较,如基于单个SNP的logistic回归模型、基于主成分分析的logistic回归模型、基于协方差的δ2统计量、CCU统计量、KCCU统计量、PLSPM统计量及LASSO等。
  结果和结论:
  1、本文总结了各种检验基因间共关联作用的统计方法,指出了从整体基因层面分析基因-基因共关联作用的必要性,而不是简单分析单一SNP对间的共关联作用。
  2、本文以传统的得分检验思想为基础,提出基于整体基因的用于检验基因-基因共关联的SBS统计量。1)与多种现有非参数检验基因-基因共关联作用的统计方法相比,该方法在原假设成立的前提下,严格服从卡方分布,所以在具体的假设检验过程中,避免使用自助抽样或置换检验技术,计算速度大大提高,更适合用来检验两基因间的共关联作用。2)与基于单个SNP的检验方法相比,本研究提出的SBS统计量以整体基因为基础,能够抓住各基因内部的连锁不平衡(linkage disequilibrium,LD)结构,综合利用多个SNP位点间的信息,这既符合遗传学原理,又便于理解基因功能,检验基因间的共关联更有效率,同时也可以避免多个SNP间的多重共线性问题。3)和其他几种方法相比,SBS统计量既能利用基因内部的线性信息,又能利用基因内部的非线性结构,具有较高的检验效能。
  3、统计模拟和实际数据分析表明:1)本文提出的SBS统计量在不同样本量、不同主效应组合及不同相关结构下,一类错误均稳定在给定的检验水准附近,说明该统计量具有良好的稳定性。2)在原假设不成立的条件下,随着交互效应及样本量的增加,检验效能逐渐增大;随着两基因间相关结构的变化,SBS统计量的检验效能也不断变化,且和其他方法相比,始终处于相对较高的水平。3)在关于风湿性关节炎和冠心病的实际数据分析中,SBS统计量能够快速且准确地检验基因间的共关联作用,充分显示了其优越的实用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号