首页> 中文学位 >一种全基因组关联分析模型的建立及在基因组选择中的应用
【6h】

一种全基因组关联分析模型的建立及在基因组选择中的应用

代理获取

目录

声明

摘要

1 前言

1.1 全基因组关联分析的目标与意义

1.2 GWAS模型的发展历程

1.3 关联分析模型

1.3.1 一般线性回归模型

1.3.2 混合线性模型

1.3.3 多位点加性效应模型

1.3.4 加性一显性效应模型

1.3.5 多遗传效应模型

1.3.6 两位点互作效应模型

1.3.7 多性状模型以及基因型与环境互作模型

1.3.8 模型间的比较

1.4 关联分析模型的应用

1.5 关联分析模型存在的问题及解决方案

1.5.1 群体结构对关联分析的影响

1.5.2 表型异质性

1.5.3 等位基因的异质性

1.5.4 P值膨胀

1.5.5 遗传力丢失

1.5.6 算法的时间复杂度

1.5.7 P值的阈值选择问题

1.6 基因组选择的目标及意义

1.7 基因组选择模型的发展历程

1.8 基因组选择在动植物育种中的应用

1.9 基因组选择的准确率

1.10 基因组选择存在问题与挑战

1.12 本研究的目的与意义

2 实验材料与数据

2.1 酵母F2群体

2.2 玉米巢式关联分析群体

2.3 真实数据

2.4 随机数据

2.5 模拟数据

2.6 数据来源

3 实验方法

3.1 表型模拟

3.2 一般线性模型(GLM)

3.3 一般线性模型的替代模型

3.4 EM—Bayesian LASSO模型

3.5 BIC值计算

3.6 LD清除算法

3.7 HDGENE模型

3.8 R/QTL互作模型分析

3.9 遗传力的估计

3.10 交叉验证与准确率

3.11 基因组预测模型

3.12 Pearson相关系数校正

4 结果分析

4.1 对酵母F2群体的分析

4.1.1 EM—Bayesian LASSO模型对酵母显著位点的分析

4.1.2 EM—Bayesian LASSO模型的Power

4.1.3 HDGENE加性模型及与QTCAT模型的比较

4.1.4 HDGENE加性模型对酵母真实性状的分析

4.1.5 基因型的LD清除

4.1.6 不同性状加性效应QTNs的比较

4.1.7 HDGENE互作模型与R/QTL互作模型的比较

4.1.8 互作位点的效应值多为微效效应

4.2 玉米NAM群体的分析结果

4.2.1 表型的遗传力

4.2.2 HDGENE加性模型分析结果

4.2.3 HDGENE互作模型分析结果

4.3 基因组选择准确率的计算

4.3.1 训练群体均值和预测群体均值的人为负相关

4.3.2 Hold准确率的负向偏差

4.3.3 交叉验证倍数越多,Hold准确率偏差越大

4.3.4 Hold和Instant方法之间的预测准确率差异

4.3.5 Instant准确率存在的问题

4.3.6 Instant准确率的校正

4.4 iGS软件开发

4.4.1 模型选择

4.4.2 遗传参数的估计

4.4.3 软件的设计

4.4.4 输入文件格式

4.2.5 输出文件

5 讨论

5.1 研究数据的选择

5.2 HDGENE模型与其他模型的比较

5.3 EM—Bayesian LASSO的局限性

5.4 上位性效应的假阳性过高

5.5 基因组选择准确率的评估

5.6 零假设下Hold准确率的偏差

5.7 Hold和Instant准确率方法产生不同的结果

5.8 Hold准确率与Instant准确率相比偏低

5.9 Instant准确率的通用性

5.10 Instant准确率的校正

5.11 避免使用Jackknife

5.12 本研究的局限性

6 结论

致谢

参考文献

附录

攻读博士学位期间发表的学术论文

展开▼

摘要

全基因组关联分析的应用到目前已经有近10年时间,在解析人类复杂疾病及动植物复杂性状的调控机制等方面发挥了巨大作用。在农业发展中,从首个基因组选择模型的提出到现在,已经有17年时间。基因组选择已经在动物育种,尤其是奶牛育种中发挥出巨大的作用。随着基因分型技术价格的降低,全基因组选择技术也将在植物育种中占据重要位置。遗传转化技术,基因组编辑技术以及全基因组选择技术将是未来育种领域三大主要技术。
  基因组选择将是精准农业必要的技术基础。全基因组关联分析和基因组选择技术在应用过程中,也遇到一些问题。随着对复杂性状的深入理解,目前的关联分析模型具有一定的局限性。包括:复杂性状由多基因控制,但现在常用的模型是单位点模型;对稀有等位基因的检测能力不强,通常直接忽略稀有等位基因;遗传效应通常包括加性效应,显性效应和上位互作效应等,但目前常见的是加性效应模型,包含非加性效应的模型较少;上位效应检测能力较低,时间复杂度较高,用时较长;群体结构和其他潜在未知的关联会导致假阳性;微效多基因效应和连锁不平衡导致统计上P值膨胀;遗传力丢失问题等;在基因组选择技术发展中,线性模型,贝叶斯类模型和机器学习模型是最主要的三类模型。线性模型中目前最常用基因组最佳无偏估计(gBLUP)模型,其他方法大多是基于此模型的优化,但与该模型相比,很少在各种条件下都显著的提高;针对不同的数据,贝叶斯类模型的准确率与线性模型可能会有一些差异,但很少观察到准确率明显降低。但贝叶斯类模型的时间复杂度较高,对于百万级别的标记,将会因其所需的时间过长而导致失去应用的价值;机器学习类方法也具有同样的问题;在软件方面,目前有基于R语言的各种软件包,和基于Linux系统的命令行软件,但是缺少能够方便育种工作者使用的图形化界面软件。
  本研究的目标在于:开发一种多位点关联分析模型,提高加性模型的检测能力并且降低模型的假阳性率;并通过优化算法,实现对加性效应和上位互作效应的联合分析。使用R语言对该模型进行编程,并将该R软件包发布在公共平台;对基因组选择准确率偏差的研究。在研究中发现,对于基因组选择准确率,不同的研究人员存在两种不同的理解,而这种差异可能会产生一定的偏差,将对准确率计算重新定义并比较它们之间的区别和可能产生的偏差;提供一种基因组选择图形化界面软件。将根据现有的研究基础,使用JAVA语言开发一种进行基因组选择分析的图形化软件的同时,再使用R语言重新编写,提供对应的R软件包,以方便育种家及相关科研工作者使用。本研究以一个酵母F2群体为对象,对关联分析模型进行测试,进而系统分析模型的表现;并对一个由中美36个重组自交系(RILs)组成的玉米NAM群体的开花期相关表型进行了分析等;利用拟南芥,玉米,小鼠和松树四个物种的数据对基因组选择准确率的偏差进行了研究。本研究的主要结果如下:
  1.一种新的多位点混合效应关联分析模型(HDGENE)。该模型首先利用逐步回归对基因组进行单位点检测,然后利用多位点混合效应模型EM-Bayesian LASSO对显著的位点进行检测,从而可以控制假阳性;EM-Bayesian LASSO模型依然显著的位点,将作为协变量加入到逐步回归模型中进行迭代,该步骤可以提高分析的检测能力。因此,HDGENE模型既可以提高检测能力,也可以降低假阳性。为了提高模型对大数据的处理能力,首先通过利用基因组的连锁不平衡,对基因型数据进行降维;其次,对逐步回归模型进行了算法优化,降低算法运行时间。优化后的模型,可以实现全基因组两位点上位互作分析。
  2.EM-Baysian LASSO模型的检测能力。通过对复杂表型的模拟,在模拟的情形下,EM-Baysian LASSO模型具有80.6%的检测能力(Power);而且EM-Baysian LASSO模型对大于5%的位点具有较强的检测能力,接近100%,标记解释的表型方差越低,检测能力越差;同时,发现EM-BLASSO模型对效应值的估计是有偏的。
  3.HDGENE加性模型具有较高的Power。利用酵母F2群体模拟的表型分析发现,HDGENE平均检测Power达到71.9%;同时具有与EM-Bayesian LASSO模型相同的特点,对效应较高的位点具有良好的检测能力。但是位点解释的表型方差越低,检测的Power就越低。同时,HDGENE加性模型的假阳性率(FDR)较低,仅7.0%;且假阳性位点解释的表型方差低于1%。
  4.HDGENE加性模型与现有模型的QTCAT模型相比,QTCAT模型的Power为52.2%,明显低于HDGENE模型,同时假阳性率为8.8%,略高于HDGENE模型。
  5.HDGENE上位效应模型具有较高的Power。同样利用酵母F2群体的进行模拟,模拟数据分析表明,HDGENE上位效应模型检测的Power达到87.8%,高于R/QTL软件包中互作模型的75.7%;但同时假阳性率达到13.9%,高于R/QTL的3.2%。
  6.上位效应对玉米的开花期有一定的贡献。玉米NAM群体的开花期数据分析表明,虽然利用混合模型估计的遗传力较低,但是利用HDGENE模型发现较多的互作,并且检测到11对互作位点,它们解释的表型方差均在10%以上。
  7.基因组选择准确率的重新定义。根据交叉验证的特性,对重新定义了两种准确率,分别为Hold和Instant准确率。并发现Hold及Instant准确率都存在理论上的偏差,实际使用过程中,在一定条件下可以使用Instant准确率;在特定条件下,为了避免较大的偏差,需要对Instant准确率进行校正。
  8.iGS软件的开发:基于JAVA语言开发了基因组选择图形化界面软件;同时编写了R软件包。该软件包括gBLUP,EM-Bayesian LASSO以及多随机效应混合模型。
  本研究新开发的关联分析模型以及iGS软件将会对动植物育种提供一定的帮助。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号