声明
摘要
1 前言
1.1 全基因组关联分析的目标与意义
1.2 GWAS模型的发展历程
1.3 关联分析模型
1.3.1 一般线性回归模型
1.3.2 混合线性模型
1.3.3 多位点加性效应模型
1.3.4 加性一显性效应模型
1.3.5 多遗传效应模型
1.3.6 两位点互作效应模型
1.3.7 多性状模型以及基因型与环境互作模型
1.3.8 模型间的比较
1.4 关联分析模型的应用
1.5 关联分析模型存在的问题及解决方案
1.5.1 群体结构对关联分析的影响
1.5.2 表型异质性
1.5.3 等位基因的异质性
1.5.4 P值膨胀
1.5.5 遗传力丢失
1.5.6 算法的时间复杂度
1.5.7 P值的阈值选择问题
1.6 基因组选择的目标及意义
1.7 基因组选择模型的发展历程
1.8 基因组选择在动植物育种中的应用
1.9 基因组选择的准确率
1.10 基因组选择存在问题与挑战
1.12 本研究的目的与意义
2 实验材料与数据
2.1 酵母F2群体
2.2 玉米巢式关联分析群体
2.3 真实数据
2.4 随机数据
2.5 模拟数据
2.6 数据来源
3 实验方法
3.1 表型模拟
3.2 一般线性模型(GLM)
3.3 一般线性模型的替代模型
3.4 EM—Bayesian LASSO模型
3.5 BIC值计算
3.6 LD清除算法
3.7 HDGENE模型
3.8 R/QTL互作模型分析
3.9 遗传力的估计
3.10 交叉验证与准确率
3.11 基因组预测模型
3.12 Pearson相关系数校正
4 结果分析
4.1 对酵母F2群体的分析
4.1.1 EM—Bayesian LASSO模型对酵母显著位点的分析
4.1.2 EM—Bayesian LASSO模型的Power
4.1.3 HDGENE加性模型及与QTCAT模型的比较
4.1.4 HDGENE加性模型对酵母真实性状的分析
4.1.5 基因型的LD清除
4.1.6 不同性状加性效应QTNs的比较
4.1.7 HDGENE互作模型与R/QTL互作模型的比较
4.1.8 互作位点的效应值多为微效效应
4.2 玉米NAM群体的分析结果
4.2.1 表型的遗传力
4.2.2 HDGENE加性模型分析结果
4.2.3 HDGENE互作模型分析结果
4.3 基因组选择准确率的计算
4.3.1 训练群体均值和预测群体均值的人为负相关
4.3.2 Hold准确率的负向偏差
4.3.3 交叉验证倍数越多,Hold准确率偏差越大
4.3.4 Hold和Instant方法之间的预测准确率差异
4.3.5 Instant准确率存在的问题
4.3.6 Instant准确率的校正
4.4 iGS软件开发
4.4.1 模型选择
4.4.2 遗传参数的估计
4.4.3 软件的设计
4.4.4 输入文件格式
4.2.5 输出文件
5 讨论
5.1 研究数据的选择
5.2 HDGENE模型与其他模型的比较
5.3 EM—Bayesian LASSO的局限性
5.4 上位性效应的假阳性过高
5.5 基因组选择准确率的评估
5.6 零假设下Hold准确率的偏差
5.7 Hold和Instant准确率方法产生不同的结果
5.8 Hold准确率与Instant准确率相比偏低
5.9 Instant准确率的通用性
5.10 Instant准确率的校正
5.11 避免使用Jackknife
5.12 本研究的局限性
6 结论
致谢
参考文献
附录
攻读博士学位期间发表的学术论文