首页> 中文学位 >人类基因组中若干序列的统计分析
【6h】

人类基因组中若干序列的统计分析

代理获取

目录

文摘

英文文摘

声明

1 绪论

1.1分子生物学基础知识

1.1.1核酸

1.1.2 DNA

1.1.3 RNA

1.1.4基因和基因组

1.2人类基因组计划

1.3本文的研究计划

参考文献

2 回归分析和信息论理论基础

2.1回归分析

2.1.1线性回归模型

2.1.2拟合优度评价(R2检验)

2.1.3回归方程的整体显著性检验(F检验)

2.1.4回归系数的显著性检验(t检验)

2.2信息论理论基础

2.2.1信息熵

2.2.2互信息

参考文献

3 人类Y染色体回文序列中的重复序列与碱基关联

3.1引言

3.2回文序列中的碱基关联

3.2.1长程关联

3.2.2短程关联

3.3碱基关联与重复序列的关系

3.4结果与讨论

参考文献

4 人类基因组中紧邻核苷酸的语言特征

4.1引言

4.2人类基因组中紧邻核苷酸的频率分布

4.3人类基因组中紧邻核苷酸的关联度分布

4.4结果与讨论

参考文献

总结

硕士在读期间发表和待发表的论文

致谢

附录Matlab程序源码

展开▼

摘要

随着人类基因组计划的完成,生物学的研究进入后基因组时代,如何从已经产生的海量数据中最大限度的挖掘有价值的信息,破解生命之谜成为理论生物学家面临的一个机遇和挑战。DNA序列的统计分析对于解读人类基因组所隐藏的结构和功能有非常重要的意义。现有多种统计分析方法用于挖掘隐含在DNA序列中的遗传信息。本论文主要结合生物学的特征,利用信息论来分析人类Y染色体八个回文序列中的碱基关联、利用语言学中的Zipf方法分析人类基因组中12条染色体中紧邻核苷酸的语言特征。本论文主要内容如下: 1.介绍分子生物学基础知识、人类基因组计划; 2.介绍回归分析和信息论理论基础知识; 3.在信息论和统计学方法的基础上,利用互信息、‘n字’熵、条件熵,定量分析人类Y染色体回文序列的碱基关联,发现其中既存在长程关联,也存在短程关联,并且它们都是由序列中的重复序列引起的; 4.利用语言学中的Zipf方法分析了人类基因组12条染色体(Y, 22,21,20,19,18,17,16,15,14,13,12)中16种紧邻核苷酸(AA,AC,AG,…,TT)的频率及关联度的分布特征。发现紧邻核苷酸频率分布满足线性函数关系,关联度分布满足逆函数关系,且线性函数和逆函数的拟合系数取决于GC含量。此工作分析了紧邻核苷酸的频率分布,并且首次提出了紧邻核苷酸的关联度分布,对DNA序列语言特征的研究做出了延伸。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号