首页> 中文学位 >原核生物基因识别新算法研究及DNA序列分析
【6h】

原核生物基因识别新算法研究及DNA序列分析

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1生物信息学及其主要内容

1.2原核生物基因组和原核生物基因识别

1.3与本论文相关的生物学知识

1.4本论文的主要工作

第二章蜡状芽孢杆菌ATCC 10987基因组蛋白质编码基因的重新注释与分析

2.1引言

2.2材料与方法

2.2.1原始数据分析

2.2.2生物信息学方法

2.3结果与讨论

2.4结论

2.5补充材料

第三章蛋白质编码基因注释文件的解读

3.1引言

3.2方法与结果

3.2.1注释基因分布特征统计

3.2.2注释基因异常状况统计

第四章原核生物基因识别程序Zcurve 2.0的研发

4.1引言

4.2 DNA序列的Z曲线理论

4.3支持向量机方法

4.3.1算法简介

4.3.2 SVM在生物信息学中的应用

4.4程序组成

4.4.1寻找种子ORFs和候选ORFs

4.4.2核心算法

4.4.3排除重叠ORFs的策略

第五章Zcurve 2.0基因识别能力的评价及讨论

5.1评价方法

5.2 Zcurve 2.0与Zcurve 1.02、Glimmer 3.02的比较

5.2.1对比之一:300 bp以上的注释基因

5.2.2对比之二:300 bp以上的功能已知基因或保守基因

5.2.3其它说明

第六章Z曲线数据库与必需基因数据库的更新

6.1 Z曲线数据库的更新

6.2必需基因数据库的更新

参考文献

发表论文和参加科研情况说明

附 录

致 谢

展开▼

摘要

目前,随着DNA测序技术的发展,从细菌到高等真核生物,越来越多的全基因组序列数据正不断涌现。理论和计算将发挥日益巨大的作用,生物信息学作为一门崭新的前沿学科应运而生。基因识别是进行基因组分析的第一步,在生物信息学研究中占有重要的地位。本论文主要致力于原核生物的蛋白质编码基因识别算法的研究,以及对DNA序列的相关分析。 论文第一部分对当前生物信息学的主要研究内容和原核生物基因识别的背景作了简要介绍。 论文第二部分利用一些生物信息学工具,如Zcurve、Glimmer以及BLAST等软件,对一株蜡状芽孢杆菌(Bacillus cereus ATCC 10987)基因组中的蛋白质编码基因进行了分析,并将原RefSeq数据库标注的5603个基因重新注释为5180个基因,这个结果与该细菌亲缘物种的表现一致。另外,新注释在功能已知或保守基因的比例、平均基因长度以及GC含量等指标上明显优于原始注释,证明了重新注释的基因的合理性。 论文第三部分主要致力于一种新的识别细菌和古细菌基因组蛋白质编码基因的算法——Zcurve 2.0的研究。该算法以相位特异性Z曲线理论为基础,综合考虑密码子内部相邻碱基之间的相关性,发展了新的特征变量和样本。并在编码与非编码ORFs的分类算法方面,使用了支持向量机方法进行训练与判别。另外对现有基因组及其注释基因进行分析,从中生成用于评价各种基因识别算法性能的参考数据集。依据这419条染色体序列数据,将Zcurve 2.0与Zcurve 1.02、Glimmer 3.02进行比较。结果表明,三者的平均识别率相差很小;Zcurve 2.0和Glimmer 3.02的平均附加预测率处于同一水平,且均比Zcurve 1.02有明显降低;另外Zcurve程序的运行速度和易用性要远好于Glimmer 3.02。当把Zcurve 2.0和Glimmer 3.02联合使用时,预测成绩通常会显著提高。 论文第四部分描述了Z曲线数据库和必需基因数据库的更新。Z-curveDatabase 2.1提供了一个方便可视化分析基因组数据的有力平台;DEG 3.0为分析必需基因的统计特征,开发预测必需基因的算法提供了基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号