原核生物基因识别新算法研究及DNA序列分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前，随着DNA测序技术的发展，从细菌到高等真核生物，越来越多的全基因组序列数据正不断涌现。理论和计算将发挥日益巨大的作用，生物信息学作为一门崭新的前沿学科应运而生。基因识别是进行基因组分析的第一步，在生物信息学研究中占有重要的地位。本论文主要致力于原核生物的蛋白质编码基因识别算法的研究，以及对DNA序列的相关分析。论文第一部分对当前生物信息学的主要研究内容和原核生物基因识别的背景作了简要介绍。论文第二部分利用一些生物信息学工具，如Zcurve、Glimmer以及BLAST等软件，对一株蜡状芽孢杆菌(Bacillus cereus ATCC 10987)基因组中的蛋白质编码基因进行了分析，并将原RefSeq数据库标注的5603个基因重新注释为5180个基因，这个结果与该细菌亲缘物种的表现一致。另外，新注释在功能已知或保守基因的比例、平均基因长度以及GC含量等指标上明显优于原始注释，证明了重新注释的基因的合理性。论文第三部分主要致力于一种新的识别细菌和古细菌基因组蛋白质编码基因的算法——Zcurve 2.0的研究。该算法以相位特异性Z曲线理论为基础，综合考虑密码子内部相邻碱基之间的相关性，发展了新的特征变量和样本。并在编码与非编码ORFs的分类算法方面，使用了支持向量机方法进行训练与判别。另外对现有基因组及其注释基因进行分析，从中生成用于评价各种基因识别算法性能的参考数据集。依据这419条染色体序列数据，将Zcurve 2.0与Zcurve 1.02、Glimmer 3.02进行比较。结果表明，三者的平均识别率相差很小；Zcurve 2.0和Glimmer 3.02的平均附加预测率处于同一水平，且均比Zcurve 1.02有明显降低；另外Zcurve程序的运行速度和易用性要远好于Glimmer 3.02。当把Zcurve 2.0和Glimmer 3.02联合使用时，预测成绩通常会显著提高。论文第四部分描述了Z曲线数据库和必需基因数据库的更新。Z-curveDatabase 2.1提供了一个方便可视化分析基因组数据的有力平台；DEG 3.0为分析必需基因的统计特征，开发预测必需基因的算法提供了基础。

著录项

作者
林岩;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科生物物理学
授予学位硕士
导师姓名张春霆;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类基因工程（遗传工程）;
关键词
细菌; 古细菌; 基因组; 基因识别; 重新注释; 数据库; 序列分析; DNA;

相似文献

中文文献
外文文献
专利

1. 原核生物基因识别问题的相关分析 [J] . 杨汉铭1 . 科技与创新 . 2017,第001期
2. 原核生物基因识别问题的相关分析 [J] . 杨汉铭 . 微计算机信息 . 2017,第001期
3. 基于非线性支持向量机的原核生物基因识别 [J] . 张继宏 ,李小霞 ,孙波 . 计算机应用 . 2009,第010期
4. 基于全相位频谱分析的基因识别算法研究 [J] . 王飞宇 ,郑紫微 ,杨任尔 . 宁波大学学报（理工版） . 2016,第002期
5. DNA序列分析的高效算法研究及比较 [J] . 王仲君 ,曹兴芹 ,毛黎明 . 武汉理工大学学报（交通科学与工程版） . 2005,第004期
6. 一种新的非编码RNA基因识别模型 [C] . 管乃洋 ,骆志刚 ,严繁妹 . 第六次全国医学分子微生物学及生物技术研讨会 . 2006
7. 原核生物基因识别算法研究和基因组进化分析 [A] . 欧竑宇 . 2003

原核生物基因识别新算法研究及DNA序列分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅