首页> 中文学位 >蛋白质二级结构的预测以及二级结构与三级结构之间关联的探讨
【6h】

蛋白质二级结构的预测以及二级结构与三级结构之间关联的探讨

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1引言

1.2国内外研究现状

1.3蛋白质结构数据库

1.4论文的研究内容与安排

第二章理论预测算法

2.1 4肽结构字的定义(TETRA-PEPTIDE STRUCTURAL WORDS)

2.2多样性增量结合二次判别法(IDQD)

2.2.1多样性量和多样性增量

2.2.2二次判别法及其推广式

2.2.3预测的后修正算法

2.3算法的检验和评估

2.3.1检验方法

2.3.2预测性能评估指标

第三章 CB513数据库的二级结构预测

3.1引言

3.2数据库以及二级结构的定义

3.2.1 CBSl3数据库

3.2.2二级结构定义

3.3 CB513数据库的4肽结构字

3.4参数的选取以及算法的实现

3.4.1片段长度的选取

3.4.2 TPIDQD算法的实现

3.5计算结果以及讨论

3.6总结

第四章1645个蛋白数据库的二级结构预测

4.1数据库以及二级结构的定义

4.2 1645个蛋白数据库的4肽结构字

4.3 1645个蛋白的预测结果和讨论

4.3.1短片段中心残基的预测

4.3.2长片段中心残基的预测

4.4结构字的讨论

4.4.1两库中4肽结构字的对比

4.4.2合并两库中的4肽结构字

4.4.3用合并后的4肽结构字做预测

4.5总结

第五章蛋白质二级结构与三级结构之间关联的探讨

5.1引言

5.2资料来源与背景

5.3两个蛋白之间距离的定义

5.4结果与讨论

5.5总结

第六章总结与展望

6.1本文工作总结

6.2工作展望

参考文献

附 录

致谢

攻读硕博连读学位期间发表和完成的论文目录

展开▼

摘要

蛋白质的生物功能以其结构为基础。随着人类基因组计划的顺利实施,蛋白质序列信息的积累速度远快于蛋白质结构数量的增长速度。实验上研究蛋白质结构的主要手段有X射线晶体学技术、核磁共振衍射技术、电子纤维技术等。然而,通过实验手段确定蛋白质的结构,不但成本高、耗时,而且实验中还会遇到一些目前无法解决的技术困难,因此人们非常希望利用理论计算的方法直接从序列信息出发来预测蛋白质结构,这是生物信息学研究的重要课题之一。 目前,直接从氨基酸序列信息出发来预测蛋白质三级结构还是有很多困难。更多的焦点集中在去预测蛋白质二级结构。由于二级结构单元是多肽链在三维空间折叠的基本元素,二级结构预测通常作为蛋白质空间结构预测的第一步,是蛋白质三级结构预测中重要的中间步骤,也是蛋白质折叠理论研究的重要挑战。 本文重点介绍了一种新的方法,即基于4肽结构字的多样性增量二次判别法(简称TPIDQD算法),对2个大小不同的数据库进行了二级结构的预测。同时对325个标准样本集合,进行了二级结构和三级结构关联的研究。 (1)新的预测算法大体分三步:首先用定义的三种4肽结构字(alpha、beta、coil)在序列中出现的频次作为多样源,从而建立标准源;然后用多样性增量结合二次判别法对任何一个序列片段中心残基的二级结构进行预测;最后进行一些修正后处理,包括:消除预测中的结构涨落以及用4肽边界字来修正预测后的结构边界。 (2)用TPIDQD算法首次对CB513数据库的二级结构进行了预测,3折交叉检验的预测精度Q3达到79.19%。 (3)建立了一个新的包括1645个非冗余蛋白质链的数据库,其中蛋白质结构分辨率高于3 Angstroms,序列相似性小于25%。用TPIDQD算法对其中21残基片段中心残基的结构性质进行预测,10折交叉检验得到Q3为79.68%。当考虑长程序列信息时,即取更长的序列片段(大于21残基长度)来预测时,结果将更好。同时随着字库的扩大,用CB513库作为训练集,对1645蛋白库的交叉检验,也取得了79%的精度。 (4)对325个蛋白的二级结构和其三级结构的关联进行了研究。我们利用广义的二级结构序列信息,定义了两个蛋白之间的距离,和用相似分表示的两个蛋白的三级结构的距离进行了相关性分析。结果发现在排除了长度的依赖性后,在灵敏度α=0.05和α=0.01上,有300个相关系数是高于阈值的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号