首页> 中文学位 >基于序列信息的DNA结合蛋白质预测方法研究
【6h】

基于序列信息的DNA结合蛋白质预测方法研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪 论

1.1课题背景

1.2研究目的及意义

1.3国内外相关技术发展现状

1.4本文的主要研究内容和组织结构

第2章 基于Top-n-gram的DNA结合蛋白质预测

2.1引言

2.2蛋白质频率谱

2.3基于Top-n-gram的蛋白质向量化方法研究

2.4实验结果与分析

2.5本章小结

第3章 基于PSSM-DT的DNA结合蛋白质预测

3.1引言

3.2位置特异性分数矩阵(PSSM)

3.3基于ACC的DNA结合蛋白质预测

3.4基于PSSM-DT的蛋白质向量化方法

3.5实验结果及分析

3.6本章小结

第4章 基于集成学习的DNA结合蛋白质预测

4.1引言

4.2基于CDT的蛋白质向量化方法

4.3集成学习技术在DNA结合蛋白质预测上的应用研究

4.4实验结果与分析

4.5本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

声明

致谢

展开▼

摘要

随着蛋白质测序技术的不断进步,人类对蛋白质的序列和结构的认识得以不断深入。但快速增加的蛋白质序列数据,给蛋白质结构和功能的自动预测提出了巨大挑战。在大量的蛋白质中,DNA结合蛋白质是指一类可与DNA结合产生复合物的蛋白质,是细胞各项生命活动不可缺少的物质。对DNA结合蛋白质的预测可以快速有效地发现DNA结合蛋白质,促进药物蛋白质靶标的快速识别以及计算机辅助药物设计的研究。
  DNA结合蛋白质的预测问题大体可分为两类,即结构已知的DNA结合蛋白质预测和结构未知的DNA结合蛋白质预测。应用已知结构特征进行预测可获得较高的预测正确率,但是由于生物体蛋白质组中绝大部分蛋白质的结构未知,因此此类方法不适用于高通量蛋白质功能预测。本文重点研究结构未知的DNA结合蛋白质预测问题,即基于序列信息的DNA结合蛋白质预测。本文从蛋白质向量化方法和机器学习的角度研究DNA结合蛋白质预测。
  本文的主要工作包括:第一,研究了基于Top-n-gram的蛋白质向量化方法在 DNA结合蛋白质预测上的应用。在此部分,首先研究了该方法将不同维数的蛋白质序列频率谱转化为相同维数的特征向量的具体步骤,最后计算了该方法产生的各特征的判别贡献权重并分析了其中的重要特征;第二,提出了一种基于位置特异性分数矩阵距离转换(Position-Specific Scoring Matrix Distance Transformation,PSSM-DT)的蛋白质向量化方法,用于DNA结合蛋白质预测。实验结果表明 PSSM-DT方法不仅能够提高预测的性能,而且抽取出的特征具有清晰的生物学解释。结合上述两种蛋白质向量化方法建立了一种组合向量化方法,实验结果显示组合向量化方法进一步提高了预测性能。第三,研究了基于集成学习和上述两种蛋白质向量化方法的DNA结合蛋白质预测方法。实验结果显示该预测方法的性能明显优于现有已知系统。同时,实验分析显示本文提出的两种蛋白质向量化方法具有互补性,当二者与基于集成学习技术的预测方法结合使用时可获得最佳性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号