首页> 中文学位 >基于序列和结构特征的蛋白质结合自由能预测
【6h】

基于序列和结构特征的蛋白质结合自由能预测

代理获取

目录

声明

摘要

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文主要内容

1.4 我们的主要工作和创新

1.5 本文组织架构

2.1 总体架构

2.2 数据预处理

2.3 特征计算

2.4 特征选择

2.4.1 mRMR特征选择

2.4.2 模型特征优化

2.5 回归模型的介绍和评估方式

2.6 特征分析

2.7 基于WEKA的回归模型

2.8 本章总结

第三章 实验结果与讨论

3.1 使用mRMR特征集建立回归模型

3.2 模型特征优化

3.3 特征移除分析

3.4 本章总结

第四章 构象变化和外部集验证实验对比

4.1 蛋白质构象变化对比

4.2 外部集验证对比

4.2.1 模型特征优化前后对比

4.2.2 模型特征优化后与其它方法对比

4.3 本章总结

5.1 本文总结

5.2 未来展望

参考文献

致谢

攻读学位期间发表的学术论文

展开▼

摘要

蛋白质是生命的基础物质,构成细胞的基本有机物,是生命活动的主要承担者。蛋白质不仅与其它化合物结合,蛋白质自身结合也有重要的意义,蛋白质与蛋白质之间的交互对生命活动有着重要的作用。当一对蛋白质之间的结合自由能的值很大的时候,说明这一对蛋白质在药物设计阶段能够成功结合并对生物产生作用,从而更好的治愈疾病。反之,将它们结合为药物就几乎毫无意义。回归分析是一种应用十分广泛的数据分析方法,擅长用观测数据内在规律,分析数据变量间的依赖关系,尤其是在定量预测上应用更多。建立准确的回归模型来预测蛋白质间的结合自由能是一种很好的途径。因此,选择有价值的特征集和回归模型是本文的研究重心,根据有价值蛋白质的特征来预测蛋白质之间的结合自由能可以完善蛋白质相互作用设计,对于推动蛋白质对接研究的进步,加速针对蛋白质相互作用的药物设计开发,高效治疗疾病是有重要的作用。
  目前有很多计算蛋白质结合自由能的方法,但这些方法计算需要大量的时间和资源,并且无法得到较高的准确率,从而很难被直接应用到实践中。本文旨在设计准确,快速计算的模型来预测蛋白质结合自由能,主要研究工作如下:
  (1)收集并计算与蛋白质结合自由能相关的序列特征和结构特征、135对蛋白质复合物当做训练集、39对蛋白质复合物当做外部集。
  (2)使用最小冗余最大相关(mRMR)来选择那些与蛋白质自由能显著相关的特征并去除冗余特征,从而得到最小冗余最大相关的特征集,然后把这特征集用于建立6种回归模型。
  (3)对于6种回归模型通过10折交叉验证对比得到最佳回归模型,然后通过模型特征优化得到最佳特征集,并对优化后的特征集进行移除特征来对比分析特征的重要性。
  (4)用优化后的特征集建立最佳回归模型来预测蛋白质结合自由能,将模型预测的性能与别的方法进行构象变化和外部集验证对比。
  实验结果表明,本文使用Linear Regression和SMOreg回归模型相结合来预测蛋白质结合自由能,优化后得到的最佳回归模型比其它方法的模型具有着更高的性能,并且也适用于那些构象变化较大的蛋白质。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号