首页> 中文学位 >面向蛋白质功能位点识别的机器学习平台构建
【6h】

面向蛋白质功能位点识别的机器学习平台构建

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 蛋白质功能位点预测的目的及意义

1.2 基于氨基酸序列预测蛋白质功能位点的生物信息学研究

1.2.1 糖基化位点预测

1.2.2 蛋白质与DNA相互作用的结合位点预测

1.2.3 蛋白质与RNA相互作用的结合位点预测

1.2.4 蛋白质与蛋白质相互作用的结合位点预测

1.2.5 磷酸化位点预测

1.3 关于本课题

1.3.1 基于氨基酸序列预测蛋白质功能位点所面临的问题

1.3.2 论文的主要创新点

1.3.3 论文的组织结构

第二章 生物信息学中的机器学习方法

2.1 机器学习方法

2.1.1 基本概念

2.1.2 机器学习的学习系统

2.1.3 机器学习的主要策略

2.1.4 机器学习的问题描述

2.1.5 机器学习算法设计步骤

2.2 支持向量分类机

2.2.1 广义最优分类面

2.2.2 支持向量机

2.2.3 核函数

2.2.4 One-class支持向量机

2.2.5 支持向量机软件

2.3 随机森林

2.3.1 随机森林模型的构建过程

2.3.2 随机森林的算法评价

2.3.3 随机森林软件

2.4 机器学习方法在生物信息学中的应用

2.4.1 机器学习方法在人类基因组研究中的应用

2.4.2 机器学习方法在蛋白质组研究中的应用

2.5 本章小结

第三章 蛋白质功能位点识别的机器学习平台设计

3.1 预测蛋白质功能位点总体流程

3.2 序列预处理

3.2.1 冗余序列的去除

3.2.2 核酸结合位点的确定

3.3 正负样本的确定

3.4 蛋白质序列特征

3.4.1 蛋白质序列的基本信息

3.4.2 蛋白质的物化特征

3.4.3 蛋白质的结构信息

3.4.4 序列保守性特征

3.5 机器学习模型整合

3.6 评价指标

3.7 本章小结

第四章 蛋白质功能位点识别的机器学习平台的实现

4.1 平台设计流程

4.2 平台开发要求

4.3 平台结构功能模块

4.3.1 序列预处理模块

4.3.2 序列特征提取模块

4.3.3 训练预测模块

4.2 本章小结

第五章 机器学习平台应用实例

5.1 实例一:蛋白质中DNA结合残基的预测

5.1.1 研究背景

5.1.2 数据与方法

5.1.3 结果与讨论

5.1.4 平台的验证

5.2 实例二:蛋白质中RNA结合残基的预测

5.2.1 研究背景

5.2.2 数据与方法

5.2.3 结果与讨论

5.2.4 平台的验证

5.3 实例三:糖基化位点预测

5.3.1 研究背景

5.3.2 数据与方法

5.3.3 结果与讨论

5.4 本章小结

第六章 总结与展望

6.1 论文总结

6.2 工作展望

致谢

参考文献

附录

发表文章情况

展开▼

摘要

有关蛋白质功能的研究是解析生命奥秘的基础。通过对蛋白质功能位点(如:蛋白质与核酸的结合位点、糖基化位点、磷酸化结合位点等)的识别,进而预测蛋白质的功能是目前的主要手段之一。
   机器学习是一种自动的具有人工智能的学习方法,在生物信息学的蛋白质功能位点研究中被广泛的应用。目前利用机器学习方法研究蛋白质功能位点的关键是序列特征的有效提取及训练预测模型的正确选择,而上述两点具有以下特点:a)模型输入(训练数据)大都直接或间接地使用蛋白质氨基酸序列的理化特性、序列信息、保守特性、二级结构特性、统计特性等;b)机器学习的建立方法相对一致,即通过数据集准备、特征提取、机器学习模型选择、模型训练预测、评价等过程。基于上述特点及共性,为了避免预测蛋白质功能位点研究中的重复工作,本文整合了目前所有通用的蛋白质序列特征及机器学习训练预测模型,利用支持向量机或随机森林方法,构建了一个预测蛋白质功能位点的通用平台。具体内容如下:
   (1)提出了基于氨基酸序列的蛋白质功能位点预测通用模型。针对蛋白质功能位点预测模型的构建一般包括数据集选取、正负样本确定、特征提取、模型选择、训练、预测、评价等步骤,本文构建了基于氨基酸序列的蛋白质功能位点预测模型。该模型先提取非同源蛋白质序列,再根据选定的窗口大小确定止负样本的长度,接下来对样本序列进行特征编码(包括序列的基本信息、物化特征、结构信息及序列保守性特征等),以编码好的样本作为训练数据,利用支持向量机或随机森林进行训练,并对训练好的模型进行评价,得到评价指标最优的训练模型后,便可以用来预测蛋白质序列上的功能位点。
   (2)实现了一个面向蛋白质功能位点的机器学习平台。在文中,我们首次提出了面向蛋白质功能位点的机器学习平台的模块化实现。三个功能模块如下:a)数据预处理模块:用户输入标有功能位点的序列信息后,通过聚类的算法提取非冗余序列:b)特征提取模块:利用序列的基本信息、物化特征、结构信息及序列保守性特征,将筛选后的序列转化为固定长度的窗口序列:c)机器学习训练预测模块:使用支持向量机或随机森林进行训练预测,得到序列的敏感性、特异性、Matthew相关系数、准确率及ROC曲线等评价指标。该平台以Windows XP为操作系统,采用Visual C++和Perl集成开发,其中VC++实现程序调用,界面显示,ROC曲线绘制:而Perl则实现窗口选择、正负样本确定、序列特征提取及预测后对结果数据的评价分析。
   (3)以蛋白质和生物大分子的相互作用为例验证平台性能。性能测试是平台开发的重要一环,为验证平台的有效性,本文以蛋白质与核酸(DNA/RNA)的相互作用及蛋白质O-糖基化为例,预测蛋白质与DNA/RNA的作用位点及蛋白质O-糖基化位点。利用平台高度整合的特性,为预测蛋白质和DNA/RNA相互作用及蛋白质O-糖基化位点选择出最优预测模型。同时为验证平台的准确度,我们还采用Ma X.,Wang L.和Li S.J.文章中相同的样本数据,相同的特征参数以及相同的训练模型,测试结果发现与论文上结果基本一致,从而说明本平台的预测是准确且有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号