首页> 中文学位 >蛋白质相互作用位点及亚细胞定位预测研究
【6h】

蛋白质相互作用位点及亚细胞定位预测研究

代理获取

目录

声明

摘要

插图目录

表格目录

1 绪论

1.1 引言

1.2 蛋白质相互作用及作用位点概述

1.2.1 蛋白质相互作用及其功能

1.2.2 蛋白质相互作用位点

1.2.3 蛋白质相互作用位点的研究方法

1.3 蛋白质亚细胞定位及预测概述

1.3.1 亚细胞结构

1.3.2 蛋白质亚细胞定位以及功能

1.3.3 蛋白质亚细胞定位的研究方法

1.4 主要研究内容与创新点

1.5 内容安排

2 基于序列的蛋白质相互作用位点(PPIs)预测方法

2.1 引言

2.2 基准数据集

2.3 评价指标

2.4 特征表示

2.5 已有的相关研究

2.6 PPIs预测中的类别不平衡以及处理方法

2.6.1 上采样方法

2.6.2 下采样方法

2.7 本章小结

3 基于二分类不平衡数据预清洗及后过滤处理的PPIs预测

3.1 引言

3.2 特征提取

3.2.2 平均累积亲水性(ACH)

3.2.3 预测得到的相对溶剂可及性(PRSA)

3.3 数据清洗过程

3.4 训练基于随机森林的PPIs预测器

3.5 后过滤(PF)处理过程

3.6 实验结果与讨论

3.6.1 特征重要性分析

3.6.2 数据清洗以及后过滤的有效性验证

3.6.3 所用方法和现有的PPIs预测器在交叉验证实验结果上的比较

3.6.4 所用方法和现有的PPIs预测器在独立验证实验上的结果比较

3.7 本章小结

4 基于多普勒效应蝙蝠聚类下采样算法的PPIs预测

4.1 引言

4.2 蝙蝠算法

4.3 基于多普勒效应的蝙蝠算法

4.3.1 蝙蝠的多普勒效应

4.3.2 多普勒效应蝙蝠算法

4.4 多普勒效应蝙蝠算法性能分析与比较

4.4.1 多普勒效应蝙蝠算法(DEBA)与粒子群算法(PSO)的对比

4.4.2 多普勒效应蝙蝠算法(DEBA)和原始蝙蝠算法(BA)算法的比较

4.5 基于多普勒效应蝙蝠算法的空间聚类下采样

4.5.1 相似度系数

4.5.2 多普勒效应蝙蝠聚类下采样算法

4.6 基于多普勒效应蝙蝠聚类下采样算法的PPIs预测模型

4.7 实验与讨论

4.7.1 基于多普勒效应蝙蝠聚类下采样算法预测PPIs的有效性验证

4.7.2 所用方法与已有的PPIs预测器的比较

4.8 本章小结

5 基于图像的蛋白质亚细胞定位多类别预测研究

5.1 引言

5.2 基于图像的蛋白质亚细胞定位相关研究

5.3 基准数据集

5.3.1 训练集

5.3.2 独立测试集

5.4 免疫组化(IHC)图像中的蛋白质和DNA分割技术

5.4.1 免疫组织化学与免疫组化图像

5.4.2 图像分割技术

5.4.2 两种常用的颜色空间

5.4.3 IHC图像的线性颜色分离技术

5.5 蛋白质亚细胞图像多视角纹理特征的提取

5.5.1 原始IHC图像的纹理特征

5.5.2 图像颜色分割后的全局特征

5.5.3 局部纹理特征

5.5.4 特征选择

5.5.5 多特征融合

5.6 分类器

5.6.1 栈式自动编码器(SAE)

5.6.2 栈式自动编码器与随机森林相结合的分类器(SAE-RF)

5.7 系统算法流程图

5.8 实验结果和讨论

5.8.1 单个特征集的性能比较

5.8.2 多特征融合的性能比较

5.8.3 特征选择后的性能比较

5.8.4 SAE-RF分类器与线性支持向量机(linSVM)分类器的比较

5.8.5 提出的预测系统与已有的基于图像的亚细胞定位预测方法的比较

5.9 本章小结

6 总结与展望

6.1 本文工作总结

6.2 研究展望

致谢

参考文献

附录

展开▼

摘要

蛋白质是生物生命活动的物质基础和体现者,对蛋白质结构和功能以及蛋白质相互作用机制的研究有助于人们从分子水平上认识生命运行的机制,阐明各种疾病发病的机理,进而找到新的药物治疗手段。传统的实验方法对于蛋白质相关功能的研究步伐无法满足海量蛋白质分析的需求。基于机器学习的生物信息学研究方法逐渐受到了人们的重视。蛋白质相互作用以及蛋白质亚细胞定位都是蛋白质组学和蛋白质功能研究的重要内容,而蛋白质数据的复杂程度越来越高,层出不穷的新问题亟需找到新的解决方法,各种新挑战对预测算法提出了更高的要求。
  在这一背景下,本文从生物信息学和机器学习的角度对基于序列的蛋白质相互作用位点预测以及基于图像的蛋白质亚细胞定位的预测进行了深入的研究。从模式识别上来讲蛋白质之间作用位点的预测是类别不平衡的二分类问题;而亚细胞定位的预测是将蛋白质定位在很多个不同的亚细胞上,是多分类问题。因此,本文先探讨使用不同方法处理基于序列的蛋白质相互作用位点预测中的二分类不平衡问题,然后在基于图像的蛋白质亚细胞定位的预测上提出了新的特征提取方法和新的分类器算法来处理多分类问题。从而实现从二分类到多分类的进一步研究。
  本文的主要工作可以归纳如下:
  (1)提出一种数据清洗和后过滤处理的方法。该方法针对基于序列的蛋白质相互作用位点预测中存在的类别不平衡的问题,通过一个随机森林模型从原始训练数据集的多数类样本(非相互作用残基)里去除那些识别困难的边缘目标,以减轻相互作用点与非相互作用点之间不平衡的严重程度;再应用后过滤程序将预测引擎得到的结果中相对孤立的作用点去掉,以此来进一步降低预测的假阳性率。基准数据集上详尽的交叉验证和独立验证实验都证明了该方法缓解类不平衡问题的能力,与已有的最新的蛋白质相互作用位点预测器的比较显示了这种方法的有效性。
  (2)提出一种基于多普勒效应蝙蝠算法进行聚类下采样的方法。该方法针对基于序列的蛋白质相互作用位点预测中类别不平衡样本随机下采样容易造成重要信息丢失的问题,通过一种基于多普勒效应蝙蝠算法的聚类下采样算法来保证样本分布信息的完整性。首先将训练样本中的少数类样本(相互作用残基)和多数类样本(非相互作用残基)分开,然后使用多普勒效应蝙蝠算法对多数类样本进行聚类,得到几个聚类簇,计算它们的样本中心,通过从不同的聚类中心选取总数目和少数类样本数目相当的多数类样本来实现下采样。这样既保留了原始样本的分布信息,又降低了类别之间的不平衡程度。该方法给出了预测模型,在基准数据集上的交叉验证和独立验证实验结果都证明了该方法能有效地缓解类不平衡的问题。
  (3)提出一种基于多视角图像特征的亚细胞定位多类别预测方法。该方法针对免疫组化(IHC)图像中蛋白质和DNA的特征提取问题,通过基于多视角方式引入一些目前基于图像的亚细胞定位预测方法中未使用过的图像特征,并将原始图像特征和图像分割后的特征组合在一起来提升亚细胞定位预测的性能。该方法从原始图像视角分别提取四种纹理特征;从颜色分割后的蛋白质通道视角提取蛋白质的全局特征和局部特征;以及从DNA通道视角提取DNA的全局特征。又将所提取的单个特征分别进行组合,并使用逐步判别分析法进行特征选择。通过四种基本分类器在训练数据集上对单个特征以及组合特征分别进行十折交叉验证实验,最后找到最优的特征组合。基于得到的特征组合,为进一步提升预测结果,提出一种栈式自动编码器和随机森林相结合的分类器方法,该分类器将多层次网络与传统统计分类方法融合在一起。在训练数据集和独立测试集上与近年来出现的基于图像的蛋白质亚细胞定位预测方法的比较都证明了提出方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号