首页> 中文学位 >蛋白质相互作用网络中复合物识别算法研究
【6h】

蛋白质相互作用网络中复合物识别算法研究

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 基于聚类的蛋白质复合物发现方法

1.2.2 以启发式为代表的智能优化算法

1.2.3 以矩阵分解为代表的计算方法

1.3 本文的主要工作及贡献

1.4 论文组织结构

第2章 蛋白质相互作用网络特征分析及复合物算法评价指标

2.1 蛋白质相互作用网络特征分析

2.1.1 蛋白质相互作用网络拓扑特征评价指标

2.1.2 蛋白质相互作用网络拓扑特征分析

2.2 蛋白质复合物算法评价指标

2.3 本章小结

第3章 基于多目标进化规划遗传的复合物识别算法MOEPGA

3.1 引言

3.2 相关工作

3.3 基于多目标进化规划遗传的复合物识别算法MOEPGA

3.3.1 相关术语

3.3.2 问题描述

3.3.3 MOEPGA算法

3.4 实验及结果分析

3.4.1 实验数据

3.4.2 已知蛋白质复合物的网络特征分析

3.4.3 参数Pm,Ps对MOEPGA算法性能的影响

3.4.4 F(S)的分析

3.4.5 与其它算法的比较

3.5 本章小结

第4章 基于模糊关系的重叠复合物识别算法FK-Medoids

4.1 引言

4.2 相关工作

4.3 基于模糊关系的复合物识别算法FK-Medoids

4.3.1 模糊集理论

4.3.2 伪团产生

4.3.3 FK-Medoids算法步骤

4.4 实验及结果分析

4.4.1 实验数据

4.4.2 参数λ的设定对算法结果的影响

4.4.3 参数β的设置对算法结果的影响

4.4.4 与其它算法比较

4.5 本章小结

第5章 基于重叠邻居结点和模糊关系的伪团扩展算法PCE-ONNFR

5.1 引言

5.2 相关工作

5.3 基于重叠邻居结点和模糊关系的伪团扩展算法PCE-ONNFR

5.3.1 利用模糊关系产生伪团

5.3.2 通过重叠的邻居结点扩展伪团

5.4 实验及结果分析

5.4.1 实验数据

5.4.2 GO语义相似性

5.4.3 参数λ对PCE-ONNFR算法性能的影响

5.4.4 参数γ对PCE-ONNFR算法性能的影响

5.4.5 聚合分数(CS)的分析

5.4.6 与FK-Medoids算法的比较

5.4.7 不同权重的比较

5.4.8 与其它算法比较

5.4.9 功能富集分析

5.4.10 在人类PPI网络中验证算法的性能

5.5 本章小结

第6章 基于组合权重的复合物识别算法cwMINE

6.1 引言

6.2 相关工作

6.3 基于组合权重的复合物识别算法cwMINE

6.3.1 相关术语

6.3.2 cwMINE算法

6.4 实验及结果分析

6.4.1 实验数据

6.4.2 不同加权策略的分析

6.4.3 扩展系数对cwMINE算法的影响

6.4.4 与PCE-ONNFR算法的比较

6.4.5 与其它算法比较

6.4.6 蛋白质复合物实例(Collins)

6.4.7 cwMINE算法发现疾病相关的复合物

6.5 本章小结

结论

参考文献

致谢

攻读学位期间所发表的学术论文

攻读学位期间所参加的科研项目

展开▼

摘要

在后基因组时代,随着高通量技术的迅猛发展,产生了大量的蛋白质相互作用网络数据,如何从这些海量的蛋白质网络数据中挖掘出有意义的子结构是当前生物信息学研究的主要热点之一。蛋白质复合物作为细胞元件功能实现的主要载体,对于理解蛋白质网络的结构以及认识细胞内生命活动的组织及过程具有重要的意义。
  本文以真实的蛋白质相互作用网络作为研究对象,分别从无权网络和加权网络研究了复合物的识别问题。对于无权网络,针对当前大多数算法主要采用单一网络拓扑特征挖掘复合物的现状,设计了以复合物密度、大小和特征路径长度为目标函数的多目标进化规划遗传算法。对于加权网络,针对现有重叠复合物发现算法精度不理想的现状,设计了不同地重叠蛋白质复合物发现算法。本文的主要研究工作如下:
  (1)针对当前大多数蛋白质复合物发现算法主要采用单一网络拓扑特征从蛋白质相互作用网络中挖掘复合物的现状,本文提出一种以多个网络拓扑特征为目标的进化规划遗传算法MOEPGA。该算法首先分析了标准集中已有蛋白质复合物的网络拓扑特征,以密度、大小和特征路径长度为目标构建目标函数,随后设计基于子图的变异操作产生下一代子图种群,在每一代变异完成后,将满足非支配条件的子图作为复合物输出,选择适当的概率将子图进化到下一代。在DIP和GAVIN两个酵母蛋白质相互作用网络数据集中验证了该算法的可行性,实验结果表明,相比于现有算法(ClusterONE、DPClus、MCODE、NEMO、SPICi和HC-PIN),该算法在fscore、归一化聚类分数等性能上具有显著性的效果。
  (2)针对现有蛋白质相互作用网络假阳性高且难以发现重叠复合物等问题,提出一种新的基于子结构(伪团)扩展的重叠蛋白质复合物发现算法FK-Medoids。该算法根据模糊关系发现蛋白质相互作用网络中互不重叠的具有较高密度和相似性的伪团,然后以伪团为种子进行扩展,改进K-Medoids算法,用带权蛋白质相互作用网络的边相似性作为蛋白质间的距离,借助于集合的上、下近似关系发现重叠的复合物。通过Krogan、Gavin和Colliins三组实验数据集对该算法的有效性进行了验证。实验结果表明,FK-Medoids在Krogan和Gavin数据集上,其精度、F-measure和敏感性等性能要优于已有算法(ClusterONE、CMC、MCL、OSLOM和RFC)。
  (3)上述FK-Medoids算法在密度较小的蛋白质相互作用网络中识别效果较好,但在相对稠密的网络中则识别效果欠佳。而且,由于FK-Medoids算法运行时间较长,提出一种基于重叠邻居结点和模糊关系的伪团扩展识别算法PCE-ONNFR。首先利用蛋白质对之间的GO相似性值来构建蛋白质相互作用网络的边权。然后通过模糊关系形成互不重叠的伪团。紧接着,基于贪婪策略迭代地扩展伪团,将能提高伪团聚合分数的邻居结点加入伪团。最后合并重叠复合物。与FK-Medoids算法相比,在DIP、Collins、Krogan和Gavin数据集上,PCE-ONNFR的识别效果更好,运行效率更高。而且,在人类蛋白质相互作用网络数据集中对PCE-ONNFR进行了验证,发现了一些与真实复合物匹配较高的蛋白质复合物,其效果远远优于其它已有的重叠复合物发现算法。
  (4)考虑到目前大多数算法多信息融合时需要人工干预调整参数,提出一种新的蛋白质复合物发现算法cwMINE。首先将边聚集系数与蛋白质对的GO相似性值以调和平均的方式进行组合计算边的权重。然后利用边的权重计算子图密度,并以此计算顶点的权重。为了进一步提高蛋白质复合物的预测精度,我们提出一种新的扩展规则,扩展系数,过滤掉低权重的蛋白质。在Krogan、Gavin和Collins三组酵母蛋白质相互作用网络数据集上与已有算法(CMC、RRW、ProRank+和HC-PIN)进行了比较。实验结果表明,cwMINE算法在大部分数据集中都要优于已有算法,而且,在人类蛋白质相互作用网络数据中进一步验证了该算法的有效性,发现了一些与疾病相关的复合物,为疾病的治疗提供了有价值的线索。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号