首页> 中国专利> 一种基于循环网络的蛋白质与蛋白质相互作用预测方法

一种基于循环网络的蛋白质与蛋白质相互作用预测方法

摘要

一种基于循环网络的蛋白质与蛋白质相互作用预测方法,首先,根据输入的待测定蛋白质‑蛋白质作用的蛋白质序列信息,生成蛋白质序列的残基组成特征、残基过渡特征、残基分布特征;其次,生成蛋白质序列的残基组成特征、残基过渡特征、残基分布特征;然后,生成蛋白质序列的残基组成特征、残基过渡特征、残基分布特征;再次,搭建循环神经网络框架,从PDB库中收集已有蛋白质‑蛋白质界面相互作用的蛋白质序列和标签,计算蛋白质序列的特征张量,与对应的标签组成数据集,使用循环神经网络框架在数据集上学习预测模型;最后,将待进行蛋白质‑蛋白质界面相互作用预测的特征向量输入模型中,得到界面作用预测结果。本发明计算代价低、预测精度高。

著录项

  • 公开/公告号CN112837742A

    专利类型发明专利

  • 公开/公告日2021-05-25

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN202110086831.5

  • 申请日2021-01-22

  • 分类号G16B15/30(20190101);G16B40/00(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33241 杭州斯可睿专利事务所有限公司;

  • 代理人王利强

  • 地址 310014 浙江省杭州市下城区朝晖六区潮王路18号

  • 入库时间 2023-06-19 11:05:16

说明书

技术领域

本发明涉及生物信息学、模式识别与计算机应用领域,具体而言涉及一种基于循环网络的蛋白质与蛋白质相互作用预测方法。

背景技术

在各项生命活动中,蛋白质的生物功能都起着至关重要的作用,而蛋白质的生物功能主要由其结构决定。预测蛋白质与蛋白质界面相互作用是蛋白质结构预测的关键步骤。因此,精确预测蛋白质与蛋白质界面相互作用,对于理解蛋白质功能、分析生物分子之间的相互关系和设计新药物等方面具有重要的指导意义。

调研文献发现,已有很多用于预测蛋白质与蛋白质界面相互作用方法被提出,如:Predicting protein-protein interactions based only on sequences information(Shen J,Zhang J,Luo X,et al.Predicting protein-protein interactions basedonly on sequences information.[J].Proc Natl Acad,U S A,2007,104(11):4337-4341.即:Shen J等.一种基于蛋白质序列预测蛋白质与蛋白质界面相互作用的方法.2007,104(11):4337-4341)及HomPPI(Li,C,Xue,et al.HomPPI:a class of sequence homologybased protein-protein interface prediction methods[J].Bmc Bioinformatics,2011.即:Li,等.利用同源蛋白质序列预测蛋白质与蛋白质界面相互作用.生物信息学,2011.)等。尽管已有的方法可以用于预测蛋白质与蛋白质界面相互作用,但是普遍使用大量训练数据集和机器学习算法,所以计算代价较大,同时由于训练集中的噪音信息和数据不平衡问题没有得到足够的关注,预测精度并不能保证是最优的且预测效率有待进一步提升。

综上所述,现存的蛋白质与蛋白质界面相互作用预测方法在计算代价、预测精确性方面,距离实际应用的要求还有很大差距,迫切地需要改进。

发明内容

为了克服现有蛋白质与蛋白质界面相互作用预测方法在计算代价、预测精确性方面的不足,本发明提出一种计算代价低、预测精确性高的基于循环网络的蛋白质与蛋白质相互作用预测方法。

本发明解决其技术问题所采用的技术方案是:

一种基于循环网络的蛋白质与蛋白质相互作用预测方法,所述方法包括以下步骤:

1)输入两条蛋白质残基个数分别为L

2)对任意给定的一条残基个数为L的蛋白质序列信息,记作S

2.1)将已知的20种氨基酸类型分别记作:A、G、U、D、E、M、S、T、Y、F、I、L、P、H、N、Q、W、K、R、C,根据蛋白质残基侧链的偶极子和体积,将S

2.2)计算S

2.3)计算S

2.4)计算S

2.5)将S

2.6)将步骤2.5)获得的14个片段,根据步骤2.1)至2.4)生成对应的残基组成特征、残基过渡特征、残基分布特征,每一个片段生成63维特征,由S

3)根据蛋白质与蛋白质界面热点倾向性,将S

3.1)计算S

3.2)计算S

3.3)计算S

4)根据蛋白质二级结构,将S

5)根据蛋白质溶剂可及性,将S

6)根据步骤2)至5),得到S

7)搭建双向长短时记忆循环神经网络框架,该双向长短时记忆循环神经网络框架共有两个部分组成,第一部分是由两个两层的双向长短时记忆循环神经网络LSTM-BRNN、一个线性层FC、一个归一化层BN、一个Tanh层组成;第二部分是由两个两层的双向长短时记忆循环神经网络LSTM-BRNN、三个线性层FC、三个归一化层、三个Tanh层、一个Softmax层组成;

8)从PDB库中收集已有蛋白质与蛋白质接触位点标签的蛋白质序列,记作

9)根据步骤2)至5),生成所有

10)使用步骤7)搭建的双向长短时记忆循环神经网络框架在S上学习预测模型,记作LSTMMergeLinear;

11)将待测蛋白质S

本发明的技术构思为:一种基于循环网络的蛋白质与蛋白质界面作用预测方法,首先,根据输入的待测定蛋白质与蛋白质界面作用的蛋白质序列信息,根据蛋白质残基侧链的偶极子和体积,将蛋白质序列中的20种氨基酸分为七组,进而生成蛋白质序列的残基组成特征、残基过渡特征、残基分布特征;其次,根据蛋白质与蛋白质界面热点倾向性,将蛋白质序列中的20种氨基酸分为3组,进而生成蛋白质序列的残基组成特征、残基过渡特征、残基分布特征;然后,根据蛋白质二级结构,将蛋白质序列中的20种氨基酸分为3类,进而生成蛋白质序列的残基组成特征、残基过渡特征、残基分布特征;再次,搭建循环神经网络框架,从PDB库中收集已有蛋白质与蛋白质界面相互作用的蛋白质序列和标签,计算蛋白质序列的特征张量,与对应的标签组成数据集,使用循环神经网络框架在数据集上学习预测模型;最后,将待进行蛋白质与蛋白质界面相互作用预测的特征向量输入模型中,得到蛋白质与蛋白质界面相互作用预测结果。本发明提供一种计算代价低、预测精度高的基于循环神经网络的蛋白质与蛋白质界面相互作用预测方法。

本发明的有益效果表现在:一方面,从蛋白质序列获得多种特征向量,获取了更多有用信息,为进一步提升蛋白质与蛋白质界面相互作用预测精度做好了准备;另一方面,从蛋白质的序列信息出发,计算蛋白质序列局部和非局部特征,提高了蛋白质溶剂可及性的预测效率与精度。

附图说明

图1为一种基于循环网络的蛋白质与蛋白质相互作用预测方法的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1,一种基于迭代搜索策略的蛋白质溶剂可及性预测方法,包括以下步骤:

1)输入两条蛋白质残基个数分别为L

2)对任意给定的一条残基个数为L的蛋白质序列信息,记作S

2.1)将已知的20种氨基酸类型分别记作:A、G、U、D、E、M、S、T、Y、F、I、L、P、H、N、Q、W、K、R、C,根据蛋白质残基侧链的偶极子和体积,将S

2.2)计算S

2.3)计算S

2.4)计算S

2.5)将S

2.6)将步骤2.5)获得的14个片段,根据步骤2.1)至2.4)生成对应的残基组成特征、残基过渡特征、残基分布特征,每一个片段生成63维特征,由S

3)根据蛋白质与蛋白质界面热点倾向性,将S

3.1)计算S

3.2)计算S

3.3)计算S

4)根据蛋白质二级结构,将S

5)根据蛋白质溶剂可及性,将S

6)根据步骤2)至5),得到S

7)搭建双向长短时记忆循环神经网络框架,该双向长短时记忆循环神经网络框架共有两个部分组成,第一部分是由两个两层的双向长短时记忆循环神经网络LSTM-BRNN、一个线性层FC、一个归一化层BN、一个Tanh层组成;第二部分是由两个两层的双向长短时记忆循环神经网络LSTM-BRNN、三个线性层FC、三个归一化层、三个Tanh层、一个Sofitmax层组成;

8)从PDB库中收集已有蛋白质与蛋白质接触位点标签的蛋白质序列,记作

9)根据步骤2)至5),生成所有

10)使用步骤7)搭建的双向长短时记忆循环神经网络框架在S上学习预测模型,记作LSTMMergeLinear;

11)将待测蛋白质S

本实施例以蛋白质1a0oG和1a0oH的界面相互作用预测为实施例,一种基于循环网络的蛋白质与蛋白质相互作用预测方法,包括以下步骤:

1)输入1a0oG和1a0oH蛋白质残基个数分别为128个和67个的待进行蛋白质与蛋白质界面相互作用预测的蛋白质序列信息,分别记作S

2)对任意给定的一条残基个数为L的蛋白质序列信息,记作S

2.1)将已知的20种氨基酸类型分别记作:A、G、U、D、E、M、S、T、Y、F、I、L、P、H、N、Q、W、K、R、C,根据蛋白质残基侧链的偶极子和体积,将S

2.2)计算S

2.3)计算S

2.4)计算S

2.5)将S

2.6)将步骤2.5)获得的14个片段,根据步骤2.1)至2.4)生成对应的残基组成特征、残基过渡特征、残基分布特征,每一个片段生成63维特征,由S

3)根据蛋白质与蛋白质界面热点倾向性,将S

3.1)计算S

3.2)计算S

3.3)计算S

4)根据蛋白质二级结构,将S

5)根据蛋白质溶剂可及性,将S

6)根据步骤2)至5),得到S

7)搭建双向长短时记忆循环神经网络框架,该双向长短时记忆循环神经网络框架共有两个部分组成,第一部分是由两个两层的双向长短时记忆循环神经网络LSTM-BRNN、一个线性层FC、一个归一化层BN、一个Tanh层组成;第二部分是由两个两层的双向长短时记忆循环神经网络LSTM-BRNN、三个线性层FC、三个归一化层、三个Tanh层、一个Softmax层组成;

8)从PDB库中收集已有蛋白质与蛋白质接触位点标签的蛋白质序列,记作

9)根据步骤2)至5),生成所有

10)使用步骤7)搭建的双向长短时记忆循环神经网络框架在S上学习预测模型,记作LSTMMergeLinear;

11)将待测蛋白质S

以蛋白质1ibaA进行溶剂可及性预测为实施例,运用以上方法得到蛋白质1a0oG和1a0oH的相互作用结果。

以上说明是本发明以蛋白质1a0oG和1a0oH的相互作用预测为实例所得出的结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号