首页> 中国专利> 一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统

一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统

摘要

本发明公开了一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统,通过零样本学习构建药物虚拟筛选预测模型,并存储针对先验蛋白质靶点的先验蛋白质靶点表征、以及对应的药效团提取模块的先验参数和分类预测模块的先验参数;这样,针对新发现靶点时,通过利用先验蛋白质靶点表征计算新靶点与先验靶点的注意力权重,基于注意力权重与先验参数构建针对新发现靶点的预测参数(提取预测参数和分类预测参数),这样利用采用预测参数的药物分子虚拟筛选模块能够实现对靶点对药物分子的相互作用的预测概率,根据预测概率即可以得到新发现靶点对药物分子的活性情况。该系统可以指导针对该新发现靶点蛋白质的药物开发。

著录项

  • 公开/公告号CN114974409A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202210608235.3

  • 发明设计人 应豪超;周景博;徐宇扬;吴健;

    申请日2022-05-31

  • 分类号G16B15/30(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构杭州天勤知识产权代理有限公司 33224;

  • 代理人曹兆霞

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G16B15/30 专利申请号:2022106082353 申请日:20220531

    实质审查的生效

说明书

技术领域

本发明属于医药数据处理技术领域,具体地说,涉及一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统。

背景技术

传统的药物靶标相互作用(Drug Target Interaction,DTI)是一种药物发现过程,需要对药物分子和靶标蛋白进行大量的湿实验,耗时耗力。因此,计算机结合的DTI预测方法作为快速筛选候选分子的第一步,在药学研究中发挥着越来越重要的作用。基于规则的硅基DTI方法,如对接和药效团映射,往往通过化学结构或能量分析模拟对接过程。它们的核心是利用化学规则和样品之间的相似性,分别识别蛋白质和配体(即靶点和药效团)的关键子结构。但是,由于这些规则是由具有先验知识的人类定义的,因此这些方法往往被认为是不灵活的,并且计算成本很高。相比之下,数据驱动的学习方法(如机器学习、深度学习等)能够灵活自主学习交互规则,对药物发现的加速作用更为显著。

现有的数据驱动的方法通常将DTI预测建模为给定药物靶标对的二元分类问题,研究主要集中在如何有效地学习分子和蛋白质的表示,然后将这些表示输入到高级分类模型或排序模型中。表征学习方法可以从一维(1D)的角度出发,如使用分子指纹、简化分子输入行输入系统(SMILES)、目标蛋白的FASTA序列作为输入特征,或者使用3D视角,利用GNN和CNN模型嵌入目标蛋白和分子的3D结构。近年来,如何基于几何深度学习对三维结构进行建模引起了大量的研究关注。然而,这些深度学习方法的预测性能本质上是隐式或显式地依赖于训练集中测试目标蛋白与其同源蛋白之间的相似性。当给定一个新发现的目标蛋白时,可能很难找到具有相似结构的同源蛋白,或者已知的分子相互作用很少。这使得这些方法很难很好地工作,因为对于这些数据驱动的方法几乎没有经过验证的知识。在这种情况下,这些方法的预测性能较差,不能令人满意。

图神经网络的提出很好地契合了药物发现在深度学习领域中的应用。通过将化学分子中的原子表示为图中的节点,化学中的原子键代表图中的边,在边和节点的特征中引入键角、旋转、化学能量等特征,很好地保留了化学分子原有的信息。现有的工作例如MPNN、SchNet、DimNet等主干化学分子图神经网络也在化学数据集上得到了良好的表现。

小样本学习(元学习的一种一般类型)方法主要有两种类型:(1)基于梯度的方法和(2)基于度量的方法。前者使用元学习者来指导基本学习者的更新方式,以便学习所有任务之间参数的中值初始化。对于基于梯度的方法,Finn等提出了MAML算法,它将所有看到的任务的损失加起来,以平衡初始化的参数。Andrychowicz等人将梯度下降函数与LSTM(Long-Short-Term Memory)模型进行比较,并使用LSTM模块指导基础学习者进行更新。对于基于度量的方法,Snell等人提出了一个原型网络,该网络在度量特征空间中学习每一类的原型表示;在测试中,网络计算测试样本与所有看到的类之间的距离来进行分类。

零样本学习是元学习的一种特殊情况,在这种情况下,一个模型在测试过程中通过额外的信息直接预测看不见的类。这种方法通常利用任务级别信息来快速适应目标任务。然而,考虑到新发现的蛋白质可能很少有同源蛋白和药物靶点相互作用,将零样本学习应用于DTI预测问题仍是一个较少探索的方向。还有一个类似的概念叫做主从正则化模型;但其目的是利用模型直接预测logistic回归模型的参数来进行公司收入预测。

发明内容

鉴于上述存在的技术不足,本发明的目的是提供一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统,以预测新发现蛋白质靶点对药物分子的相互作用。

为实现上述发明目的,实施例提供的一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中有参数优化好的药物虚拟筛选预测模型,所述药物虚拟筛选预测模型包括蛋白质分析模块、药物分子虚拟筛选模块以及参数存储模块,其中,蛋白质分析模块包括蛋白质表征模块、蛋白质靶点提取模块、靶点相似度注意力模块,药物分子虚拟筛选模块包括药物分子表征模块,药效团提取模块,分类预测模块,参数存储模块存储已知蛋白质对应的先验蛋白质靶点表征,还存储有先验蛋白质靶点对应的药效团提取模块的先验参数和分类预测模块的先验参数;

所述计算机处理器执行所述计算机程序时实现以下步骤:

依据目标蛋白质结构数据构建蛋白质异构图并进行节点属性初始化;

依据候选药物分子结构数据构建药物分子图并进行节点属性初始化;

利用蛋白质分析模块对目标蛋白质进行分析,包括:输入的蛋白质异构图经过蛋白质表征模块的特征表征得到蛋白质表征,并从蛋白质表征中提取的原子表征输入至蛋白质靶点提取模块,经过蛋白质靶点提取输出蛋白质靶点表征至靶点相似度注意力模块,经过计算蛋白质靶点表征与所有已知蛋白质对应的先验蛋白质靶点表征的相似度以作为注意力权重,再经过计算注意力权重分别与所有药效团提取模块的先验参数和所有分类预测模块的先验参数的加权之和作为目标蛋白质对应的药效团提取模块的提取预测参数和分类预测模块的分类预测参数;

将提取预测参数和分类预测参数分别载入药效团提取模块和分类预测模块;

利用药物分子虚拟筛选模块对候选药物分子进行筛选,包括:输入的药物分子图经过药物分子表征模块的特征表征,输出药物分子表征至参数为提取预测参数的药效团提取模块,经过提取输出药效团表征至参数为分类预测参数的分类预测模块,经过分类计算输出表示目标蛋白质与候选药物分子相互作用的预测概率;

其中,预测概率用于指导针对新发现蛋白质靶点的药物筛选与开发。

在一个实施例中,所述依据目标蛋白质结构数据构建蛋白质异构图,包括:提取目标蛋白质结构数据中的化学原子和氨基酸残基,以化学原子、氨基酸残基作为节点,以化学原子之间的化学键作为连边,以氨基酸残基之间的肽键作为连边,并在氨基酸残基与其构成化学原子之间构建条超边作为连边,以此来构建蛋白质异构图。

在一个实施例中,对蛋白质异构图进行节点属性的初始化,包括:以化学原子的电子束和手性作为one-hot向量,采用嵌入层对one-hot向量进行初始化,得到化学原子对应的节点属性;利用预训练的自然语言模型对氨基酸序列进行初始化,以得到氨基酸残基对应的节点属性。

在一个实施例中,所述依据候选药物分子结构数据构建药物分子图,包括:提取候选药物分子结构数据中的化学原子,以化学原子作为节点,以化学原子之间的化学键作为连边,以构建以此来构建药物分子图。

在一个实施例中,对药物分子图进行节点属性的初始化,包括:以化学原子的电子束和手性作为one-hot向量,采用嵌入层对one-hot向量进行初始化,得到化学原子对应的节点属性。

在一个实施例中,所述蛋白质表征模块采用图卷积网络,利用图卷积网络对初始化节点属性的蛋白质异构图进行信息传递,以更新节点属性,得到由最新节点属性组成的蛋白质表征。

在一个实施例中,所述从蛋白质表征中提取的原子表征至蛋白质靶点提取模块,包括:从蛋白质表征中提取化学原子对应的最新节点属性组成原子表征,并将原子表征输入至蛋白质靶点提取模块。

在一个实施例中,所述药物分子表征模块采用图卷积网络,利用图卷积网络对初始化节点属性的药物分子图进行信息传递,以更新节点属性,得到由最新节点属性组成的药物分子表征,优选地,药物分子表征模块采用的图卷积网络为SchNet。

在一个实施例中,所述蛋白质表征模块采用图卷积网络,所述图卷积网络包括SchNet、GAT、TransformerConv,利用这三种图卷积网络构建蛋白质表征的过程包括:

方式一:利用SchNet对初始化节点属性的蛋白质异构图进行通过化学原子之间的化学键实现信息传递,以更新化学原子对应节点的节点属性;

方式二:利用GAT对初始化节点属性的蛋白质异构图进行通过氨基酸残基与其构成化学原子之间的超边实现信息传递,以更新化学原子对应节点的节点属性和氨基酸残基对应节点的节点属性;

方式三:利用TransformerConv对初始化节点属性的蛋白质异构图进行通过氨基酸残基之间的肽键实现信息传递,以更新氨基酸残基对应节点的节点属性;

对上述三种方式更新的最新节点属性进行加和或者求平均以得到蛋白质表征。

在一个实施例中,所述蛋白质靶点提取模块包括第一图指派层和第一平均池化层;利用第一图指派层对输入的原子表征进行节点属性是否为关键性属性的判断,将判断为关键性属性对应的节点作为靶点;利用第一平均池化层对靶点进行平均池化,将得到平均池化结果作为蛋白质靶点表征;优选地,第一图指派层采用多层感知机。

在一个实施例中,所述药效团提取模块包括第二图指派层和第二平均池化层;利用第二图指派层对输入的药物分子表征进行节点属性是否为关键性属性的判断,将判断为关键性属性对应的节点作为药效关键点;优选地,第二图指派层采用多层感知机;利用第二平均池化层对药效关键点进行平均池化,将得到平均池化结果作为药效团表征。

在一个实施例中,所述分类预测模块采用多层感知机,利用多层感知机对输入的药效团表征进行分类计算,以输出目标蛋白质的靶点与候选药物分子的药效团相互作用的预测概率。

在一个实施例中,所述药物虚拟筛选预测模型采用基于零样本学习的方式进行参数优化,包括:

设定任务,包括:将对每个蛋白质靶点针对活性药物分子或非活性药物分子的相互作用预测作为一个任务;

构建样本,包括:针对每个任务,获取特定靶点的蛋白质结构数据和对应的药物分子结构数据并构建蛋白质异构图和药物分子图,组成单个样本,以构建每个任务的样本集,并将每个任务的样本中的药物分子结构数据划分为支持集和查询集;其中,药物分子结构数据包括活性药物分子结构数据、非活性药物分子结构数据;

对药物分子虚拟筛选模块进行训练,包括:(a1)将各个任务的支持集中的样本包含的药物分子图输入至药物分子虚拟筛选模块中,在筛选损失的监督学习下以优化各个任务对应的药物分子虚拟筛选模块的参数;(b1)将各个任务的查询集中的样本包含的药物分子图输入至药物分子虚拟筛选模块中,基于利用支持集更新的参数计算每个任务对应的筛选损失,并将所有任务的筛选损失求和之后,利用总筛选损失在原始参数的基础上更新每个任务对应的药物分子虚拟筛选模块的参数;(c1)迭代重复步骤(a1)和(b1),直到药物分子虚拟筛选模块的针对所有任务的第一预测概率平均值的准确度稳定不变后,再重复步骤(a1),并提取各任务的支持集更新后的药效团提取模块和分类预测模块的参数存储于参数存储模块作为针对各蛋白质靶点的先验参数;

固定药物分子虚拟筛选模块中药物分子表征模块的参数不变,对蛋白质分析模块进行训练,包括:(a2)在蛋白质分析模块中添加氨基酸残基对齐模块,用于对同批次蛋白质表征中提取的氨基酸残基表征进行对齐;(b2)将各个任务的样本包含的蛋白质异构图输入至蛋白质分析模块,同时将相同样本包含的药物分子图输入至药物分子虚拟筛选模块中,以输出第二预测概率,在分析损失的监督学习下以优化各个任务对应的蛋白质分析模块的参数,直到针对所有任务的第二预测概率平均值的准确度稳定不变,参数优化结束,提取各任务对应的蛋白质靶点表征存储于参数存储模块作为先验蛋白质靶点表征。

在一个实施例中,所述筛选损失包括基于药物分子表征构建的自监督损失、基于药效团表征构建的连通性损失和第一互信息损失、基于第一预测概率构建的第一分类损失;

其中,基于药物分子表征构建自监督损失,包括:将同一批次的任意两任务对应的药物分子表征相乘得到原子键重构的键重构自监督损失,将药物分子表征输入至多层感知机对原子电子数进行回归预测,基于回归预测结果与电子数真值构建电子数回归自监督损失,键重构自监督损失与电子数回归自监督损失的加权求和作为自监督损失;

基于药效团表征构建连通性损失和第一互信息损失,包括:提取药效团表征中节点索引的编码向量,并计算节点索引的编码向量的转置、药物分子图的邻接矩阵以及节点索引的编码向量三者之积后,将三者之积与单位矩阵之差的范数作为连通性损失;计算当前药物分子的药效团表征与药物分子表征的互信息,计算当前药物分子的药效团表征与同一批次其他药物分子的药物分子表征的互信息平均值,将互信息与互信息平均值之差作为第一互信息损失;

基于第一预测概率构建第一分类损失,包括:以第一预测概率与药物分子相互作用的真值标签的交叉熵损失作为第一分类损失;

将自监督损失、连通性损失、第一互信息损失以及第一分类损失的加权求和作为筛选损失。

在一个实施例中,所述分析损失包括基于氨基酸残基表征构建的对齐损失、基于蛋白质靶点表征构建的连接损失和第二互信息损失、基于生成参数构建的参数损失以及预测概率构建的第二分类损失;

其中,基于氨基酸残基表征构建对齐损失,包括:将单个任务对应的氨基酸残基表征与属于同一批次其他任务对应的氨基酸残基表征进行对齐,依据预测对齐结果构建对齐损失;

基于蛋白质靶点表征构建连接损失和第二互信息损失,包括:提取蛋白质靶点表征中节点索引的编码向量,并计算节点索引的编码向量的转置、蛋白质异构图的邻接矩阵以及节点索引的编码向量三者之积后,将三者之积与单位矩阵之差的范数作为连接损失;计算当前蛋白质的蛋白质靶点表征与蛋白质表征的互信息,计算当前蛋白质的蛋白质靶点表征与同一批次其他蛋白质的蛋白质表征的互信息平均值,将互信息与互信息平均值之差作为第二互信息损失;

基于生成参数构建的参数损失,包括:计算单个任务对应的蛋白质靶点表征与同一批次其他任务对应的蛋白质靶点表征之间的相似性作为注意力权重,并将按照注意力权重对其他任务对应的先验参数进行加权求和以得到针对单个任务的预测参数,其中,预测参数包括药效团提取模块的提取预测参数和分类预测模块的分类预测参数,以预测参数与存储的先验参数的差值作为参数损失;

基于第二预测概率构建第一分类损失,包括:以第二预测概率与药物分子相互作用的真值标签的交叉熵损失为第二分类损失;

将对齐、连接性损失、第二互信息损失以及第二分类损失的加权求和作为分析损失。

与现有技术相比,本发明具有的有益效果至少包括:

通过零样本学习构建药物虚拟筛选预测模型,并存储针对先验蛋白质靶点的先验蛋白质靶点表征、以及对应的药效团提取模块的先验参数和分类预测模块的先验参数;这样,针对新发现靶点时,通过利用先验蛋白质靶点表征计算新靶点与先验靶点的注意力权重,基于注意力权重与先验参数构建针对新发现靶点的预测参数(提取预测参数和分类预测参数),这样利用采用预测参数的药物分子虚拟筛选模块能够实现对靶点对药物分子的相互作用的预测概率,根据预测概率即可以得到新发现靶点对药物分子的活性情况。该系统可以解决实际应用中新发现靶点蛋白质的同源蛋白缺少,难以筛选活性药物分子的问题,从而指导针对该新发现靶点蛋白质的药物开发。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。

图1是实施例提供的药物虚拟筛选预测模型的结构示意图;

图2是实施例提供的利用药物虚拟筛选预测模型进行新发现靶点的药物虚拟筛选的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。

为了解决实际应用中新发现靶点蛋白质的同源蛋白缺少,难以筛选活性药物分子的问题,实施例提供了一种基于零样本学习的药物虚拟筛选预测模型。如图1所示,实施例提供的药物虚拟筛选预测模型包括蛋白质分析模块、药物分子虚拟筛选模块以及参数存储模块,其中,蛋白质分析模块包括蛋白质表征模块、蛋白质靶点提取模块、靶点相似度注意力模块,药物分子虚拟筛选模块包括药物分子表征模块,药效团提取模块,分类预测模块,参数存储模块存储已知蛋白质对应的先验蛋白质靶点表征,还存储有先验蛋白质靶点对应的药效团提取模块的先验参数和分类预测模块的先验参数。

实施例中,蛋白质表征模块用于对输入的蛋白质异构图进行特征表征,以得到蛋白质表征,其中,蛋白质异构图是根据蛋白质结构数据构建,具体包括:提取蛋白质结构数据中的化学原子和氨基酸残基,以化学原子、氨基酸残基作为节点,以化学原子之间的化学键作为连边,以氨基酸残基之间的肽键作为连边,并在氨基酸残基与其构成化学原子(理解为化学原始是的氨基酸残基的组成原子)之间构建条超边作为连边,以此来构建蛋白质异构图。

实施例中,蛋白质异构图输入蛋白质表征模块之前,还需要进行节点属性的初始化,包括:以化学原子的电子束和手性作为one-hot向量,采用嵌入层对one-hot向量进行初始化,得到化学原子对应的节点属性;利用预训练的自然语言模型(例如Transformer模型ProtTrans)对氨基酸序列进行初始化,以得到氨基酸残基对应的节点属性。

在一个可能的实施方式中,蛋白质表征模块可以采用图卷积网络,利用图卷积网络对初始化节点属性的蛋白质异构图进行信息传递,以更新节点属性,得到由最新节点属性组成的蛋白质表征。

在另外一种可能的实施方式中,蛋白质表征模块采用的图卷积网络包括SchNet、GAT、TransformerConv;利用这三种图卷积网络进行信息传递,以构建蛋白质表征的过程包括:

方式一:利用SchNet对初始化节点属性的蛋白质异构图进行通过化学原子之间的化学键实现信息传递,以更新化学原子对应节点的节点属性;方式二:利用GAT对初始化节点属性的蛋白质异构图进行通过氨基酸残基与其构成化学原子之间的超边实现信息传递,以更新化学原子对应节点的节点属性和氨基酸残基对应节点的节点属性;方式三:利用TransformerConv对初始化节点属性的蛋白质异构图进行通过氨基酸残基之间的肽键实现信息传递,以更新氨基酸残基对应节点的节点属性;对上述三种方式更新的最新节点属性进行加和或者求平均以得到蛋白质表征。

实施例中,蛋白质靶点提取模块用于进行蛋白质靶点的提取,具体的,从蛋白质表征中提取化学原子对应的最新节点属性以组成原子表征,并将原子表征输入至蛋白质靶点提取模块,经过蛋白质靶点提取计算以输出蛋白质靶点至靶点相似度注意力模块。

实施例中,蛋白质靶点提取模块包括第一图指派层和第一平均池化层;利用第一图指派层对输入的原子表征进行节点属性是否为关键性属性的判断,将判断为关键性属性对应的节点作为靶点;然后,利用第一平均池化层对靶点进行平均池化,将得到平均池化结果作为蛋白质靶点表征;实施例优选第一图指派层可以采用多层感知机,即利用多层感知机对原子表征进行节点属性是否为关键性属性的判断,以输出判断概率值。

实施例中,相似度注意力模块用于依据蛋白质靶点计算注意力权重进而计算蛋白质靶点对应预测参数,其中,预测参数包括药效团提取模块的提取预测参数和分类预测模块的分类预测参数。具体过程包括:蛋白质靶点表征输入靶点相似度注意力模块,计算蛋白质靶点表征与所有已知蛋白质对应的先验蛋白质靶点表征的相似度作为注意力权重;然后再计算注意力权重与所有药效团提取模块的先验参数的加权之和作为蛋白质靶点对应的药效团提取模块的提取预测参数,再计算注意力权重与蛋白质靶点对应的所有分类预测模块的先验参数的加权之和作为蛋白质靶点对应的分类预测模块的分类预测参数。其中,先验蛋白质靶点表征和先验参数均是通过训练过程训练得到。

实施例中,药物分子表征模块用于对输入的药物分子图进行特征表征以得到药物分子特征。其中,药物分子图是根据药物分子结构数据构建,具体包括:提取候选药物分子结构数据中的化学原子,以化学原子作为节点,以化学原子之间的化学键作为连边,以构建以此来构建药物分子图。

实施例中,药物分子图输入药物分子表征模块之前,对药物分子图进行节点属性的初始化,包括:以化学原子的电子束和手性作为one-hot向量,采用嵌入层对one-hot向量进行初始化,得到化学原子对应的节点属性。

实施例中,药物分子表征模块可以采用3D主干分子图卷积网络,利用图卷积网络对初始化节点属性的药物分子图进行信息传递,以更新节点属性,得到由最新节点属性组成的药物分子表征。在一个可能的实施方式中,药物分子表征模块采用的3D主干分子图卷积网络优选为SchNet,利用SchNet对初始化节点属性的药物分子图进行通过化学原子之间的化学键实现信息传递,以更新化学原子对应节点的节点属性。

实施例中,药效团提取模块用于根据药物分子表征提取药效团表征。具体提取时,加载蛋白质分析模块生成的药效团提取模块的提取预测参数,在提取预测参数下对药物分子表征进行计算,以提取起主要药效作用的药效团表征。

实施例中,药效团提取模块包括第二图指派层和第二平均池化层;利用第二图指派层对输入的药物分子表征进行节点属性是否为关键性属性的判断,将判断为关键性属性对应的节点作为药效关键点;然后,利用第二平均池化层对药效关键点进行平均池化,将得到平均池化结果作为药效团表征。实施例优选第二图指派层采用多层感知机,即利用多层感知机对药物分子表征进行节点属性是否为药效关键点的判断,以输出判断概率值。

实施例中,分类预测模块用于根据药效团表征进行是否为活性药物分子的预测,当预测为活性药物分子,则表明蛋白质靶点与药物分子有相互作用,预测为非活性药物分子,则表明蛋白质靶点与药物分子没有相互作用。具体预测时,加载蛋白质分析模块生成的分类预测模块的分类预测参数,在分类预测参数下对药效团表征进行计算,以输出表示蛋白质靶点与药物分子相互作用的预测概率。

实施例中,分类预测模块可以采用多层感知机,利用多层感知机对输入的药效团表征进行分类计算,以输出蛋白质靶点与药物分子的药效团相互作用的预测概率。

上述药物虚拟筛选预测模型在被应用之前需要经过参数优化,实施例采用零样本学习的方式对模型进行参数优化,以更新模型参数并生成先验蛋白质靶点表征和先验蛋白质靶点对应的药效团提取模块的先验参数和分类预测模块的先验参数。具体的参数优化过程包括:

1、设定任务,包括:将对每个蛋白质靶点针对活性药物分子或非活性药物分子的相互作用预测作为一个任务,在学习过程中同一批次会输入N个蛋白质,则会存在N个蛋白质靶点对应的N个任务。

2、构建样本,包括:针对每个任务,获取特定靶点的蛋白质结构数据和对应的药物分子结构数据并构建蛋白质异构图和药物分子图,组成单个样本,以构建每个任务的样本集,并将每个任务的样本中的药物分子结构数据划分为支持集和查询集;其中,药物分子结构数据包括活性药物分子结构数据、非活性药物分子结构数据。

实施例中,蛋白质结构数据包括电子数、原子手性(UNSPECIFIED,CHI_TETRAHEDRAL_CW,CHI_TETRAHEDRAL_CCW,CHI_OTHER)、键的类型(单键、双键、三键、苯环)以及键的方向(NONE,ENDUPRIGHT,ENDDOWNRIGHT)。基于这些蛋白质结构数据按上述方式构建蛋白质异构图并进行节点属性的初始化。

实施例中,这对药物分子结构数据,可以随机选择5个活性分子与5个非活性分子作为零样本学习的支持集,随后随机选择125个活性分子与125非活性分子作为零样本学习的查询集,并将药物分子与所在任务的蛋白质是否反应作为最终标注,标签是0、1,分别表示药物分子是针对蛋白质的非活性分子与活性分子;

3、对药物分子虚拟筛选模块进行训练,包括:

(a1)将各个任务的支持集中的样本包含的药物分子图输入至药物分子虚拟筛选模块中,即利用药物分子表征模块得到药物分子表征,并将同一批次的任意两任务对应的药物分子表征相乘得到原子键重构的键重构自监督损失,将药物分子表征输入至多层感知机对原子电子数进行回归预测,基于回归预测结果与电子数真值构建电子数回归自监督损失,键重构自监督损失与电子数回归自监督损失的加权求和作为自监督损失;药物分子表征输入至药效团提取模块,提取药效团表征后,提取药效团表征中节点索引的编码向量,并计算节点索引的编码向量的转置、药物分子图的邻接矩阵以及节点索引的编码向量三者之积后,将三者之积与单位矩阵之差的范数作为连通性损失;计算当前药物分子的药效团表征与药物分子表征的互信息,计算当前药物分子的药效团表征与同一批次其他药物分子的药物分子表征的互信息平均值,将互信息与互信息平均值之差作为第一互信息损失;将判断为关键性属性对应的药效关键点进行平均池化,得到药效团表征并输入至分类预测模块,经计算输出第一预测概率,以第一预测概率与药物分子相互作用的真值标签(也就是药物分子是活性药物分子还是非活性药物分子)的交叉熵损失作为第一分类损失,并以自监督损失、连通性损失、第一互信息损失以及第一分类损失的加权求和作为筛选损失;在筛选损失的监督学习下以优化各个任务对应的药物分子虚拟筛选模块的参数;

(b1)将各个任务的查询集中的样本包含的药物分子图输入至药物分子虚拟筛选模块中,基于利用支持集更新的参数计算每个任务对应的筛选损失,该筛选损失的计算方式与步骤(a1)中相同,并将所有任务的筛选损失求和之后,利用总筛选损失在原始参数的基础上更新每个任务对应的药物分子虚拟筛选模块的参数;需要说明的是,原始参数是指药物分子虚拟筛选模块的初始参数。

(c1)迭代重复步骤(a1)和(b1),直到药物分子虚拟筛选模块的针对所有任务的第一预测概率平均值的准确度稳定不变后,也就是直到所有任务上的第一预测概率平均值不再上升时,再重复步骤(a1),即利用支持集中的药物分子图对利用查询集更新后的参数再继续更新,并提取各任务的支持集更新后的药效团提取模块和分类预测模块的参数存储于参数存储模块作为针对各蛋白质靶点的药效团提取模块的先验参数和分类预测模块的先验参数,需要说明的是,针对每个任务,也就是针对每个蛋白质靶点均存在一组先验参数,图1示例性地给出了三个蛋白质数据Ta、Tb、Tc对应的参数不同的三个药物分子虚拟筛选模块。

4、完成药物分子虚拟筛选模块的训练后,固定药物分子虚拟筛选模块中药物分子表征模块的参数不变,对蛋白质分析模块进行训练,包括:

(a2)如图1所示,在蛋白质分析模块中添加氨基酸残基对齐模块,用于对同批次蛋白质表征中提取的氨基酸残基表征进行对齐;

(b2)将各个任务的样本包含的蛋白质异构图输入至蛋白质分析模块,经过蛋白质表征模块特征表征,得到蛋白质表征,并从蛋白质表征中提取原子表征和氨基酸残基表征,利用多序列对齐技术将单个任务对应的氨基酸残基表征与属于同一批次其他任务对应的氨基酸残基表征进行对齐,即将单个任务对应的氨基酸残基表征与属于同一批次其他任务对应的氨基酸残基表征相乘得到预测对齐结果,并依据预测对齐结果构建对齐损失,以进行自监督,约束训练结果;将原子表征输入至蛋白质靶点提取模块,提取蛋白质靶点表征后,提取蛋白质靶点表征中节点索引的编码向量,并计算节点索引的编码向量的转置、蛋白质异构图的邻接矩阵以及节点索引的编码向量三者之积后,将三者之积与单位矩阵之差的范数作为连接损失;计算当前蛋白质的蛋白质靶点表征与蛋白质表征的互信息,计算当前蛋白质的蛋白质靶点表征与同一批次其他蛋白质的蛋白质表征的互信息平均值,将互信息与互信息平均值之差作为第二互信息损失;将判断为关键性属性对应的靶点进行平均池化,得到蛋白质靶点表征并输入至靶点相似度注意力模块,计算单个任务对应的蛋白质靶点表征与同一批次其他任务对应的蛋白质靶点表征之间的相似性作为注意力权重,并将按照注意力权重对存储的其他任务对应的先验参数进行加权求和以得到针对当前单个任务的预测参数,其中,预测参数包括药效团提取模块的提取预测参数和分类预测模块的分类预测参数,以预测参数与存储的先验参数的差值作为参数损失;将预测参数载入到药效团提取模块的和分类预测模块中;将相同样本包含的药物分子图输入至药物分子虚拟筛选模块中,依次经过药物分子表征模块、参数为提取预测参数的药效团提取模块,参数为分类预测参数的分类预测模块的计算,以输出第二预测概率,以第二预测概率与药物分子相互作用的真值标签的交叉熵损失为第二分类损失;将对齐、连接性损失、第二互信息损失以及第二分类损失的加权求和作为分析损失;在分析损失的监督学习下以优化各个任务对应的蛋白质分析模块的参数,直到针对所有任务的第二预测概率平均值的准确度稳定不变,即针对所有任务的第二预测概率平均值达到最优值,参数优化结束,提取各任务对应的蛋白质靶点表征存储于参数存储模块作为先验蛋白质靶点表征。

与现有技术相比,针对新发现的蛋白质靶点,无需相关的同源蛋白质结构分析与知识迁移,也无需大量的相关活性分子与非活性分子进行训练,能直接生成准确率较高的药物虚拟筛选预测模型,该模型能够顾实现针对该种新发现的蛋白质靶点对药物活性的预测,指导药物开发。

基于参数优化的药物虚拟筛选预测模型,实施例还提供了基于零样本学习的针对新发现靶点的药物虚拟筛选系统,该药物虚拟筛选系统为硬件设备,具备针对新发现靶点的药物虚拟筛选的功能。具体地,系统包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,还存储有药物虚拟筛选预测模型,其中,药物虚拟筛选预测模型包括的参数存储模块存储已知蛋白质对应的先验蛋白质靶点表征,还存储有先验蛋白质靶点对应的药效团提取模块的先验参数和分类预测模块的先验参数。

计算机处理器执行所述计算机程序时实现针对新发现靶点的药物虚拟筛选过程,如图2所示,包括以下步骤:

步骤1,依据目标蛋白质结构数据构建蛋白质异构图并进行节点属性初始化。

实施例中,目标蛋白质中包含有新发现的蛋白质靶点。目标蛋白质结构数据同样包含原子电子数、原子手性、以及键的方向等。采用上述方式构建目标蛋白质结构数据的蛋白质异构图并进行节点属性初始化,在此不再赘述。

步骤2,依据候选药物分子结构数据构建药物分子图并进行节点属性初始化。

实施例中,候选药物分子结构数据可能为针对新发现蛋白质靶点的活性药物分子数据,也可能为非活性药物分子数据。采用上述方式构建候选药物分子结构数据的药物分子图并进行节点属性初始化,在此不再赘述。

步骤3,利用蛋白质分析模块对目标蛋白质进行分析,以确定针对目标蛋白质靶点的提取预测参数和分类预测参数。

实施例中,利用蛋白质分析模块对目标蛋白质进行分析,包括:输入的蛋白质异构图经过蛋白质表征模块的特征表征得到蛋白质表征,并从蛋白质表征中提取的原子表征输入至蛋白质靶点提取模块,经过蛋白质靶点提取输出蛋白质靶点表征至靶点相似度注意力模块,经过计算蛋白质靶点表征与所有已知蛋白质对应的先验蛋白质靶点表征的相似度以作为注意力权重,再经过计算注意力权重分别与存储的所有药效团提取模块的先验参数和所有分类预测模块的先验参数的加权之和作为目标蛋白质对应的药效团提取模块的提取预测参数和分类预测模块的分类预测参数。

步骤4,将提取预测参数和分类预测参数分别载入药效团提取模块和分类预测模块。

步骤5,利用药物分子虚拟筛选模块对候选药物分子进行筛选。

实施例中,利用药物分子虚拟筛选模块对候选药物分子进行筛选,包括:输入的药物分子图经过参数固定的药物分子表征模块的特征表征,输出药物分子表征至参数为提取预测参数的药效团提取模块,经过提取输出药效团表征至参数为分类预测参数的分类预测模块,经过分类计算输出表示目标蛋白质与候选药物分子相互作用的预测概率。

实施例中,各候选药物分子的预测概率作为检测药物活性的活性概率,用以指导针对靶点蛋白质的药物快速筛选与开发。同时,根据蛋白质靶点提取模块可以得到蛋白质靶点表征图,可作为蛋白质靶点的结构参考。同时,根据药效团提取模块提取的药效团表征图是活性药物共性的子结构,作为对应药效团的结构参考,可用于指导后续的药物开发工作的解释与探究。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号