首页> 中国专利> 基于多目标分解优化策略的蛋白质结构优化方法

基于多目标分解优化策略的蛋白质结构优化方法

摘要

一种基于多目标分解优化策略的蛋白质结构优化方法,首先将待优化的结构通过随机扰动生成不同的构象作为目标粒子,即每一个粒子都对应一个构象,并为每一个粒子分配一个独有的权重向量,然后利用粒子群算法根据每个粒子独有的权重向量更新其位置和速度,每次更新时筛选出非支配粒子放入解集中,当达到最大迭代次数后得到的非支配粒子集合即为最终解集,最后使用边际效用方法对最终解集中的结构进行排序并将边际效用值最小的构象作为优化后的蛋白质结构。本发明采用多种能量函数缓解单个能量函数带来的偏差,并运用粒子群算法在蛋白质结构空间中进行搜索,采用分解策略将多目标问题分解为一系列单目标子问题,避免了搜索过程中粒子因优化方向不明确所引起的振荡问题,使得优化效果更加稳定。

著录项

  • 公开/公告号CN113035268A

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN202110380246.6

  • 发明设计人 周成鹏;沈红斌;

    申请日2021-04-09

  • 分类号G16B5/00(20190101);G16B15/00(20190101);G06N3/00(20060101);

  • 代理机构31201 上海交达专利事务所;

  • 代理人王毓理;王锡麟

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-06-19 11:35:49

说明书

技术领域

本发明涉及的是一种蛋白质生物学与模式识别领域的技术,具体是一种基于多目标分解优化策略的蛋白质结构优化方法。

背景技术

蛋白质的结构与功能密切相关,高精度的结构对理解蛋白质的功能至关重要。而蛋白质结构优化则是得到更准确的蛋白质结构的关键步骤。现有的技术通常是结合能量函数和优化算法,将初始结构的信息作为约束,在蛋白质构象空间中迭代搜索,寻找能量函数值最低的构象。这种技术的有效性取决于所用能量函数的准确度,但由于蛋白质结构的多样性,现有的单个能量函数都无法准确地描述所有蛋白质的状态,故在使用单个能量函数进行搜索时,结果往往会有偏差,从而使优化失败。而选择多个能量函数作为多目标来指导搜索的过程可以有效地缓解单个能量函数带来的潜在偏差。但是,这些基于多目标的方法大多利用支配关系求解非支配解集,无法直接控制搜索的方向,也没有合适的机制来维持最终解集的多样性。而损失多样性就意味着损失了多目标优化的优势,同时,由于缺少明确的优化目标,优化过程往往会出现振荡的现象,导致收敛性变弱,使蛋白质结构出现退化的现象。

发明内容

本发明针对现有技术存在的上述不足,提出一种基于多目标分解优化策略的蛋白质结构优化方法,采用多种能量函数缓解单个能量函数带来的偏差,并运用粒子群算法在蛋白质结构空间中进行搜索。在处理多目标优化问题时,采用分解策略将多目标问题分解为一系列单目标子问题,并把它们与粒子群算法中的每一个粒子联系起来,使得每个粒子都有确切的优化方向,避免了搜索过程中粒子因优化方向不明确所引起的振荡问题,增强了算法的收敛性并保证了最终所得结构的多样性,使得优化效果更加稳定。

本发明是通过以下技术方案实现的:

本发明涉及一种基于多目标分解优化策略的蛋白质结构优化方法,首先将待优化的结构通过随机扰动生成不同的构象作为目标粒子,即每一个粒子都对应一个构象,并为每一个粒子分配一个独有的权重向量,然后利用粒子群算法根据每个粒子独有的权重向量更新其位置和速度,每次更新时筛选出非支配粒子放入解集中,当达到最大迭代次数后得到的非支配粒子集合即为最终解集,最后使用边际效用方法对最终解集中的结构进行排序并将边际效用值最小的构象作为优化后的蛋白质结构。

本方法具体包括如下步骤:

S1:给定氨基酸序列长度为L的蛋白质结构,通过随机扰动生成指定数量为N的构象群体{x

所述的粒子向量化表示是指:采用内坐标系,固定构象原子之间的键长和键角,只选取每个氨基酸的三个扭转角作为参考,则任意一个蛋白质结构可表示为x

S2:计算每个粒子的三个能量值,同时生成与粒子数同等数量的权重向量。将权重向量和分解策略结合然后分配到每一个粒子。然后初始化粒子的速度,个体最优和全局最优,并构造初始解集,具体包括:

S21:所用三个能量函数包括Rosetta能量函数、CHARM<能量函数、RWplus能量函数。

S22:权重向量λ

S23:分解策略采用了PBI方法,具体为:minimizeg

{Rosetta,RWplus,CHARMM},F(x)=(f

S24.每个粒子的个人最优位置初始化为自身,同时定义每个粒子的邻域为所有粒子中与其权重向量最相似的T个粒子,则全局最优初始化为邻域中PBI值最小的粒子。

S3:利用粒子群算法更新当前的位置和速度,其中粒子群更新具体为:更新各粒子更新步长

S4:每一轮迭代之后重新计算每个粒子的三个能量值,筛选出非支配解并放入解集中,每个粒子根据自己的权重向量更新个体最优和全局最优,具体包括:

S41:分别计算各自粒子的三个能量函数值

S42:确定当前粒子群中的非支配粒子,将这些粒子分别与解集中的解比较,当不被解集中的任何解支配,则放入解集中,当解集中的解被当前粒子支配,则将其从解集中删除。

S43:各个粒子根据自己的权重向量和当前的三个能量值计算此时的适应度,当小于个体最优的适应度,则将个体最优更新为当前位置,否则保持个体最优的位置。

S44:对于每个粒子邻域内的粒子,计算邻域内所有粒子其三个能量和当前粒子权重向量所得的PBI值,选择PBI值最小的粒子与当前粒子的全局最优比较,当小于当前粒子的全局最优,则更新当前粒子的全局最优位置,否则保持当前粒子的全局最优位置不变。

执行S3和S4直到达到最大迭代次数。

S5:将最终解集中的结构进行排序并作为最优结构输出,具体包括:

S51:构建边际效用函数:U

S52:对w

S53:每个粒子都得到边际效用值后将其进行排序,将边际效用值最小的构象输出作为优化后的蛋白质结构。

本发明涉及一种实现上述方法的系统,包括:初始化模块,多目标分解策略优化模块,候选解筛选模块。其中:初始化模块接受待优化的蛋白质结构,利用随机扰动的方式生成蛋白质构象群体,同时给每个蛋白质构象分配权重向量,并初始化参数,然后将构象群体输入到多目标分解策略优化模块。多目标分解策略优化模块采用粒子群算法结合分解策略对每一个构象进行特定方向的优化,达到最大迭代次数后再将蛋白质构象解集输入到候选解筛选模块。候选解筛选模块计算每个蛋白质构象的边际效用值,将边际效用值最小的构象输出作为优化后的蛋白质结构。

技术效果

本发明整体解决了现有技术所得蛋白质构象解集多样性差,优化效果不稳定的缺点。

与现有技术相比,本发明采用分解策略,使得每个粒子都对应一个确定的子问题,在迭代优化过程中有确切的更新方向,避免了振荡现象的产生,加快了收敛的过程,使得所得到的解收敛性更强。由于每个粒子对应一个优化方向的解,从而保证了解的多样性,增大了优化成功的可能性,使优化结果的稳定性更高。

附图说明

图1为本发明流程图。

具体实施方式

本实施例以国际蛋白质结构预测竞赛CASP14提供的蛋白质结构R1029为例阐述具体实施方式。

如图1所示,为本实施例涉及一种基于多目标分解优化策略的蛋白质结构优化方法,包括以下步骤:

S1:初始蛋白质结构R1029氨基酸序列长度125,通过随机扰动生成指定数量为N=66的构象群体{x

S2:计算每个粒子的三个能量值,同时生成在三维空间中66个的权重向量。将权重向量和分解策略结合然后分配到每一个粒子。然后初始化粒子的速度,个体最优和全局最优,并构造初始解集,具体包括:

S21:所用能量函数包括Rosetta能量函数、CHARMM能量函数、RWplus能量函数。

S22:权重向量λ

S23:分解策略采用了PBI方法,其中惩罚系数θ设置为20。

S24.每个粒子的个人最优位置初始化为自身,同时定义每个粒子的邻域为所有粒子中与其权重向量最相似的8个粒子,则全局最优初始化为邻域中PBI值最小的粒子。

S3:利用粒子群算法更新当前的位置和速度,其中粒子群更新具体为:更新各粒子更新步长

S4:每一轮迭代之后重新计算每个粒子的三个能量值,判断粒子间的非支配关系,筛选出非支配解并放入解集中,每个粒子根据各自的权重向量所定义的PBI值更新个体最优和全局最优,具体包括:

S41:分别计算各自粒子的三个能量函数值,即Rosetta能量函数,CHARMM能量函数,RWplus能量函数。

S42:确定当前粒子群中的非支配粒子,将这些粒子分别与解集中的解比较,当不被解集中的任何解支配,则放入解集中,当解集中的解被当前粒子支配,则将其从解集中删除。

S43:各个粒子根据自己的权重向量和当前的三个能量值计算此时的PBI值,当小于个体最优的适应度,则将个体最优更新为当前位置,否则保持个体最优的位置。

S44:对于每个粒子邻域内的粒子,计算邻域内所有粒子其三个能量和当前粒子权重向量所得的PBI值,选择PBI值最小的粒子与当前粒子的全局最优比较,当小于当前粒子的全局最优,则更新当前粒子的全局最优位置,否则保持当前粒子的全局最优位置不变。

重复S3、S4直到满足最大迭代次数,此处最大迭代次数为3000。

S5:将最终解集中的结构进行排序并作为最优结构输出,具体包括:

S51:构建边际效用函数:U

S52:对w

S53:每个粒子都得到边际效用值后将其进行排序,将边际效用值最小的构象输出作为优化后的蛋白质结构。

本方法采用的评价指标为GDT-TS(Global distance testtotal score)

经过具体实际实验,得到的实验数据如下:

其他对比方法均为领域内最前沿的方法,这些方法的数据均来自国际蛋白质结构预测竞赛CASP14官方网站。可以看到本方法将蛋白质结构在GDT-TS指标下提升了2.4个点,高于其他方法。

与现有技术相比,本方法由于采用分解策略,使得每个粒子都对应一个特定的子问题,从而在迭代优化过程中有确切的更新方向,避免了振荡现象的产生,加快了收敛的过程,使得所得到的解收敛性更强。且由于每个粒子对应一个优化方向的解,保证了解的多样性,增大了优化的可能性,使得优化的结果更加稳定。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号