首页> 中国专利> 利用三级或四级结构基序进行计算蛋白质设计

利用三级或四级结构基序进行计算蛋白质设计

摘要

本公开涉及一种构建能够折叠成预定结构或靶结构的结合伴侣的氨基酸序列或氨基酸序列文库的方法。该方法是基于以下构思:蛋白质结构空间是模块化的,由高度重复的结构构建单元组成。

著录项

  • 公开/公告号CN112639981A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 达特茅斯学院托管理事会;

    申请/专利号CN201980035897.2

  • 申请日2019-05-30

  • 分类号G16B15/30(20060101);G16C20/40(20060101);

  • 代理机构51258 成都超凡明远知识产权代理有限公司;

  • 代理人王晖;刘书芝

  • 地址 美国新罕布什尔州

  • 入库时间 2023-06-19 10:32:14

说明书

相关申请的交叉引用

本申请要求2018年5月31日提交的美国临时申请No.62/678,588的优先权,以上申请的全部内容通过援引并入本文。

联邦赞助的研究或开发

本发明是在美国国家科学基金会授予的DMR1534246和美国国立卫生研究院授予的P20 GM113132的政府支持下完成的。美国政府在本发明中享有某些权利。

技术领域

本公开涉及计算蛋白质设计,以及具体地,涉及设计可折叠成预定结构或靶结构的结合伴侣的蛋白质的方法、装置和系统。

背景技术

计算蛋白质设计(CPD)是寻找可折叠成预定结构(靶标)的氨基酸序列的任务。最初在20世纪90年代中期提出的现代CPD方法的基本思想是捕获根据物理原理的基本蛋白质现象(例如折叠和结合)的氨基酸序列决定簇。具体而言,目标是通过对潜在的原子间相互作用进行建模,以粗略估计靶结构中任何蛋白质序列的自由能。这样做的计算过程称为评分函数。有了评分函数,就可以通过寻找对给定目标具有特别有利能量的序列来执行CPD。

实践中,许多问题限制了传统CPD的准确度,最终导致鲁棒性较低。目前,在足够详细的水平上对蛋白质结构的物理模型进行建模以在设计的背景下计算准确的自由能是不可行的。因此,必须在基于物理学的评分函数中做出显著的近似,这极大限制其预测能力。替代地,可以通过基于知识的势能(也称为统计势能)对一些基本的物理现象进行经验建模。利用这些方法,测量了已知蛋白质结构中这些特征的频率并通过假设频率越高越有利来量化它们的经验有利性,而不是通过评估原子相互作用的能量来推导特定结构特征(例如,两个特定原子彼此之间有特定距离)的有利性。例如,已经利用简单的结构特征(诸如主链二面角,原子距离和堆积密度,键方向,残基埋藏状态以及残基间接触)来建立统计势能。无论是依靠基于物理学的,统计的还是混合的能量函数,CPD的基本问题仍然存在:尽管原子间相互作用的细节最终确实会形成序列-结构关系(即,哪些序列将折叠成给定的结构),但是从这些关系中删除了很多步骤。因此,在对原子现象建模时,即使是很小的误差,也可能在氨基酸序列的最终预测中形成显著的误差。现有势能的误差不小且不是随机的,这使情况变得更糟。相反,它们庞大而系统,通常与完全缺失的贡献相关,例如构型熵、未折叠状态的自由能或溶剂的存在。确实,即使基本的原子间相互作用和其他高能贡献是加和性的基本假设也仅是一种近似。例如,已知在给定的构象集合中蛋白质序列的自由能不是其原子间相互作用的加和函数,特别是在考虑溶剂作用时。

因此,本领域需要一种蛋白质设计方法,其以导致CPD成功率显著提高的方式提供一种解决评分功能问题的新方法。

发明内容

本公开提供了一种新的CPD方法,该方法基于从现有的蛋白质结构中直接观察序列-与-结构的关系,而不是通过基于基础的原子物理建模间接地推导它们。蛋白质结构代表了拟离散空间,其中只允许某些主链几何结构(即可设计的),从某种意义上说,它们可以用天然氨基酸序列来实现。已经对蛋白质数据库(PDB)中的局部主链结构基序进行了系统表征(1),这些基序捕获了二级、三级和四级结构背景。这些基序,在本文中统称为“TERM”(三级基序的缩写,尽管,如上所述,这些基序捕获二级、三级和四级结构),在自然界中的不同蛋白中被高度重复使用。例如,仅~600个TERM就足以再亚

与现有技术相比,本文提供的方法至少有三个优势。首先,本文描述的方法基于天然蛋白中观察到的已经证实的序列-结构关系准则设计位置。即,已经知道,针对设计程序考虑的每个TERM匹配的序列确实形成了相应的主链构象,这是靶结构的一部分。来自已知构建单元的这种类型的设计意味着可以期望比现有方法更高的成功率(在本文公开的验证研究中已观察到这一点)。第二,与也基于现有蛋白质结构的统计评分函数相关,本文所述的方法不假设基本结构特征(诸如距离和角度)偏好的加和性和独立性。替代地,通过直接观察基于TERM的序列-结构偏好,该方法说明了多种贡献的集体行为。最后,基于TERM的方法提供了一种识别不是静态分子,而是在室温下以构象集合存在的蛋白质的新颖方式。这是因为序列统计(以及最终的评分函数)来自TERM匹配所代表的结构集合——与在结构数据库(例如,包括天然蛋白质的结构数据库)中找到的相似主链构象相近,但并非确切的实例。因此,基于TERM的设计能够鉴别不仅与特异的冷冻主链构象兼容而且与相近的构象集合兼容的氨基酸序列,这是蛋白质结构状态更合适的表示。已经在现有的CPD方法的背景下提出了解决对主链灵活性建模的需求的方法,但这些方法除会产生大量的计算成本外,还受到背景技术部分中所讨论的评分准确性(以及最终的鲁棒性)的相同限制。

一方面,本公开提供了一种基于在整体的原子定义的结构环境背景下获得的序列统计的蛋白质设计方法。这种方式至少是有利的,因为它避免必须假定基本结构描述符的加和性,并且还认识到并利用蛋白质结构的天然简并性。确实,这种方法的优越性能至少可以部分归因于其认识到蛋白质结构全集代表准离散空间,在该空间中仅允许某些主链几何形状(即是可设计的)。因此,本公开提供了一种蛋白质设计方法,其利用了精确定义的具体结构环境的统计数据。

在另一方面,本公开提供了一种氨基酸序列的计算机设计方法。在某些实施方式中,所述方法包括以下步骤:将靶结构分解成多个结构基序;在结构数据库中,识别多个结构基序中的每一个的多个结构匹配;使用多个结构匹配中的每一个,推导出对序列-结构关系的至少一个非局部能量贡献的值;并产生至少一个候选氨基酸序列。在某些实施方式中,候选氨基酸序列具有可设计的性质。在某些实施方式中,候选氨基酸序列是可折叠成靶结构的结合伴侣的蛋白质。在某些实施例中,至少一个非局部能量贡献来自位于多个结构基序之一内的单个设计位置周围的主链的毗邻小段(例如,(i–n)至(i+n),其中i是给定位置,n是可控参数))。在某些实施方式中,至少一个非局部能量贡献来自在空间上而不是序列上邻近多个结构基序之一内的单个设计位置的主链。在某些实施方式中,至少一个非局部能量贡献来自多个结构基序之一内的耦连残基对。在某些实施方式中,所述方法进一步包括以下步骤:使用所述多个结构匹配中的每一个,获取对序列-结构关系的至少一个局部能量贡献的值。在一些这样实施方式中,至少一个局部能量贡献来自多个结构基序内的单个设计位置的主链角。在一些这样的实施方式中,主链角是

在又一方面,本公开提供了一种氨基酸序列的计算机设计方法。在某些实施方式中,所述方法包括以下步骤:将靶结构分解成多个结构基序;在结构数据库中,识别多个结构基序中的每一个的多个结构匹配;根据能量贡献的层级,使用多个结构匹配中的每一个依次推导对序列-结构关系的能量贡献的一组值,该层级包括以下至少两个:(i)至少一个多个结构基序之一内的单个设计位置的至少一个局部能量贡献;(ii)单个设计位置周围主链的毗邻小段;(iii)在空间上而不是序列上邻近单个设计位置的主链;和(iv)包括单个设计位置的耦连残基对;以及,产生至少一个候选氨基酸序列。在某些实施方式中,候选氨基酸序列是可折叠成靶结构的结合伴侣中的蛋白质。在某些实施例中,层级进一步包括更高阶的贡献。在某些实施方式中,层级进一步包括(v)包含单个设计位置的残基的三联体。在某些实施方式中,至少一个局部能量贡献来自多个结构基序之一内的单个设计位置的主链角。在某些实施方式中,至少一个局部能量贡献来自多个结构基序之一内的单个设计位置的埋藏状态。在某些实施方式中,靶结构是蛋白质的三级结构。在某些实施方式中,靶结构是蛋白质复合物的四级结构。

在又一方面,本公开提供了非暂时性计算机可读存储介质,其编码有用于可折叠成目标结构的结合伴侣的氨基酸序列的计算机设计的指令。指令可由处理器执行并且包括本文公开的方法。

在另一方面,本公开提供了一种制备折叠成靶结构的结合伴侣的蛋白质的方法。在某些实施方式中,该方法包括提供编码通过本文公开的计算机设计方法产生的候选氨基酸序列的核酸序列;将核酸序列引入宿主细胞;表达候选氨基酸序列。在某些实施方式中,该方法进一步包括确定候选氨基酸序列是否折叠成靶结构的结合伴侣。

在另一方面,本公开提供了通过本文公开的方法产生的蛋白质。

在本文所述的任何方面的某些实施方式中,蛋白质选自由酶,抗体、受体、转运蛋白、激素、生长因子、及其片段组成的组。

在本文所述的任何方面的某些实施方式中,蛋白质是靶结构的设计变体。在一些这样的实施方式中,靶结构选自由荧光蛋白、G蛋白耦连受体(GPCR)和含有PDZ结构域的蛋白组成的组。

在本文所述的任何方面的某些实施方式中,靶结构是荧光蛋白。在一些这样的实施方式中,荧光蛋白是红色荧光蛋白(RFP)。

在本文所述的任何方面的某些实施方式中,靶结构是G蛋白耦连受体(GPCR)。在一些这样的实施方式中,GPCR是肾上腺素能受体,例如β-1肾上腺素能受体。

在本文所述的任何方面的某些实施方式中,靶结构是含有PDZ结构域的蛋白。在一些这样的实施方式中,含有PDZ结构域的蛋白质是Na

在本文所述的任何方面的某些实施方式中,靶结构的结合伴侣是结合PDZ结构域的蛋白质或其他分子。在一些这样的实施方式中,靶结构的结合伴侣是溶血磷脂酸受体2(LPA2)。

在以下段落中描述了本发明的这些和其他目的。这些目的不应被视为缩小本发明的范围。

附图说明

为了更好的理解本发明,可以参考以下附图中所示的实施方案。

图1显示了本技术示例性实施方式的流程图。

图2A和2B显示了本技术示例性实施方式的流程图。

图3显示了本技术示例性实施例的流程图。

图4是示例性计算蛋白质设计方法的示意图。

图5显示了示例性靶结构mCherry的总表面重新设计。左小图以灰色球形显示允许在设计中进行更改的64个表面位置。中间和右侧小图分别显示了原始mCherry和重新设计的变体的表面,并用假色指定了真空静电势。

图6显示了mCherry蛋白的尺寸排阻色谱图。上部小图显示了含有野生型mCherry和mCherry-LOV2融合蛋白的标准品的色谱图(后者由Wang等人描述(2))。底部小图显示了重新设计的mCherry变体本身的色谱图,显示了其洗脱量与野生型几乎相同。根据标准,二聚体蛋白有望以虚线指示的体积洗脱,这消除了设计寡聚化的可能性。因此,尺寸排阻色谱法表明设计的mCherry蛋白在溶液中为单体。

图7显示了mCherry蛋白的吸收光谱。上部小图比较了野生型和重新设计的mCherry蛋白的吸收光谱(吸光度值分别显示在左右两侧Y轴上),显示了两者表现出相似的光谱形状。底部小图比较了两种蛋白质在等效蛋白质浓度下的荧光光谱。重新设计的mCherry蛋白保留了荧光团的光特性。

图8显示了mCherry和示例性设计变体的化学变性。通过在587nm处的生色团吸光度监测折叠度。由于生色团在暴露于水后会迅速水解,因此构成了灵敏的结构指标。数据符合Hill方程,图例中注明了半变性的浓度。

图9显示了β1肾上腺素能受体GPCR的晶体结构(PDB条目4BVN),红色和蓝色线指示细胞外和细胞质膜边界的大致位置(左小图)。中小图和右小图分别显示了野生型GPCR及其重新设计的对应物的真空静电表面电势(方向相同)。

图10A-10D说明了Baker及其同事在设计研究中针对的四种不同拓扑(3)。图10E-10F显示了使用本文所述的示例性设计方法计算出的每个设计(在其各自的主链上)的长度归一化得分(在X轴上)与每个序列的实验得出的稳定性得分(在Y轴上)之间的关联。散点图中的点颜色表示数据密度,红色是最密集的,蓝色是最不密集的。平均曲线用带圆圈的黑线显示,通过在分数的十个连续窗口中对稳定性分数求平均来获得。图10I-10L分别显示了与图10E-10F相同的图,但在X轴上为使用Rosetta方法计算的分数。在每种情况下,使用本文公开的示例性设计方法计算出的分数所表现出的相关性均极大超过使用Rosetta计算出的分数所具有的相关性。实际上,在Rosetta的四个案例中,有三个案例的相关性或者具有错误的符号或者是统计上不具有显著性(由“X”表示的小图)。而对于本文所公开的示例性设计方法,相关性始终有正确的符号,并且在统计上具有高度显著性(如黑色对号所示)。因此,通过本文公开的基于TERM的方法计算的统计势能指示设计质量。

图11A-11D分别对应于以下的变体:人类Pin1 WW结构域(使用PDB条目2ZQT建模),人类Yes相关蛋白65WW结构域(使用PDB条目4REX建模),绒毛蛋白头螺旋子结构域(残基42-76;使用PDB条目1VII建模),和外周亚基结合结构域家族成员BBL(使用PDB条目2WXC建模)。每个数据点对应于单个序列变体,其热力学稳定性相对于使用本文所述的示例性设计方法计算的得分绘制。热力学稳定性由图11A、11C和11D中未折叠的自由能,和图11B所示的表观熔解温度表示)。使用具有双平方加权函数的鲁棒线性回归生成最佳拟合线。每个面板的标题中都显示了Pearson相关性。使用Tukey栅栏方法识别的异常点标有红色轮廓,不包括在相关系数计算中。因此,通过本文公开的基于TERM的方法计算的得分与热力学稳定性相关。

图12显示了新颖的PDZ结合模式的设计程序。在所有面板中,N2P2以绿色显示,结合肽(来自PDB条目2HE4)以黑色显示。图12A显示了完整的TERM(蓝绿色棒),一个区段与结合肽重叠,另一个区段与结合口袋外部的N2P2表面区结构域接触(接触位置标记为红色)。图12B显示了使用文库中的其他TERM将完成的TERM与原始结合肽连接的多种方法。图12C显示了最终的主链模板并具有设计的序列。

图13显示了针对N2P2(左)和M3P6(右)的设计肽的基于FP的抑制测定的图。抑制常数显示在曲线上。

图14A显示了由Rocklin等人靶向的从头设计的结构的主链。(3)。图14B显示了使用本文公开的用于主链的示例性设计方法设计的序列结构模型(序列显示在底部)。所有40个位置均允许采用任何天然氨基酸。图14C显示了靶主链(绿色)和Baker及其同事根据实验确定的相应设计结构(蓝绿色)之间的叠加(3)。对于结构预测方法HHPred(4)生成的设计的序列,此结构(PDB代码5UP5)是最高命中的。第二个命中是PDB条目1UTA,其相关部分(蓝绿色)在图14D中显示为叠加在靶主链(绿色)上。因此,本文公开的示例性设计方法可以应用于设计从头产生的结构。

具体实施方式

具体描述仅旨在使本领域的其他技术人员熟悉本发明,其原理及其实际应用,以便本领域的其他技术人员可以按照其多种形式来适应和应用本发明,因为它们可能最适合特定用途的需求。具体描述及其具体示例仅用于说明目的。因此,本发明不限于该专利申请中描述的实施方式,并且可以进行各种修改。

在至少一方面,本公开提供了一种设计氨基酸序列的方法。所述方法包括从对靶结构的适当确定的结构基序(即,从结构上切下的主链片段,包括一个或多个不相交的主链片段),例如三级结构基序或者四级结构基序,的结构匹配推导出至少一个非局部伪能量贡献(non-local pseudo-energetic contribution)的值。在某些实施方式中,设计的氨基酸序列是一种蛋白质,该蛋白质可折叠成靶结构的结合伴侣。

在某些实施方式中,非局部伪能贡献是自有主链贡献,近主链贡献,成对贡献和/或三联体(或更高阶)贡献。

在某些实施方式中,从结构匹配的序列统计推导非局部伪能量贡献的值。在一个优选的实施方式中,结构匹配内的序列统计是由结构基序中包含的氨基酸位置驱动的(例如,当且仅当结构基序中包含相应的位置对时,氨基酸对才影响序列统计)。

在某些实施方式中,结构匹配通过查询结构数据库来获得。在一些这样的实施方式中,结构数据库是蛋白质数据库(PDB)。在其他此类实施方式中,结构数据库是专门的数据库,例如仅包含跨膜蛋白的数据库。

在某些实施方式中,靶结构被分解成多个结构基序。在一些这样的实施方式中,靶结构是蛋白质,并且结构基序包含二级和三级结构基序。在一些这样的实施方式中,靶结构是蛋白质复合物,并且结构基序包含二级,三级,和/或四级结构基序。在某些实施方式中,靶结构的给定残基i的结构基序包括自有主链(例如,残基i-2至i+2)和近主链(例如,i具有能够与之形成接触的所有残基周围的主链)。

在某些实施方式中,所述方法进一步包括从结构匹配中推导出至少一个局部伪能量贡献的值。在一些这样的实施方式中,局部伪能量的贡献是来自给定氨基酸残基i的二面角和/或埋藏状态的贡献。因此,在某些实施例中,该方法包括为每一个非局部伪能量贡献和局部伪能量贡献中推导的一组值。在一些这样的实施方式中,伪能量贡献是根据层级推论的:(1)局部伪能量贡献和(2)非局部伪能量贡献。例如,层级可以包括以下至少两个:(i)结构匹配内单个氨基酸残基(例如,给定残基,i)的至少一个局部伪能量贡献,(ii)单个氨基酸残基周围主链的毗邻小段,(例如,(i–n)到(i+n)其中i是给定位置,且n是可控参数),(iii)在空间上而不是在序列上邻近单个氨基酸残基的主链(例如,i能够与之形成接触的所有氨基酸残基周围的主链),和/或(iv)一对具有单个设计位置的耦连残基。作为另一个实例,层级可以包含来自以下的伪能量贡献:(i)在靶结构的特定设计位置的氨基酸的主链二面角,例如

在一个优选实施方式中,更高阶的伪能量贡献仅在需要时考虑(即,如果它们同等地描述观测值,模型仅涉及较低阶的伪能量贡献的模型优于涉及更高阶贡献的伪能量贡献模型)。在一些这样的实施方式中,更高阶的伪能量贡献作为较低阶贡献的矫正器。例如,只有用自有贡献不能满意描述的序列统计方面才会需要配对能量进行描述。

本文公开的多个方面中,基于结构基序(特别是三级和/或四级结构基序)的蛋白质设计使得能够选择一种氨基酸序列,该氨基酸序列不仅与靶结构的冷冻主链构象兼容,而且与紧密构象(蛋白质结构状态的合适代表)集合兼容。

A.计算蛋白质设计

图1显示了设计氨基酸序列(诸如,折叠成靶结构结合伴侣的蛋白)的方法100的流程图。如框102所示,将靶结构分解成多个二级,三级,或四级结构基序。这种分解可以被以下的图表示来指导:(i)靶结构的耦连残基和/或(ii)靶结构的残基-主链影响。例如,每一个二级,三级,或四级结构基序是在一个或多个氨基酸残基集合的周围形成的,这些氨基酸残基表示靶结构耦连残基图的连接子图。在某些实施方式中,靶结构被分解成描述靶结构所需的尽可能少的三级(或四级)结构基序。

如框104所示,一旦识别出三级(或四级)结构基序,就要查询结构数据库来识别结构匹配。所述的结构数据库可以是,例如,整个PDB或者PDB的过滤子集。例如,结构数据库可以存储在本地和/或远程存储器中。存储在结构数据库中的存储器可以任何形式存储。在某些实施方式中,采用搜索引擎,如MASTER,查询结构数据库。在某些实施方式中,搜索引擎以二级,三级(或四级)结构基序进行查询,并从结构数据库返回与查询匹配的所有片段到给定的均方根偏差(RMSD)阈值内。可以对包含结构匹配项的结果集进行排序,例如通过递增的RMSD。

在框106中,推导局部伪能量贡献。局部伪能量贡献可与靶结构给定位置的单个氨基酸的主链二面角(如

在框108中,推导非局部伪能量贡献。非局部伪能量贡献可以与单个设计位置周围的主链毗邻小段,在空间上而不在序列上邻近单个设计位置的主链,和/或包含单个设计位置的耦连残基对相关联。非局部伪能量贡献可以从适当构建的TERM的结构匹配序列统计中推导出来。

在框110中,选择最佳的氨基酸序列或者氨基酸序列集。可采用多种优化方法选择最佳的氨基酸序列或氨基酸序列集。例如,可以使用整数线性规划(ILP)方法,该方法允许将约束引入到设计问题(例如,序列对称性约束,或对带电/极性残基数量的约束,或对相对于一些起始序列突变的残基的限制等)。作为另一个实例,可以使用自洽平均场(SCMF)或置信传播(BP)技术。作为又一示例,可以使用蒙特卡罗(MC)模拟退火。

图2A显示了从结构匹配和环境的序列统计推导伪能量贡献的方法200的流程图。

在框202中,推导局部伪能量贡献。对于结构匹配内的单个设计位置和/或单个设计位置的埋藏状态,局部伪能量贡献可来自主链角,例如

在框204中,推导至少一个非局部伪能量贡献。例如,所述的至少一个非局部伪能量贡献可以来自单个设计位置周围的主链毗邻小段。

根据框204的指示,推导随后的非局部伪能量贡献。随后的非局部伪能量贡献可以是,例如,在空间上但不在序列上邻近所述单个设计位置的主链,包括单个设计位置的耦连残基对,和/或包括单个设计位置的残基三联体。

根据框208的指示选择最佳的氨基酸序列或氨基酸序列集。可采用多种优化方法选择最佳的氨基酸序列或氨基酸序列集,包括但不限于上述的ILP,SCMF,BP,或MC方法。

在某些实施方式中,如图2A所示,根据204框的指示推导了许多非局部伪能量贡献。例如,许多非局部伪能量贡献可来自(i)单个设计位置周围主链的毗邻小段,(ii)在空间上但不在序列上邻近所述单个设计位置的主链,(iii)包括单个设计位置的耦连残基对,和/或(iv)包括单个设计位置的残基三联体。在一些这样的实施方式中,按照指定顺序计算上述提到的贡献(i)-(iv)的每一个。然而,在这样的实施方式中,随后的贡献仅必须解释与已经解释和观察到的之间的差异。因此,如果没有太多要描述的内容,那么层级中的后续贡献可能会逐渐变小,甚至可能变得微不足道。例如,随后的贡献可能最终为零或基本上为零,在这种情况下,几乎就像没有计算出来一样。

图2B显示了从结构匹配和环境的序列统计推导伪能量贡献的方法200的流程图。

在框202中,推导局部伪能量贡献。对于结构匹配内的单个设计位置和/或单个设计位置的埋藏状态,局部伪能量贡献可来自主链角,例如

在框204中,推导第一个非局部伪能量贡献。例如,所述的第一个非局部伪能量贡献可以来自单个设计位置周围的主链毗邻小段。

如决策菱形框206所示,根据是否有任何未解释的位置偏好发生替代响应。如果位置偏好是未解释的,则如框204所示,推导出随后的非局部伪能量贡献。随后的非局部伪能量贡献可以是,例如,在空间上但不在序列上邻近所述单个设计位置的主链,包括单个设计位置的耦连残基对,和/或包括单个设计位置的残基三联体。如果位置偏好不是未解释的,则如框208所示,选择最佳的氨基酸序列或氨基酸序列集。可采用多种优化方法选择最佳的氨基酸序列或氨基酸序列集,包括但不限于上述的ILP,SCMF,BP,或MC方法。

图3显示了从结构匹配和匹配环境的序列统计推导伪能量贡献的方法300的流程图。

在框302中,推导局部伪能量贡献。对于结构匹配内的单个设计位置和/或单个设计位置的埋藏状态,局部伪能量贡献可来自主链角,例如

通过这种方式,将伪能量贡献在层级中推导,每种下一种类型的贡献仅用于描述先前的贡献尚未捕获的内容。

图4显示了基于三级/四级结构基序的示例性计算蛋白质设计方法的示意图。如图4所示,靶结构可分解为二级/三级/四级结构基序,这些基序由以下的图表示:(a)其耦连残基,如图G所示;(b)残基-主链影响,如图B所示。每个结构基序的结构匹配可从结构数据库中识别。结构匹配所隐含的序列比对可用于得出控制靶结构中序列-结构关系的伪能量贡献值。给定伪能量贡献值,组合优化可用于产生最佳氨基酸序列或最佳氨基酸序列文库。

在某些实施例中,相对于图1-4描述的活动的至少一部分可以经由一个或多个专用集成电路(ASICs)、现场可编程门阵列(FPGAs)、离散逻辑和/或使用可由一个或多个服务器或计算机(如具有处理器和存储器的计算设备)执行的软件来实现。处理器可以是任何定制或市售处理器,例如Intel公司生产的Core系列、vPro、Xeon或Itanium处理器,或者Advanced Micro Devices公司生产的Phenom、Athlon、Sempron或Opteron系列处理器。处理器还可以代表多个并行或分布式处理器协同工作。

存储器中的软件可以包括一个或多个单独的程序或应用程序。这些程序可以具有用于实现逻辑功能的可执行指令的有序列表。该软件可以包括服务器或计算机的合适操作系统,例如来自Apple公司的macOS,OS X,Mac OS X,和iOS;来自Microsoft公司的Windows、Windows Phone和Windows 10Mobile;一种Unix操作系统;一种Unix-衍生产品(如,BSD或Linux);Google的Android。该操作系统本质上控制其他计算机程序的执行,并提供计划、输入输出控制、文件和数据管理、内存管理、通信控制以及相关服务。

通常,根据实施例的计算机程序产品或计算机可读存储介质包括其中包含计算机可读程序代码的计算机可用存储介质(例如,标准随机存取存储器(RAM)、光盘、通用串行总线(USB)驱动器等),其中计算机可读程序代码适于由处理器执行(例如,结合操作系统工作)以实现下面描述的方法。在这点上,程序代码可以任何期望的语言实现,并且可以被实现为机器代码、汇编代码、字节代码、可解释源代码等(例如,经由C,C++,Java,Actionscript、Objective-C,Javascript,CSS,XML,和/或其他)。

存储器可以包括易失性存储器元件(例如,随机存取存储器(RAM,如DRAM,SRAM,SDRAM等))和非易失性存储元件(例如,ROM、硬盘驱动器、闪存驱动器、CDROM等)中的任何一个或其组合。它可以包含电子、磁性、光学和/或其他类型的存储介质。存储器可以具有分布式体系结构,其中各种组件彼此远离,但仍由处理器访问。这些其他组件可能驻留在网络或云环境中其他位置的设备上。

例如,服务器或计算机可以包括通过网络发送和接收数据的收发器。收发器可适于通过无线和/或有线(例如,以太网)连接接收和发送数据。收发器可根据IEEE 802.11标准或其他标准工作。更具体地,收发器可以是WWAN收发器,其被配置为与包括一个或多个蜂窝站点或基站的广域网通信,以将服务器或计算机通信地连接到附加设备或组件。此外,收发器可以是WLAN和/或WPAN收发器,其被配置为将服务器或计算机连接到局域网和/或个人区域网络,诸如蓝牙网络。

A1.靶结构分解和识别结构匹配

在至少一个方面,本公开提供了用于计算蛋白质设计的方法,所述方法包括将靶结构分解成多个结构基序。在某些实施方式中,靶结构是蛋白质的三级结构。在某些实施方式中,靶结构是蛋白质复合物的四级结构。

在某些实施方式中,多个结构基序覆盖了靶结构中的每个残基和每个耦连残基对。例如,每个残基和每个耦连残基对可被多个结构基序的至少一个结构基序覆盖。

在某些实施方式中,靶结构分解为多个结构基序的步骤包括识别靶结构中的耦连残基。这种耦连残基可以在靶结构中通过寻找能够容纳通过直接或间接物理相互作用相互影响的氨基酸的位置对或通过实验证据来识别。在一些实施方式中,接触度被用来识别给定结构内耦连残基。

例如,确定给定的一对位置i和j是否能够形成接触的一种方法是,首先在不与主链冲突的两个位置上找到所有可能的旋转异构体(所有氨基酸的),然后计算i和j处具有紧密接近的非氢原子的旋转异构体组合的加权分数—即接触度。

计算接触度的示例等式:

其中R

在某些实施方式中,出于设计计算的目的,使用接触度截止值来识别哪些位置对将被认为是耦连的。例如,接触度截止值可以在约0.01至约0.2之间,或者在约0.01至0.1之间,或者在约0.01至0.05之间。在一些这样的实施方式中,所述的接触度截止值是约0.01。在一些这样的实施方式中,所述的接触度截止值是约0.05。

在某些实施方式中,靶结构分解为多个结构基序的步骤由(i)靶结构的耦连残基和/或(ii)靶结构的残基-主链影响的图示指导。图4显示了示例图G和B。在图G中,节点表示残基,边缘表示耦连,边缘权重可选地表示耦连强度。在图B中,节点表示残基,有向边a→b表示b主链能够影响a处氨基酸的选择。

在某些实施方式中,从(i)靶结构的耦连残基和/或(ii)靶结构的残基-主链影响的图示得到的子图可识别结构基序。在一些这样的实施方式中,在表示耦连残基图示的连接子图的一组一个或多个残基周围形成多个结构基序中的每个结构基序。

在某些实施方式中,在给定的残基i周围限定2级结构基序,以包括残基(i–n)至(i+n),其中n是可控参数,我们将其称为i的单例基序。例如,n可在1和10之间,如1,2,3,4,5,6,7,8,9,或10。在一些这样的实施方式中,n是1。在另一些这样的实施方式中,n是2。

在某些实施方式中,在给定残基i周围或更优选地在残基i的局部主链周围(例如,(i–n)至(i+n),其中i为给定位置,n是可控参数)限定三级或四级结构基序。例如,识别结构基序的过程可包括单独的残基i(例如,一个节点子图),以及考虑残基i的有向边缘指向的一些或全部节点(请参阅图B,这样的集可以称为β(i))。

在某些实施方式中,在靶结构的耦连残基图示(例如,图G)中为每个边缘限定结构基序。在一些这样的实施方式中,结构基序包括残基对中的每个残基以及相关的单例基序。

在至少一个方面,本公开提供了一种用于计算蛋白质设计的方法,所述方法包括在结构数据库中识别多个结构基序中每一个的多个结构匹配。

在某些实施方式中,结构数据库是蛋白质数据库(PDB)。在其他此类实施方式中,结构数据库是专门的数据库,其仅包含例如某些蛋白质(如跨膜蛋白)。

在一些这样的实施方式中,品质过滤器被应用于结构数据库。例如,品质过滤器可保证只有高质量的结构数据可用于搜索。一个示例性的品质过滤器仅使得被X射线晶体学求解为指定分辨率,诸如

在某些实施方式中,多个结构匹配通过查询结构数据库来获得。查询结构数据库的示例性搜索引擎,MASTER,描述在Zhou J&Grigoryan G(2014)Rapid search fortertiary fragments reveals protein sequence-structure relationships.ProteinScience 24(4):508-524。在某些实施方式中,该查询涵盖对其到具有低均方根偏差(RMSD)的结构基序的主链上的来自数据库的主链子结构。在一些这样的实施方式中,计算RMSD时排除了氢原子。在一些这样的实施方式中,查询结果以RMSD升序排列。

在某些实施方式中,所述多个结构匹配包括RMSD低于某一阈值的结构匹配。一个示例性的大小和复杂性相关的RMSD截止函数为:

其中,d是基序的有效自由度数,n

在某些实施方式中,多个结构匹配包括N匹配,其中可基于后续伪能量计算所需的期望样本大小来选择N。例如,N可以是最少100,最少200,最少300,最少400,最少500,最少1000,最少1500,或最少2000。在一些这样的实施方式中,N是200。在一些这样的实施方式中,N是1000。

在某些实施方式中,对结构匹配进行冗余筛选。在某些实施方式中,对结构匹配进行序列冗余筛选。在某些实施方式中,对结构匹配进行结构冗余筛选。

例如,筛选序列冗余可包括考虑匹配m中每个不相邻片段周围的局部序列窗口,并通过经由needman-Wunsch算法和BLOSUM62矩阵对其进行比对,将这些局部序列窗口与来自每个先前获得的匹配的对应局部序列片段进行比较。局部序列窗口可以限定为在m起源的结构中具有15个前导和15个后续残基的目的片段。在一些这样的实施方式中,如果任何局部序列窗比对具有小于约10

作为另一个例子,筛选结构冗余可以包括识别耦连到对齐至对应查询的任何残基的匹配m起源的结构中的所有残基,并且将匹配m与先前获得的匹配,μ,中的每一个进行比较,这是通过计算当m和μ最优地对齐至查询基序时,有多少个与其相邻残基μ(被定义为具有低于指定阈值的主链RMSD)在取向上很好地对齐的相邻残基进行的。在此上下文中,用于计算匹配m与先前获得的匹配μ之间的结构环境相似性的示例性函数是:

在一些这样的实施方式中,如果S

A2.伪能量贡献计算

在至少一个方面,本公开提供了一种方法,用于针对与三级或四级结构基序的多个结构匹配中的每一个,推导对序列-结构关系的至少一个非局部能量贡献的值。

在某些实施方式中,至少一个非局部能量贡献来自多个结构基序中的之一内的单个设计位置周围主链的毗邻小段(即,自有主链贡献)。在某些实施方式中,至少一个非局部能量贡献来自空间上而不是序列上邻近多个结构基序之一内的单个设计位置的主链(即,近主链贡献)。在某些实施方式中,至少一个非局部能量贡献来自多个结构基序之一内的耦连残基对(即,对贡献)。在某些实施方式中,在执行设计计算的同时,通过分析结构基序和它们的结构匹配,即时计算至少一个非局部能量贡献的值。

在某些实施方式中,所述方法进一步包括:使用多个结构匹配中的每一个,获取对序列-结构关系的至少一个局部能量贡献的值。在某些实施方式中,至少一个局部能量贡献来自多个结构基序之一内的单个设计位置的主链角。在一些这样的实施方式中,所述主链角是

在某些实施方式中,所述方法包括根据能量贡献的层级使用多个结构匹配中的每一个顺序地推导用于对序列-结构关系的能量贡献的一组值,该层级包括以下至少两个:

i.多个结构基序之一内的单个设计位置的至少一个局部能量贡献;

ii.单个设计位置周围主链的毗邻小段;

iii.在空间上而不是序列上邻近单个设计位置的主链;

iv.包括单个设计位置的耦连残基对;和

v.包括单个设计位置的残基三联体。

A2A.主链角

在某些实施例中,所述方法包括推导至少一个局部能量贡献的值。在一些这样的实施方式中,局部伪能量贡献描述了不同氨基酸对主链

在某些实施方式中,通过将

其中,

在某些实施方式中,所述方法包括推导至少一个局部能量贡献的值。在一些这样的实施方式中,局部伪能量贡献描述了对主链ω(omega)二面角的氨基酸的偏好。在一些这样的实施方式中,描述对于不同主链ω二面角的氨基酸的偏好的伪能量贡献在能量贡献层级中位于第二(例如,仅在考虑局部伪能量贡献之后考虑,其描述不同氨基酸对于主链

在某些实施方式中,通过将ω相-空间划分为仓,并将结构数据库中的每个残基分配给相应的基于ω角值的仓,可以推导出ω二面角的伪能量贡献。因为ω角是在具有部分双键特点的肽键周围限定的,所以ω角通常是平面的,最常见的值接近180°(反式肽键),但通常(但非唯一)在Pro或Gly氨基酸中也存在(顺式肽键)约0°的值。因此,在一些这样的实施方式中,所述方法包括ω角的非均匀分仓,其中仓宽度为至少1°,但为如在每个仓中具有足够数目的结构数据库残基所需要的那样大。

用于计算与ω-角仓B

其中N(a,B

N

其中,外部总和遍及落入ω仓B

A2B.埋藏状态

在某些实施方式中,所述方法包括推导至少一个局部能量贡献的值。在一些这样的实施方式中,局部伪能量贡献来自残基的通常环境(即,埋藏状态)。在一些这样的实施方式中,来自残基的埋藏状态的伪能量贡献是能量贡献层级中的后续贡献(例如,仅在考虑描述不同氨基酸对于主链

在某些实施方式中,通过为结构数据库中的所有残基计算环境描述符e,并根据e对残基进行分仓来推导来自埋藏状态的伪能量贡献。为了捕获作为单例(自)贡献的来自残基的埋藏状态的贡献,环境描述符可以是与序列无关的环境描述符。

用于计算环境仓B

其中N(a,B

N

其中,外部总和遍及分配给环境仓B

可用到许多序列无关的环境描述符e。在一个实施方式中,与序列无关的环境描述符可以是“残基自由度”,其考虑在给定位置及其周围的所有天然氨基酸的所有可能的旋转异构体,以确定在多大程度上残基周围的体积将倾向于未被占据并且可用于其旋转异构体。给定残基i的自由度示例性函数,F(i)是:

其中

其中R

A2C.自有主链

在某些实施例中,所述方法包括推导至少一个非局部伪能量贡献的值。在一些这样的实施方式中,非局部伪能量贡献来自给定位置单个设计位置周围主链的毗邻小段(即,自有主链贡献)。在一些这样的实施方式中,自由主链贡献是能量贡献层级中的后续贡献(例如,仅在考虑一个或多个局部伪能量贡献之后才考虑)。

在某些实施方式中,除了已经由

在某些实施方式中,通过从靶结构中切除包含位置p及其周围的毗邻主链片段T

计算氨基酸a在p位置中自有主链贡献值的示例函数:

其中N(a,M

N

其中外部总和遍及M

A2D.近主链

在某些实施方式中,所述方法包括推导至少一个非局部伪能量贡献的值。在一些这样的实施方式中,非局部伪能量贡献来自在空间而不是在序列邻近给定位置单个设计位置的主链(即近主链贡献)。在一些这样的实施方式中,近主链贡献是能量贡献层级中的后续贡献(例如,仅在考虑一种或多种局部伪能量贡献以及自有主链贡献之后才考虑)。

在某些实施方式中,近主链贡献捕获由在紧密空间上但非序列上邻近位置p的主链片段的存在引起的在位置p的氨基酸偏好的任何进一步调节。

在某些实施方式中,通过从靶结构中切除结构基序来推导近主链贡献,所述结构基序包括位置p、其周围的毗邻主链片段和在空间上(但不是序列上)紧密接近p,的主链片段T’

计算在T’

其中N(a,M’

N

其中,外部总和遍及M’

A2E.对

在某些实施例中,所述方法包括推导至少一个非局部伪能量贡献的值。在一些这样的实施例中,非局部伪能量贡献来自靶结构中的耦连残基对(p,q)(即,伪能量贡献对)。在一些这样的实施例中,所述的耦连残基对贡献是能量贡献的层级中的后续贡献(例如,仅在考虑一个或多个局部伪能量贡献,自有主链贡献和/或近主链贡献之后才考虑)。

在某些实施方式中,通过从靶结构中切除包含位置p和q的结构基序T″

计算分别在T″

其中N(a,b,M″

N

为简洁起见,其中E

Δ

A2F.三联体

在某些实施例中,所述方法包括推导至少一个非局部伪能量贡献的值。在一些这样的实施方式中,非局部伪能量贡献来自靶结构中残基三联体(p,q,r)(即,三联体伪能量贡献)。在一些这样的实施例中,三联体贡献是能量贡献的层级中的后续贡献(例如,仅在考虑一个或多个局部伪能量贡献,自有主链贡献,近主链贡献和/或对贡献之后才考虑)。

在某些实施方式中,通过从靶结构中切除包含位置p,q和r的结构基序T″′

计算分别在T″′

其中N(a,b,c,M″′

N

为简洁起见,其中,E

以及Δ

A3.蛋白质优化

在至少一个方面,本公开提供了一种用于确定能够折叠成靶结构的结合伴侣的氨基酸序列或氨基酸序列文库的方法。氨基酸序列文库可以包含一组氨基酸序列,其具有例如至多约50%,替代地至多约60%,替代地至多约70%,替代地至多约80%,或者替代地至多约90%的彼此之间的序列同一性。在某些实施方式中,所述氨基酸序列组包含核心通用序列的变体。

在某些实施方式中,使用优化方法来确定能够折叠成靶结构的结合伴侣的氨基酸序列或氨基酸序列文库。例如,一旦计算出所有伪能量贡献值并将其组织成自身、成对以及可能更高阶的伪能量贡献的表,就可以使用一系列优化方法来推导最佳氨基酸顺序。在某些实施方式中,使用整数线性规划(ILP)方法。所述的ILP方法允许将约束引入设计问题中(例如,序列对称性约束,或对带电/极性或疏水残基的数目的约束,或对相对于某些起始序列突变的残基的限制)。在某些实施方式中,使用替代的优化方法,例如,自洽平均场(SCMF)或蒙特卡洛(MC)模拟退火。在某些实施方式中,不需要识别绝对全局最优序列;而是,任何接近最佳的序列就足够了。

B.蛋白质表达

在某些方面,本文描述的方法的产物是氨基酸序列或氨基酸序列的文库或集合,推荐用于使用体外和/或体内实验步骤进行表达和进一步优化。

在另一方面,本公开提供了编码本文提供的经计算设计的蛋白质的核酸序列。所述核酸序列可以进一步包含用于促进编码的蛋白质的表达和/或纯化的附加序列,包括但不限于polyA序列,修饰的Kozak序列,以及编码表位标签,输出信号和分泌信号,核定位信号,和质膜定位信号的序列。

在某些实施方式中,核酸序列包含在载体(例如,质粒、粘粒、病毒、噬菌体或基因工程中常规使用的其他载体)中。在一些这样的实施方式中,载体包含表达控制元件,所述控制元件允许编码区在合适的宿主细胞中正确表达。可操作地连接至编码经计算设计的蛋白质的核酸序列的“控制元件”是能够实现经计算设计的蛋白质的表达的其他核酸序列。例如,控制元件可包括多种组成型启动子中的任一种,包括但不限于CMV,SV40,RSV或肌动蛋白,或诱导型启动子,包括但不限于由四环素或类固醇驱动的启动子。控制元件不必与编码蛋白质的核酸序列邻接,只要它们具有指导其表达的功能即可。因此,例如,在启动子序列和核酸序列之间可以存在中间未翻译但仍被转录的序列,并且仍然可以认为该启动子序列与编码序列“可操作地连接”。其他此类控制序列包括但不限于起始信号,聚腺苷酸化信号,终止信号和核糖体结合位点。在某些实施方式中,载体包含其他基因,例如标记基因,其允许在合适的宿主细胞中和合适的条件下选择载体。本领域公知,构建核酸分子的方法,构建包含核酸分子载体的方法,将载体引入适当选择的宿主细胞中的方法,或用于引起或实现核酸分子的表达方法。

另一方面,本公开提供了本文公开的包括核酸或载体宿主细胞。所述的宿主细胞可以是原核的或真核的。所述的宿主细胞可以是被瞬时或稳定转染的。所述的转染表达的载体至原核和真核细胞可以通过本领域已知的任何技术完成,包括但不限于标准细菌转化、磷酸钙共沉淀、电穿孔或脂质体介导、DEAE葡聚糖介导、聚阳离子介导或病毒介导的转染。

在另一方面,本公开提供了一种用于产生经计算设计的蛋白质的方法。所述方法包括以下步骤:(a)在有利于蛋白质表达的条件下培养包含编码蛋白质的核酸序列的宿主细胞,和(b)任选地回收表达的蛋白质。因此,在某些实施方式中,所述的用于产生经计算设计的蛋白质的方法包括:设计和选择至少一个氨基酸序列;在表达系统中表达氨基酸序列,从而产生经计算设计的蛋白质。在某些实施方式中,氨基酸序列是能够折叠成靶结构的结合伴侣的蛋白质。

在一些这样的实施方式中,所述方法包括计算机生成至少一个候选氨基酸序列;将编码候选氨基酸序列的核酸序列引入宿主细胞;并表达候选氨基酸序列。在一些这样的实施方式中,所述方法进一步包括确定候选氨基酸序列是否折叠成靶结构的结合伴侣。可以通过评估蛋白质结合的已知方法来进行所述确定,包括生物化学和/或生物物理方法。

在某些实施方式中,经计算机设计的蛋白质是酶,抗体,受体,配体,转运蛋白,激素,生长因子,及其片段。在一些这样的实施方式中,抗体是人抗体。在一些这样的实施方式中,经计算设计的蛋白质是单链抗体,例如单链Fv。在一些这样的实施方式中,经计算设计的蛋白质是抗原结合抗体片段,例如Fab或Fab′片段。

C.定义

如本文所用,“接触度”指的是给定的一对位置(i和j)必须建立接触的机会。接触度可用于识别“耦连残基”。

如本文所用,“耦连残基”是指一对氨基酸残基(例如靶结构中的氨基酸氨基)中,一个残基的氨基酸身份取决于该对中另一个残基的氨基酸身份。

在本公开中,使用反意连接词旨在包括连接词。使用定冠词或不定冠词并非用于指示基数。具体地,对“所述(the)”对象或“一(a)”和“一(an)”对象的引用也旨在表示该对象可能的复数。进一步地,连接词“或”可用于表达同时存在而不是相互排斥的特征。也就是说,连接词“或”应当理解为包括“和/或”。术语“包括(includes)”、“包括(including)”和“包括(include)”是包容性的,并且分别具有与“包括(comprises)”、“包括(comprising)”和“包括(comprise)”相同的范围。

以上所述的实施方式,特别是任何“优选”实施方式,都是可能的实现示例,并且仅是为了清楚地理解本发明的原理而阐述的。可以在实质上不脱离本文描述的技术的精神和原理的情况下,对上述实施方式进行许多变化和修改。本公开旨在包含所有的修改,并由所附权利要求所保护。

D.实施例

以下实施例仅是说明性的,并不以任何方式限制本公开。

实施例1:表面重新设计(表面重塑)

蛋白质表面(即暴露于溶剂中的一组残基)对于测定多种生物物理性质非常重要,包括溶解性、免疫原性、自缔合、聚集倾向以及稳定性和折叠特异性。因此,有时只需重新设计给定蛋白质的表面,以调节一种或多种这些性质,同时保留其整体结构和功能,这是有用的。本示例描述了红色荧光蛋白(RFP)的表面重新设计(表面重塑)任务。RFP是自发荧光蛋白,发射光谱集中在可见光的红色部分(~600nm)附近。与其他荧光蛋白(FP)一样,RPF作为生物成像标签及在光学实验中具有很高的实用性[1]。因此,根据RFP发挥作用的环境(或细胞类型)(通常为高浓度)来调节RFP的表面残基可能是有用的。

RFP mCherry(PDB代码2H5Q[2])的晶体结构用作设计模板。手动选择结构中位于表面上的总共64个位置(大致对应于自由度值大于0.42的位置);这些在图5中显示为球体(左侧小图)。随后,使用本文所述的基于TERM的示例性方法来计算对应于在二十个天然氨基酸中变化的所有表面位置的统计能量表,其中剩余位置固定到它们在PDB条目2H5Q中的身份。因此,所得的能量表描述了20

表1.基于TERM的设计的序列与原始野生型mCherry序列存在显著差异。

在设计中标记为可变的位置加下划线,在设计位置中发生突变的位置加粗体标记。

为了验证设计,将序列克隆到大肠杆菌中,然后使用标准分子生物学和生物物理技术进行表达和纯化。

快速蛋白质液相色谱(FPLC)显示蛋白质在溶液中为单体(浓度至少为10μM),与天然mCherry相同(见图6)。

尽管含有48个突变,尽管光学性质的保存不是设计约束(仅结构的保存是),该设计仍表现出原始蛋白的粉红色特点(见图7,顶部)。进一步地,设计的蛋白质仍然是荧光性的,其发射光谱表现出与mCherry几乎相同的形状(见图7,底部)。最后,盐酸胍(GuHCl)的化学变性显示,该蛋白的结构近似于与原始的mCherry(一种自身具有高度稳定性的高度工程化蛋白)一样好地保护了其发色团(图8)。因此,无论如何,设计的蛋白(与原始mCherry蛋白在48个位置上有所不同)保留了起始结构甚至功能。可以很容易地利用产生这种多样性的能力来快速工程化RFP或具有一系列所需特性的其他蛋白质的变体。

实施例2:针对溶解的膜蛋白表面修复

值得注意的是,表面重塑方法可用于重新设计膜蛋白在水溶液中的溶解度(5)。水溶性蛋白比跨膜(TM)蛋白更容易表达、纯化和操作,使其更容易成为治疗靶向的对象。因此,生产水溶性膜蛋白类似物的能力可以极大简化针对关键生物医学相关靶标(诸如G蛋白耦连受体(GPCRs))的药物和抗体的鉴定过程。

为此,用于此目的的基于TERM的设计的用途包括识别TM蛋白结构表面上面向脂质的位置,在水中溶解后该位置会暴露于溶剂中,并通过上述实施例1中采用的标准程序重新设计它们。

在已知水溶性蛋白质结构的相似结构环境中,观察和“学习”序列统计的结果是产生了相互作用表面位置之间氨基酸组合的特定选择,这可以是本文公开的设计步骤的一部分。

图9显示了将该过程应用于GPCRβ-1肾上腺素能受体的晶体结构的结果(PDB代码4BVN,见左侧小图)。比较图9的中小图和右小图,很明显,设计过程将蛋白质的表面从最疏水的蛋白质表面(非常适合与脂质双层相互作用)转变为适合与水相互作用的亲水表面。因此,本文所述的方法可用于使蛋白质诸如GPCR表面重塑以用于水溶性。

实施例3:通过基于TERM的方法计算的统计能量分数表明设计品质

对于本实施例,已发表的数千个从头设计的蛋白质序列的数据被用来确定更好的统计能量分数是否倾向于指示更高的设计成功和与更好的设计蛋白质的品质相关。具体地,使用了贝克及其同事公布的数据,在高通量测试中,总共对四种不同拓扑结构(见图10A-10D)的约15,000个从头设计位置进行了形成折叠、稳定、抗蛋白酶结构的能力测试(3)。虽然这些设计中的每一个都代表了Rosetta设计软件套件(6)预测的与所需靶主链良好兼容的序列,但大多数设计都无法折叠。

该示例试图测试本文公开的设计方法是否能够更好地区分成功和失败的设计。为此,对Baker和同事所沉积的~15,000个主链结构中的每一个都使用了一种示例性的设计方法(每个设计都有一个)(3),从而能够评估任何目标模型的任何天然氨基酸序列。使用本文公开的示例性设计方法针对其各自主链上的每个设计位置计算能量得分,并除以序列长度,以促进跨不同拓扑的比较。图10E-10H显示了对于四种拓扑中的每一种的结果得分与实验“稳定性得分”(Baker及其同事开发的估计高通量下的设计稳定性的基于蛋白酶抗性的指标,已经显示其与热力学稳定性密切相关)之间的相关性。显然,基于TERM的得分与实验得分之间存在密切的相关性(在所有情况下,p值都非常显著;见图10E-10H中的图例)。与之形成对比,当考虑为每个序列计算的Rosetta分数(也由Baker及其同事发表)时,在所有情况下,相关性都明显较弱(见图10I-10L)。实际上,对于四种拓扑中的三种,相关系数在统计上不显著(图10K中的p值为0.1)或符号错误(正相关而不是预期的负相关,图10J和10L)。

Rosetta Design代表了计算蛋白设计的最新技术(7)。因此,该结果表明,基于TERM的评分以现有设计方法无法捕获的方式来合成结构-序列关系。此外,此处分析的~15,000个设计位置是针对Rosetta Design(而非基于TERM的评分)进行的优化。实际上,基于TERM的最佳得分序列始终与基于Rosetta的设计不同,平均相差84%(即,基于Rosetta和TERM的选择序列平均只有~16%的位置相同)。本文公开的基于TERM的方法对与其自身预测的序列图的最佳区域不同的序列进行同等定量评分的能力进一步验证了该方法的普遍性及其量化的序列-结构关系的普遍适用性。

图11进一步显示,对四个天然结构域的120个序列变体,使用本文公开的示例性方法计算的得分与热力学稳定性紧密相关。这些与Rocklin等人用来建立其高通量实验稳定性评分的定量性质的变体相同(3)。基于TERM的得分与热力学实验之间的密切相关性进一步验证了基于TERM的方法,并表明基于TERM的得分的优化是一种鲁棒的通用蛋白质设计策略。

实施例4:一种新结合模式的设计

蛋白质-蛋白质相互作用有效地提供了活细胞的内部逻辑联系,定义了细胞如何感测和响应其内部和周围的事件。许多细胞蛋白质-蛋白质相互作用是由专门的蛋白质相互作用结构域编码的。其中,PDZ结构域-特异性结合伴侣蛋白C末端尾的模块可特异性识别最后6-10个氨基酸(8,9)。人类基因组中有超过250个PDZ结构域,它们广泛参与细胞信号转导和定位(8)。因此,识别和抑制特定PDZ结构域的分子表现出巨大的生物医学需求。然而,由于PDZ结构域的结合口袋在结构上是保守的,许多结构域表现出重叠的结合特异性,所以如果靶向结合口袋以外的保守性较低的区域,则可以达到更好的抑制选择性。

该实施例利用了两个人PDZ结构域:蛋白NHERF-2的第二PDZ结构域(N2P2)和蛋白MAGI-3的第六PDZ结构域(M3P6)。这两个结构域均识别溶血磷脂酸受体2(LPA2)的C末端,并且均参与结肠癌相关的信号转导(10-13)。但是,尽管N2P2与LPA2的结合增强了致瘤活性,但M3P6的结合却抑制了它们的致癌性(12)。因此,N2P2对M3P6的选择性抑制与复发结肠癌的潜在治疗途径有关(14)。

因为两个结构域天然识别相同的序列(LPA2的C端),所以采用基于TERM的策略来扩展已知的N2P2结合肽(取自PDB条目2HE4中N2P2的复杂结构)在保守的结合口袋之外与N2P2接触。该策略确定了适用于完成N2P2现有结构的多片段TERM,即,具有部分子集的TERM很好地对准到N2P2的表面区域(界面锚),其余片段形成了推定的界面(界面种子),并且TERM序列统计与N2P2锚定区序列兼容;见图12。然后手动选择锚/种子组合(基于映射到相对于M3P6不保守的残基的N2P2锚区域),并通过中间良好重叠的TERM与现有的结合肽连接(见图12)。最后,使用本文公开的示例性设计方法,对图12所示的所得主链结构进行设计,并选择用于实验表征的最佳序列。

如我们先前的工作(15)中所述,纯化的设计肽是可商购的,并且通过荧光偏振(FP)抑制测定法研究了其对N2P2和M3P6的亲和力。图13显示,尽管对N2P2的亲和力约为1μM,但与M3P6之间没有可检测的相互作用。相比之下,LPA2(N2P2和M3P6的天然伴侣)的C末端6-mer肽与N2P2的结合力弱约30倍,而对N2P2和M3P6的亲和力大致相等(15)。因此,设计的新型结合模式显示出改善的亲和力和显著改善的选择性。

例5:结构的从头设计

本文公开的框架可以应用于任意结构,无论它们来自现有的蛋白质折叠还是从头构建。作为实例,图14A显示计算生成的主链,Rocklin及其同事最近为其成功设计了序列(3)。这种结构,或任何其他新主链,能够通过使用上述方法进行设计。对于这种特定主链,如果在任何位置(约为10

参考文献

1.Mackenzie CO,Zhou J,&Grigoryan G(2016)Tertiary alphabet for theobservable protein structural universe.Proc Natl Acad Sci U S A 113(47):E7438-E7447.

2.Wang H,et al.(2016)LOVTRAP:an optogenetic system for photoinducedprotein dissociation.Nat Methods 13(9):755-758.

3.Rocklin GJ,et al.(2017)Global analysis of protein folding usingmassively parallel design,synthesis,and testing.Science 357(6347):168-175.

4.Meier A&

5.Perez-Aguilar JM,et al.(2013)A computationally designed water-soluble variant of a G-protein-coupled receptor:the human mu opioidreceptor.PLoS One 8(6):e66009.

6.Leaver-Fay A,et al.(2011)ROSETTA3:an object-oriented software suitefor the simulation and design of macromolecules.MethodsEnzymol 487:545-574.

7.Alford RF,et al.(2017)The Rosetta All-Atom Energy Function forMacromolecular Modeling and Design.J Chem Theory Comput 13(6):3031-3048.

8.Ivarsson Y(2012)Plasticity of PDZ domains in ligand recognition andsignaling.FEBS Lett 586(17):2638-2647.

9.Lee HJ&Zheng JJ(2010)PDZ domains and their binding partners:structure,specificity,and modification.CellCommun Signal 8:8.

10.Oh YS,et al.(2004)NHERF2 specifically interacts with LPA2 receptorand defines the specificity and efficiency of receptor-mediated phospholipaseC-beta3 activation.Mol Cell Biol 24(11):5069-5079.

11.Yun CC,et al.(2005)LPA2 receptor mediates mitogenic signals inhuman colon cancer cells.Am J Physiol Cell Physiol 289(1):C2-11.

12.Lee SJ,et al.(2011)MAGI-3 competes with NHERF-2 to negativelyregulate LPA2 receptor signaling in colon cancer cells.Gastroenterology 140(3):924-934.

13.Willier S,Butt E,&Grunewald TG(2013)Lysophosphatidic acid(LPA)signalling in cell migration and cancer invasion:a focussed review andanalysis of LPA receptor gene expression on the basis of more than 1700cancer microarrays.Biol Cell 105(8):317-333.

14.Yoshida M,et al.(2016)Deletion of Na+/H+exchanger regulatoryfactor 2 represses colon cancer progress by suppression of Stat3 and CD24.AmJ PhysiolGastrointest Liver Physiol 310(8):G586-598.

15.Zheng F,et al.(2015)Computational design of selective peptides todiscriminate between similar PDZ domains in an oncogenic pathway.J Mol Biol427(2):491-510.

16.Zimmermann L,et al.(2017)A Completely Reimplemented MPIBioinformatics Toolkit with a New HHpred Server at its Core.J Mol Biol.

应当理解,前面的详细描述和所附的实例仅仅是说明性的,而不是对本发明范围的限制,本发明的范围仅由所附权利要求及其等同物来限定。对所公开的实施例的各种改变和修改对于本领域技术人员来说是显而易见的。在不脱离本发明的精神和范围的情况下,可以进行如下这些改变和修改,包括但不限于与化学结构、取代基、衍生物、中间体、合成、制剂,或方法,或这些改变和修改的任何组合。

上述引用的所有参考文献(专利及非专利)都通过引用并入本专利申请。对这些参考文献的讨论仅仅是为了总结其作者的主张。不承认任何参考文献(或任何参考文献的一部分)是相关的现有技术(或根本不是现有技术)。申请人保留质疑引用的参考文献的准确性和相关性的权利。

序列表

<110> 达特茅斯学院托管理事会 (Trustees of Dartmouth College)

<120> 利用三级或四级结构基序进行计算蛋白质设计

<130> PPI20033610US

<150> 62678588

<151> 2018-05-31

<160> 3

<170> PatentIn version 3.5

<210> 1

<211> 236

<212> PRT

<213> 人工序列

<220>

<223> 源自香菇珊瑚(Discosoma sp.)的红色荧光蛋白

<400> 1

Met Val Ser Lys Gly Glu Glu Asp Asn Met Ala Ile Ile Lys Glu Phe

1 5 10 15

Met Arg Phe Lys Val His Met Glu Gly Ser Val Asn Gly His Glu Phe

20 25 30

Glu Ile Glu Gly Glu Gly Glu Gly Arg Pro Tyr Glu Gly Thr Gln Thr

35 40 45

Ala Lys Leu Lys Val Thr Lys Gly Gly Pro Leu Pro Phe Ala Trp Asp

50 55 60

Ile Leu Ser Pro Gln Phe Met Tyr Gly Ser Lys Ala Tyr Val Lys His

65 70 75 80

Pro Ala Asp Ile Pro Asp Tyr Leu Lys Leu Ser Phe Pro Glu Gly Phe

85 90 95

Lys Trp Glu Arg Val Met Asn Phe Glu Asp Gly Gly Val Val Thr Val

100 105 110

Thr Gln Asp Ser Ser Leu Gln Asp Gly Glu Phe Ile Tyr Lys Val Lys

115 120 125

Leu Arg Gly Thr Asn Phe Pro Ser Asp Gly Pro Val Met Gln Lys Lys

130 135 140

Thr Met Gly Trp Glu Ala Ser Ser Glu Arg Met Tyr Pro Glu Asp Gly

145 150 155 160

Ala Leu Lys Gly Glu Ile Lys Gln Arg Leu Lys Leu Lys Asp Gly Gly

165 170 175

His Tyr Asp Ala Glu Val Lys Thr Thr Tyr Lys Ala Lys Lys Pro Val

180 185 190

Gln Leu Pro Gly Ala Tyr Asn Val Asn Ile Lys Leu Asp Ile Thr Ser

195 200 205

His Asn Glu Asp Tyr Thr Ile Val Glu Gln Tyr Glu Arg Ala Glu Gly

210 215 220

Arg His Ser Thr Gly Gly Met Asp Glu Leu Tyr Lys

225 230 235

<210> 2

<211> 236

<212> PRT

<213> 人工序列

<220>

<223> 基于TERM设计的序列

<400> 2

Met Val Ser Lys Gly Glu Glu Asp Asn Met Ala Ile Ile Lys Glu Phe

1 5 10 15

Met Thr Phe Glu Val Glu Met Glu Gly Thr Val Asn Gly His Pro Phe

20 25 30

Arg Ile Arg Gly Ser Gly Gly Gly Asp Pro Tyr Glu Gly Thr Gln Thr

35 40 45

Ala Arg Leu Glu Val Val Glu Gly Gly Pro Leu Pro Phe Ala Trp Asp

50 55 60

Ile Leu Ser Pro Gln Phe Met Tyr Gly Ser Lys Ala Tyr Val Lys His

65 70 75 80

Pro Ala Asp Ile Pro Asp Tyr Leu Lys Leu Ser Phe Pro Glu Gly Phe

85 90 95

Thr Trp Thr Arg Thr Met Glu Phe Glu Asp Gly Gly Thr Val Lys Val

100 105 110

Thr Gln Thr Ser Thr Leu Lys Asp Gly Lys Phe His Tyr Lys Val Lys

115 120 125

Leu Thr Gly Ser Asn Phe Pro Ser Asp Gly Pro Val Met Gln Lys Lys

130 135 140

Thr Met Gly Trp Glu Ala Ser Thr Glu Arg Met Arg Pro Lys Asp Gly

145 150 155 160

Lys Leu Glu Gly Glu Ile Asp Gln Glu Leu Arg Leu Lys Asp Gly Gly

165 170 175

Tyr Tyr Arg Ala Arg Val Arg Thr Thr Tyr Lys Ala Lys Lys Pro Val

180 185 190

Gln Leu Pro Gly Ala Tyr Thr Val Arg Ile Arg Leu Glu Ile Thr Ser

195 200 205

His Asn Glu Asp Tyr Thr Glu Val Glu Gln Thr Glu Thr Ala Lys Gly

210 215 220

Glu His Ser Thr Gly Gly Met Asp Glu Leu Tyr Lys

225 230 235

<210> 3

<211> 40

<212> PRT

<213> 人工序列

<220>

<223> 基于TERM设计的序列

<400> 3

Glu Ala Thr Lys Glu Phe Asp Gly Pro Glu Glu Ala Glu Lys Val Lys

1 5 10 15

Lys Glu Leu Glu Glu Arg Asn Leu Glu Val Glu Val Glu Lys Lys Asp

20 25 30

Gly Lys Tyr Lys Val Thr Ala Arg

35 40

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号