首页> 中国专利> 使用递归神经网络编码器和注意力加权来改进对新表位的主要组织相容性复合物(MHC)-肽结合预测的方法和系统

使用递归神经网络编码器和注意力加权来改进对新表位的主要组织相容性复合物(MHC)-肽结合预测的方法和系统

摘要

提供了用于预测MHC‑肽结合亲和力的技术。获得多个训练肽序列,并且使用训练肽序列训练神经网络模型以预测MHC‑肽结合亲和力。包括RNN的神经网络模型的编码器被配置为处理输入训练肽序列以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。在编码器之后的完全连接层被配置为处理编码固定维数的输出以生成MHC‑肽结合亲和力预测输出。计算装置被配置为使用经训练的神经网络来预测针对测试肽序列的MHC‑肽结合亲和力。

著录项

  • 公开/公告号CN112912960A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 南托米克斯有限责任公司;

    申请/专利号CN201980054372.3

  • 发明设计人 J·苏多尔;K·弗努克;

    申请日2019-08-14

  • 分类号G16B35/10(20060101);G16B30/10(20060101);G16B40/20(20060101);G16B50/00(20060101);C07K14/74(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人李志强;黄希贵

  • 地址 美国加利福尼亚州

  • 入库时间 2023-06-19 11:14:36

说明书

技术领域

本公开总体上涉及预测主要组织相容性复合物(MHC)-肽结合,并且更具体地涉及采用一个或多个递归神经网络来生成MHC-肽结合亲和力预测的神经网络模型。

背景技术

T细胞或T淋巴细胞是一种在细胞介导的免疫中起核心作用的淋巴细胞(白细胞的亚型)类型。T细胞的独特特征是它们区分体内健康细胞和异常细胞(例如感染的细胞或癌细胞)的能力。健康细胞通常在其细胞表面表达大量自身衍生型肽-主要组织相容性复合物(pMHC),尽管T细胞抗原受体可与这些自身衍生型pMHC的至少一部分相互作用,但T细胞通常会忽略这些健康细胞。但是,当同一细胞含有甚至微量的病原体衍生的pMHC时,T细胞就会被激活并引发免疫应答。阳性选择的T细胞将与pMHC具有亲和力,并在体内发挥有用的功能,包括与MHC和肽复合物相互作用以实现免疫应答,而与MHC分子上表达的自身抗原结合太强的阴性选择的T细胞则被消除以允许免疫系统的自身耐受。

细胞毒性T细胞(又称TC细胞、CTL、T杀伤细胞、杀伤T细胞)破坏病毒感染的细胞和肿瘤细胞。这些细胞(因为它们在其表面表达CD8糖蛋白,也称为CD8 T细胞)通过与非自身蛋白(肽抗原)的片段结合而识别病毒感染的或肿瘤细胞靶标,这些非自身蛋白的片段通常长度为8-15个氨基酸并由主要组织相容性复合物(MHC)I类分子呈递。特定长度的肽通常简称为“N聚体”。例如,长度为9个氨基酸的肽序列可以被称为9聚体。

I类MHC分子是主要组织相容性复合物(MHC)分子的两种主要类别中的一种(另一种是II类MHC),并且存在于人类所有有核细胞的表面上。它们的功能是向细胞毒性T细胞展示细胞内肽抗原,从而触发免疫系统对所展示的特定非自身抗原的立即应答。

免疫学中的当前挑战是理解哪种肽与哪种I类MHC分子良好结合,即哪种肽最适合激活细胞毒性T细胞应答,特别是因为MHC化合物的每个等位基因(变体形式)具有不同的特性。如果可以准确预测各种长度的蛋白质片段的这种MHC-肽结合亲和力,则可以例如基于确定哪种肿瘤抗原最有可能触发免疫系统应答来开发新的免疫疗法。

神经网络已被用于预测MHC-肽结合亲和力。虽然I类MHC分子可以结合长度为6-20个氨基酸的肽(尽管它们通常长度为8-15个氨基酸)且II类MHC分子可以结合长度为10-30个氨基酸的肽(尽管它们通常长度为12-25个氨基酸),但当前的一个缺点是,这些神经网络模型的输入通常是固定长度的,并且在不填充(即,将一个或多个‘0’或空值添加到编码的肽序列中以匹配神经网络的固定输入长度)的情况下不能适应可变的肽序列长度。虽然当使用单长度肽序列(例如,仅包含9聚体肽序列、仅包含10聚体肽序列等的数据集)训练神经网络时,这种填充已显示出对预测性能没有影响,但当使用可变长度的肽序列进行训练时,目前使用这种填充的神经网络模型无法达到其完全预测性能潜力。因此,当使用可变长度的肽序列训练神经网络时,仍然需要改进MHC-肽结合亲和力预测性能的技术。此外,它将改进MHC-肽结合亲和力预测性能,从而能够确定对于预测MHC-肽结合亲和力而言最重要的、测试输入序列的肽位置。

发明内容

本文描述了涉及使用神经网络模型来预测MHC-肽结合亲和力的设备、系统、方法和制品。各个实施例基于神经网络模型,该神经网络模型采用递归神经网络编码器和注意力加权来当用可变长度的肽序列训练时以提高的准确性生成MHC-肽结合亲和力预测。这样,可以对测试肽序列进行准确的MHC-肽结合亲和力预测,这些测试肽序列类似于结合亲和力数据已知的训练肽序列,但是长度不同。

在一个实施例中,获得多个训练肽序列,并且将神经网络模型配置为使用这些训练肽序列进行训练来预测MHC-肽结合亲和力。包括递归神经网络(RNN)的神经网络模型的编码器被配置为处理输入训练肽序列以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。每个注意力加权输出可以是单个值,并且对应于输入训练肽序列的氨基酸位置。使用多批训练肽序列来训练神经网络模型,并且将计算装置配置为使用经训练的神经网络模型来对测试肽序列预测MHC-肽结合亲和力。

在一些实施例中,RNN可以包括长短期记忆(LSTM)RNN或门控递归单元(GRU)RNN、或其任何变体。

在一些实施例中,RNN可以包括双向RNN,并且编码固定维数的输出可以通过级联双向RNN的输出来确定。

在一些实施例中,将最终隐藏状态应用于RNN的中间状态输出以生成注意力加权输出可以包括取最终隐藏状态与中间状态输出的点积。

在一些实施例中,在将最终隐藏状态应用于RNN的中间状态输出以生成注意力加权输出之前,可以将通过训练神经网络模型而获知的权重应用于最终隐藏状态。

在一些实施例中,在将最终隐藏状态应用于RNN的中间状态输出以生成注意力加权输出之前,可以将最终隐藏状态与第二神经网络模型的编码器的最终隐藏状态进行级联。可以将第二神经网络模型配置为预测MHC等位基因输入的MHC-肽结合亲和力。

在一些实施例中,训练肽序列可以包含长度在6-20或10-30个氨基酸之间的多个序列长度,并且可以是独热编码、BLOSUM编码、PAM编码或学习嵌入编码的序列中的一种。每个训练肽序列可以是正MHC-肽结合实例。

在一些实施例中,测试肽序列的序列长度可以是6-20或10-30个氨基酸长度。测试肽序列可以具有与训练肽序列中的至少一个的序列长度不同的序列长度,并且可以是独热编码、BLOSUM编码、PAM编码或学习嵌入编码的序列中的一种。

在一些实施例中,每个MHC-肽结合预测输出可以是单个预测,并且对于测试肽序列的MHC-肽结合亲和力预测可以与激活T细胞对肿瘤的应答相关。

在一些实施例中,编码器之后的至少一个完全连接层(例如,两个完全连接层)可以被配置为处理编码固定维数的输出,以生成MHC-肽结合亲和力预测输出。至少一个完全连接层可以包括深度卷积神经网络、残差神经网络、紧密连接的卷积神经网络、完全卷积神经网络或RNN中的一种。

在一些实施例中,对测试肽序列预测MHC-肽结合亲和力可以包括使用经训练的神经网络模型的编码器来处理测试训练肽序列,以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出,以及使用经训练的神经网络模型的至少一个完全连接层处理编码固定维数的输出来生成MHC-肽结合亲和力预测输出。

根据以下说明书以及附图,本发明主题的各种目的、特征、方面和优点将变得更加明显,在附图中相同的数字表示相同的部件。

附图说明

图1示出了根据一个实施例的MHC分子与有核细胞表面上的肽结合的视觉表示。

图2示出了根据一个实施例的独热编码肽序列的实例。

图3示出了根据一个实施例的用于预测MHC-肽结合亲和力的示例性操作的总体流程图。

图4示出了根据一个实施例的用于预测MHC-肽结合亲和力的系统的框图。

图5示出了根据一个实施例的可用于编码输入肽序列的递归神经网络的概略图。

图6示出了根据一个实施例的可用于编码输入肽序列的双向递归神经网络的概略图。

图7A示出了根据一个实施例的针对输入肽序列的肽位置而确定的注意力权重的可视化。

图7B示出了根据一个实施例的针对输入肽序列的肽位置而确定的注意力权重的可视化。

图7C示出了根据一个实施例的针对输入肽序列的肽位置而确定的注意力图的可视化。

图8示出了根据一个实施例的使用可变长度的训练肽序列训练神经网络模型以预测MHC-肽结合亲和力的示例性操作的流程图。

图9示出了根据一个实施例的用于使用经训练的神经网络模型来对测试肽序列预测MHC-肽结合亲和力的示例性操作的流程图。

图10示出了相对于替代方法,根据一个实施例的使用神经网络模型对可变长度肽序列进行神经网络验证性能的图形表示。

图11示出了可以用于实施各种实施例的一个或多个方面的示例性客户端-服务器关系的框图;以及

图12示出了可以用于实施各种实施例的一个或多个方面的分布式计算机系统的框图。

尽管参考以上附图描述了本发明,但是附图旨在是说明性的,并且其他实施例符合本发明的精神且在本发明的范围内。

说明书

现在将在下文参考附图更全面地描述各种实施例,附图形成其一部分并且以图示的方式示出实践实施例的具体示例。然而,本说明书可以体现为许多不同的形式并且不应被解释为局限于本文阐明的实施例;相反,提供这些实施例使得本说明书将是详尽且完整的,并且将向本领域技术人员充分地传达本发明的范围。除了别的以外,本说明书可以体现为方法或装置。因此,本文的各种实施例中的任一个可以采用下列形式:全硬件实施例、全软件实施例、或者组合了软件和硬件方面的实施例。因此,以下说明书不应被视为限制性的。

在整个说明书和权利要求中,除非上下文另外明确指出,否则以下术语具有本文明确关联的含义:

本文使用的短语“在一个实施例中”不一定指相同的实施例,尽管可以如此。因此,如下所述,在不脱离本发明的范围或精神的情况下,可以容易地组合本发明的各个实施例。

如本文所使用,除非上下文另外明确指出,否则术语“或”是包含性的“或”运算符,并且等同于术语“和/或”。

除非上下文另外明确指出,术语“基于”不是排他的,并且允许基于未描述的附加因素。

如本文所使用,并且除非上下文另有指示,否则术语“耦合至”旨在包括直接耦合(其中两个彼此耦合的要素彼此接触)和间接耦合(其中至少一个另外的要素位于两个要素之间)。因此,术语“耦合至”和“与……耦合”同义使用。在两个或更多个部件或装置能够交换数据的网络环境的上下文中,术语“耦合至”和“与……耦合”也用来意指可能经由一个或多个中间装置“与……通信耦合”。

另外,在整个说明书中,“一个/种(a/an)”和“该(the)”的含义包括复数引用,并且“在……中(in)”的含义包括“在……中(in)”和“在……上(on)”。

尽管本文所呈现的各种实施例中的一些构成本发明要素的单个组合,但应当理解,本发明主题被认为包括所披露的要素的所有可能组合。因此,如果一个实施例包括要素A、B和C,并且另一个实施例包括要素B和D,则本发明主题还被认为包括A、B、C或D的其他剩余组合,即使本文没有明确地讨论。此外,过渡术语“包括”意指拥有作为部分或成员,或者是那些部分或成员。如本文所使用,过渡术语“包括”是包含性的或开放的,并且不排除另外未陈述的要素或方法步骤。

在整个以下讨论中,将对服务器、服务端、接口、引擎、模块、客户端、对等体、端口、平台或由计算装置形成的其他系统进行大量参考。应当理解,此类术语的使用应被视为表示具有至少一个处理器(例如,ASIC、FPGA、DSP、x86、ARM、ColdFire、GPU、多核处理器等)的一个或多个计算装置,该至少一个处理器被配置为执行存储在计算机可读的有形非暂时性介质(例如,硬盘驱动器、固态驱动器、RAM、闪存、ROM等)上的软件指令。例如,服务器可以包括以满足所描述的角色、职责或功能的方式作为网络服务器、数据库服务器或其他类型的计算机服务器操作的一个或多个计算机。应当进一步理解,所披露的基于计算机的算法、过程、方法或其他类型的指令集可以体现为计算机程序产品,该计算机程序产品包括存储致使处理器执行所披露的步骤的指令的非暂时性有形计算机可读介质。各种服务器、系统、数据库或接口可以使用标准化协议或算法可能地基于HTTP、HTTPS、AES、公钥-私钥交换、网络服务API、已知的金融交易协议、或其他电子信息交换方法来交换数据。数据交换可以通过包交换网络、电路交换网络、互联网、LAN、WAN、VPN或其他类型的网络来进行。

如在本文的描述和整个以下权利要求书中所使用,当系统、引擎、服务器、装置、模块或其他计算元件被描述为被配置为对存储器中的数据执行或实施功能时,“被配置为”或“被编程为”的含义被定义为计算元件的一个或多个处理器或核心被存储在计算元件的存储器中的一组软件指令编程,以在存储于存储器中的目标数据或数据对象上执行该组功能。

应当注意,应该读取针对计算机的任何语言,以包括任何合适的计算装置的组合,这些计算装置包括服务器、接口、系统、数据库、代理、对等体、引擎、控制器、模块或单独或共同操作的其他类型的计算装置。应当理解,计算装置包括处理器,该处理器被配置为执行存储在有形的非暂时性计算机可读存储介质(例如,硬盘驱动器、FPGA、PLA、固态驱动器、RAM、闪存、ROM等)上的软件指令。软件指令将计算装置配置或编程为提供如下文关于所披露的设备所讨论的角色、职责或其他功能。此外,所披露的技术可以体现为计算机程序产品,其包括存储软件指令的非暂时性计算机可读介质,这些软件指令使处理器执行与基于计算机的算法、过程、方法或其他指令的实现相关联的所披露的步骤。在一些实施例中,各种服务器、系统、数据库或接口使用标准化协议或算法可能地基于HTTP、HTTPS、AES、公钥-私钥交换、网络服务API、已知的金融交易协议、或其他电子信息交换方法来交换数据。装置之间的数据交换可以通过以下进行:分组交换网络,即因特网、LAN、WAN、VPN或其他类型的分组交换网络;电路交换网络;信元交换网络;或其他类型的网络。

所披露的本发明主题的焦点是使计算装置的构造或配置能够对大量数字数据进行操作,超出人类对于包括预测可变长度肽序列的MHC-肽结合亲和力的目的的能力。

应当理解,所披露的技术提供了许多有利的技术效果,包括使用神经网络模型改进对可变长度肽序列的MHC-肽结合亲和力预测的范围、准确性、紧凑性、效率和速度。还应当理解,以下说明书不旨在作为广泛的概述,并且因此,为了清楚和简洁起见,可以简化概念。

在当前的基于神经网络的MHC-肽结合亲和力预测模型中,神经网络输入通常是固定长度的,并且在不填充(即,将一个或多个‘0’或空值添加到编码的肽序列中以匹配固定长度的神经网络输入)的情况下不能适应可变长度的肽序列。虽然这种填充已显示出对使用单长度肽序列(例如,仅包含9聚体肽序列、仅包含10聚体肽序列等的数据集)训练的神经网络没有性能影响,但当使用可变长度的肽序列结合使用单填充方法进行训练时,当前的预测模型中的每一个已显示出仍有改进预测性能的空间。

然而,可以通过包括递归神经网络编码器的神经网络模型来改进MHC-肽结合亲和力预测模型的性能限制,该神经网络模型被配置为对输入肽序列的肽位置使用注意力加权。一旦经过训练,这样的神经网络模型就可以确定测试输入序列的肽位置的注意力权重,并基于注意力权重生成准确度增加的MHC-肽结合亲和力预测。

图1示出了根据一个实施例的MHC分子与有核细胞表面上的肽结合的视觉表示。图示100示出了II类MHC分子102,其呈递对于整体免疫功能所必需的稳定结合的肽104。II类MHC分子102主要与免疫细胞(例如辅助(CD4)T细胞106)相互作用。例如,肽104(例如,抗原)可以调节CD4 T细胞106如何对感染进行应答。通常,稳定的肽结合是防止肽的分离和降解所必需的,而肽的分离和降解可能会在没有牢固附接到II类MHC分子102的情况下发生。这种分离和降解将阻止T细胞对抗原的识别、T细胞募集和适当的免疫应答。CD4 T细胞之所以这么称呼是因为它们在其表面表达CD4糖蛋白,CD4 T细胞可用于CD8 T细胞(例如CD8 T细胞108)的抗原性激活。因此,CD4 T细胞的激活可有利于CD8 T细胞的作用。

CD8 T细胞108是在其表面表达CD8糖蛋白的细胞毒性T细胞。细胞毒性T细胞(也称为TC细胞、CTL、T杀伤细胞、杀伤T细胞)破坏病毒感染的细胞和肿瘤细胞。这些细胞通过与非自身蛋白(肽抗原)的片段结合而识别病毒感染的靶标或肿瘤细胞靶标,这些非自身蛋白的片段长度为6-20个氨基酸(尽管通常它们长度为8-15个氨基酸)并由主要组织相容性复合物(MHC)I类分子(例如I类MHC分子110)呈递。I类MHC分子存在于人类所有有核细胞的表面上。它们的功能是向细胞毒性T细胞展示细胞内肽抗原(例如肽112),从而触发免疫系统对所展示的肽抗原的立即应答。理解哪种肽与哪种I类MHC分子良好结合(即哪种肽最适合激活细胞毒性T细胞应答)对于当前的免疫学研究是至关重要的,特别是因为MHC化合物的每个等位基因(变体形式)具有不同的特性。本文的实施例通过使用组合的可变长度训练肽序列生成更准确的预测来改进基于神经网络的MHC-肽结合亲和力预测模型的操作。

图2示出了根据一个实施例的独热编码肽序列的实例。在一个示例性实施例中,对于本文所述的技术,训练肽序列可以是任何长度的独热编码序列。例如,独热编码矩阵200代表9聚体蛋白质/肽序列“ALATFTVNI”的独热编码,其中单字母代码用于代表20个天然存在的氨基酸。在独热编码矩阵200中,值的合法组合仅是具有单个高(“1”)位,而其他值是低(“0”)的那些组合。虽然在图2中显示了9聚体蛋白质/肽序列,但是本文所述的训练肽序列可包含长度为6-20或10-30个氨基酸的多个序列长度。此外,作为图2中所示的独热编码的替代方案,可以针对本文中所述的技术将训练肽序列编码为通常用于蛋白质序列比对类型的BLOcks替代矩阵(BLOSUM)、可接受点突变(PAM)矩阵(其中每列和每行代表20种标准氨基酸)、或学习嵌入编码的矩阵。

图3示出了根据一个实施例的用于预测MHC-肽结合亲和力的示例性操作的总体流程图。在流程图300中,可变长度训练肽序列1至N 302、304和306用于训练神经网络模型308以预测MHC-肽结合亲和力。根据本文的实施例,神经网络模型308被配置为使用多个(例如,多批)训练肽序列1至N 302、304和306进行训练以预测MHC-肽结合亲和力。在一个实施例中,神经网络模型308的编码器310包括递归神经网络(RNN),该编码器被配置为处理输入训练肽序列以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。编码器310之后的至少一个完全连接层312可以被配置为处理编码固定维数的输出,以生成针对输入训练肽序列的MHC-肽结合亲和力预测输出314。一旦训练完成,包括经训练的编码器318和至少一个经训练的完全连接层320的经训练的神经网络316就可以被配置为接收测试肽序列322。根据一个实施例,测试肽序列322同样被经训练的编码器318处理,以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。经训练的编码器318之后的至少一个经训练的完全连接层320可以被配置为处理编码固定维数的输出,以生成针对输入训练肽序列322的MHC-肽结合亲和力预测输出324。

图4示出了根据一个实施例的用于预测MHC-肽结合亲和力的系统的框图。在框图400中,用于预测测试肽序列中的MHC-肽结合亲和力的元件包括训练引擎410、预测引擎420、持久性存储装置430和主存储器装置440。在一个实施例中,训练引擎410可以被配置为从持久性存储装置430和主存储器装置440中的任一个或两个获得训练肽序列1至N 302、304和306。训练引擎410然后可以使用训练肽序列1至N 302、304、306作为训练输入来配置和训练神经网络模型308,该神经网络模型可以存储在持久性存储装置430和主存储器装置440中的任一个或两个中。例如,训练引擎410可以将包括递归神经网络(RNN)的神经网络模型308的编码器310配置为处理输入训练肽序列,以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。编码器310之后的至少一个完全连接层312可以由训练引擎410配置为处理编码固定维数的输出,以生成针对输入训练肽序列的MHC-肽结合亲和力预测输出314。训练引擎410还可以配置预测引擎420以使用经训练的神经网络模型316来预测包括测试肽序列322的基因组样品输入中的MHC-肽结合亲和力。例如,预测引擎420可以获得测试肽序列322并通过以下方式预测MHC-肽结合亲和力:经由经训练的编码器318处理测试肽序列322,以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。然后,经训练的编码器318之后的至少一个经训练的完全连接层320可以处理编码固定维数的输出,以生成针对输入训练肽序列322的MHC-肽结合亲和力预测输出324。

应当注意,尽管是示例性的,但仅出于容易理解的目的而这样描述图4中的元件以及归属于每个元件的各种功能。本领域技术人员将理解,归因于各种元件的功能中的一个或多个可以由其他元件中的任一个和/或由被配置为执行各种功能的组合的元件(未示出)执行。因此,应当注意,应当读取针对训练引擎410、预测引擎420、持久性存储装置430和主存储器装置440的任何语言,以包括任何合适的计算装置的组合,这些计算装置包括服务器、接口、系统、数据库、代理、对等体、引擎、控制器、模块或者单独或共同操作以执行归因于各种元件的功能的其他类型的计算装置。此外,本领域技术人员应当理解,本文描述的图4的系统的一个或多个功能可以在客户端-服务器关系的背景下执行,例如由一个或多个服务器、一个或多个客户端装置(例如,一个或多个用户装置)和/或由一个或多个服务器和客户端装置的组合执行。

图5示出了根据一个实施例的可用于编码输入肽序列的递归神经网络的概略图。通常,递归神经网络(RNN)500使用内部状态来处理输入序列x

在一个实施例中,将最终隐藏状态输出524应用于RNN 500的每个中间状态输出h0至h2 518、520和522,以生成注意力加权输出。例如,可以通过取每个节点的最终隐藏状态输出和中间状态输出的点积来生成注意力加权输出。在一些实施例中,在将最终隐藏状态应用于中间状态输出以生成注意力加权输出之前,可以将通过训练神经网络模型而获知的权重应用于最终隐藏状态。此外,RNN 500可以通过将RNN的最终隐藏状态输出524应用于中间状态输出h

包括多个隐藏神经元的完全连接层可以在包括RNN 500的编码器(例如编码器310或318)之后以对注意力加权输出执行分类。在一个实施例中,完全连接层(例如完全连接层312或320)被配置为从包括RNN 500的编码器(例如编码器310或318)接收编码的注意力加权输出,并生成输出值(例如输出314或324),其表示MHC-肽结合亲和力预测。

如上所述,可以使用多批训练肽序列1至N 302、304和306来训练包括RNN 500的神经网络模型以通过以下方式来预测MHC-肽结合亲和力:处理输入训练肽序列以生成编码固定维数的输出,使得将RNN的最终隐藏状态应用于RNN的中间状态输出以生成注意力加权输出,并且线性组合注意力加权输出以生成编码固定维数的输出。

图6示出了根据一个实施例的可用于编码输入肽序列的双向递归神经网络的概略图。在一个替代实施例中,包括正向RNN 602和反向RNN 604的双向递归神经网络(RNN)600可以用于处理输入肽序列。通常,双向RNN使用有限序列来基于元件的过去和将来背景预测或标记输入序列的每个元件。这是通过以下方式来完成的:使用正向RNN 602从左到右并使用反向RNN 604从右到左处理任意长度的输入序列606(例如输入肽序列),然后级联两个RNN的输出608和610,其中组合的输出用于确定编码固定维数的输出。

在输入肽序列606的处理期间,正向和反向RNN 602和604的每个节点生成中间状态输出。在一个实施例中,级联输出608和610表示双向RNN 600的最终隐藏状态输出,将其应用于正向和反向RNN 602和604的每个中间状态输出以生成注意力加权输出。例如,注意力加权输出可以通过取正向和反向RNN 602和604的每个节点的最终隐藏状态输出和中间状态输出的点积来生成。然后可以将注意力加权输出线性组合以生成编码固定维数的输出。在一些实施例中,在将最终隐藏状态应用于每个中间状态输出以生成注意力加权输出之前,可以将通过训练神经网络模型而获知的权重应用于最终隐藏状态。

虽然图5和图6中所示的递归神经网络是用于实施本文中实施例的示例,但是本领域技术人员将理解,可以利用采用例如长短期记忆单元(LSTM)和/或门控递归单元(GRU)的其他递归神经网络架构。这样,RNN 500不应被解释为严格限于本文描述的实施例。

图7A示出了根据一个实施例的针对输入肽序列的肽位置而确定的注意力权重的可视化。在小图700和710中分别显示了使用本文所述的双向递归神经网络编码器确定的针对结合性和非结合性HLA-A-1101 9聚体的肽位置的注意力分布。在小图700和710中,对基于RNN编码器的模型进行了所有长度的训练,但仅为了可视化,已单独选择9聚体肽以取它们的位置注意力得分的平均值。特别地,小图700示出,在HLA-A-1101 9聚体结合物的肽位置中,肽位置8 702的注意力权重是最高的(平均分布通常在0.6与0.9之间),而肽位置7704具有第二高的平均分布(通常在0.05与0.23之间)。类似地,小图710示出,在HLA-A-11019聚体非结合物的肽位置中,肽位置8 712的注意力权重是最高的(平均分布通常在0.0与0.4之间)。

图7B示出了根据一个实施例的针对输入肽序列的肽位置而确定的注意力权重的可视化。小图720显示了注意力图,其示出了在结合性(722和724)和非结合性(726和728)HLA-A-1101 9聚体的不同肽位置的特定氨基酸的注意力权重。例如,注意力图722(和图724,其为图722的过滤版本)显示了HLA-A-1101 9聚体结合物的肽位置8中的氨基酸R的相对较高的注意力权重。类似地,注意力图726(和图728,其为图726的过滤版本)显示了例如HLA-A-1101 9聚体非结合物的肽位置8中的氨基酸W、K和R的相对较高的注意力权重。此外,图7C示出了小图740,其显示了使用本文所述的双向递归神经网络编码器确定的针对可变长度的HLA-A-1101结合物的示例注意力图的可视化。

图8示出了根据一个实施例的使用可变长度的训练肽序列训练神经网络模型以预测MHC-肽结合亲和力的示例性操作的流程图。在流程图800中,在步骤802,例如通过训练引擎410获得多个训练肽序列。在一个实施例中,多个训练肽序列可以包括可变序列长度,例如6-20个氨基酸或甚至10-30个氨基酸的序列长度(例如,用于预测II类MHC-肽结合亲和力)。在步骤804,包括递归神经网络(RNN)的编码器(例如编码器310)被配置为处理输入训练肽序列以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。在一个实施例中,最终隐藏状态(h

f([h1_N,h2_M],h1_0)、f([h1_N,h2_M],h1_1)...f([h1_N,h2_M],h1_N)

或者

f(h2_M,h1_0)、f(h2_M,h1_1)...f(h2_M,h1_N)。

在双编码器情况中,应当注意,MHC等位基因序列编码器和肽编码器可以具有相似或不同的架构,并且可以共享一些但不是全部部件。例如,氨基酸嵌入层可以共享,但是序列处理架构可以不同。

在步骤806,至少一个完全连接层(例如完全连接层312)被配置为处理编码固定维数的输出,以生成MHC-肽结合亲和力预测输出。例如,至少一个完全连接层可以包括多个完全连接层。

在步骤808,使用多个训练肽序列来训练神经网络。例如,可以将每个输出值与已知的标记值(例如,与输入编码肽序列相对应的已知的MHC-肽结合亲和力值)进行比较,以确定可用于确定完全连接层内的参数更新的损耗或误差因子。例如,可以使用随机梯度下降算法或其变体(例如Adagrad、RMSprop、Adam等)来确定参数更新。

在步骤810,计算设备(例如预测引擎420)被配置为使用经训练的神经网络来生成对测试肽序列的MHC-肽结合亲和力预测,其中生成MHC-肽结合亲和力预测可以包括经由经训练的编码器处理测试肽序列,以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。然后,经训练的编码器之后的至少一个经训练的完全连接层可以处理编码固定维数的输出,以生成针对输入测试肽序列的MHC-肽结合亲和力预测输出。

图9示出了根据一个实施例的用于使用经训练的神经网络模型来对测试肽序列预测MHC-肽结合亲和力的示例性操作的流程图。在流程图900中,在步骤902,例如通过预测引擎420获得测试肽序列。

在步骤904,将测试输入序列输入经训练的神经网络模型,例如经训练的神经网络模型316。

在步骤906,使用经训练的神经网络模型的编码器来处理测试训练肽序列,以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出。

在步骤908,使用经训练的神经网络模型的完全连接层处理编码固定维数的输出,以生成MHC-肽结合亲和力预测输出。例如,对测试肽序列的MHC-肽结合亲和力预测可以与激活T细胞对肿瘤的应答相关。

图10示出了相对于替代方法,根据一个实施例的使用神经网络模型对可变长度肽序列进行神经网络验证性能的图形表示。在图表1000中,列A至列D 1002包括每个等位基因组织的9聚体和10聚体肽数据集(例如HLA-A-0101,9和HLA-A-0101,10),列E和列F1004显示在不填充的情况下每个分别针对9聚体和10聚体肽训练的等位基因的两个独立神经网络的结果。例如,在不填充的情况下分别使用HLA-A-0101 9聚体和HLA-A-0101 10聚体训练的两个神经网络分别获得接受者操作特性曲线下面积(ROC AUC)=0.951、精度-召回率曲线下面积(PR AUC)=0.812,以及ROC AUC=0.766、PR AUC=0.514。

列G至列J 1006示出了使用单填充方法对来自9聚体和10聚体的数据进行的每个等位基因训练的单个神经网络模型的性能。单填充方法将肽置于中心位置,并在起点和末端填充以达到固定长度13。例如,当单填充方法用于对HLA-A-0101的9聚体和10聚体训练的模型时,总体性能为ROC AUC=0.933、PR AUC=0.735,按肽长度单独测量的性能为ROC AUC=0.953、PR AUC=0.810(对于9聚体),以及ROC AUC=0.811、PR AUC=0.522(对于10聚体)。

列K至列N 1008显示了使用扩展的填充技术对来自9聚体和10聚体的数据进行的每个等位基因训练的单个神经网络的结果。当对HLA-A-0101的9聚体和10聚体进行训练时,该模型实现总体ROC AUC=0.933、PR AUC=0.771,并且当按肽长度单独测量时,ROC AUC=0.943、PR AUC=0.794(对于9聚体),以及ROC AUC=0.865、PR AUC=0.682(对于10聚体)。

列O至列T 1010显示了使用本文所述的双向递归神经网络编码器和注意力权重对来自9聚体和10聚体的数据进行的每个等位基因训练的单个神经网络的结果。当对HLA-A-0101的9聚体和10聚体进行训练时,该模型实现总体ROC AUC=0.946、PR AUC=0.812,并且当按肽长度单独测量时,ROC AUC=0.960、PR AUC=0.841(对于9聚体),以及ROC AUC=0.859、PR AUC=0.699(对于10聚体)。本领域的技术人员将注意到,PR AUC是区分各方法的更可靠的度量,因为它已显示出对数据中正和负实例的数量的不平衡(这可能导致高ROCAUC值)不太敏感。

因此,图表1000证实了使用递归神经网络编码器和注意力加权预测可变长度肽序列的MHC-肽结合亲和力的技术与从分别针对每个肽长度训练的神经网络获得的结果相比具有优势。此外,使用本文描述的技术训练的神经网络可以为其他长度肽序列(包括几乎没有或没有亲和力预测数据可用的那些序列)提供有用且改进的亲和力预测。

本文描述的系统、设备和方法可以使用数字电路或使用一个或多个计算机来实现,该一个或多个计算机使用公知的计算机处理器、存储器单元、存储装置、计算机软件和其他部件。典型地,计算机包括用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。计算机还可以包括或耦合到一个或多个大容量存储装置,例如一个或多个磁盘、内置硬盘和可移动磁盘、磁光盘、光盘等。

本文描述的系统、设备和方法可以使用以客户端-服务器关系操作的计算机来实现。典型地,在这样的系统中,客户端计算机位于服务器计算机的远程并且经由网络进行交互。客户端-服务器关系可以由在相应的客户端和服务器计算机上运行的计算机程序限定和控制。

图11示出了可用于实施本文描述的系统、设备和方法的示例性客户端-服务器关系的高级框图。客户端-服务器关系1100包括经由网络1130与服务器1120通信的客户端1110,并且示出了客户端1110和服务器1120之间的MHC-肽结合亲和力预测任务的一种可能的划分。例如,根据上述各种实施例,客户端1110可以获得测试肽序列;例如经由服务器1120,访问使用训练肽序列训练的神经网络模型;并使用经训练的神经网络模型,生成MHC-肽结合亲和力预测。服务器1120继而可以获得多个训练肽序列;将包括递归神经网络(RNN)的神经网络模型的编码器配置为处理输入训练肽序列以通过将RNN的最终隐藏状态应用于RNN的中间状态输出从而生成注意力加权输出、并且线性组合注意力加权输出来生成编码固定维数的输出;将神经网络模型的一个或多个完全连接层配置为处理编码固定维数的输出,以生成MHC-肽结合亲和力预测输出;使用多批训练肽序列训练神经网络模型;并且配置计算设备以使用经训练的神经网络模型来生成针对测试肽序列的MHC-肽结合亲和力预测。

本领域的技术人员将理解,图11所示的示例性客户端-服务器关系仅是可用于实施本文所述的系统、设备和方法的许多客户端-服务器关系中的一种。因此,图11所示的客户端-服务器关系决不应被解释为限制。客户端装置1110的示例可以包括手机、信报亭、个人数据助理、平板电脑、机器人、车辆、网络相机或其他类型的计算装置。

本文描述的系统、设备和方法可以使用计算机程序产品来实施,该计算机程序产品有形地体现在信息载体中,例如在非暂时性机器可读存储装置中,以便由可编程处理器执行;并且本文描述的方法步骤(包括图8和图9的步骤中的一个或多个)可以使用可由这种处理器执行的一个或多个计算机程序来实施。计算机程序是可以在计算机中直接地或间接地使用以执行某一活动或产生某一结果的计算机程序指令集。计算机程序可以用任何形式的编程语言来编写,包括编译或解释语言,并且它可以用于任何形式,包括作为独立程序或模块、部件、子程序或者适用于计算环境的其他单元。

图12示出了可以用来实施本文描述的系统、设备和方法的示例性设备的高级框图。设备1200包括可操作地耦合到持久性存储装置1220和主存储器装置1230的处理器1210。处理器1210通过执行限定此类操作的计算机程序指令来控制设备1200的总体操作。计算机程序指令可以存储在持久性存储装置1220或其他计算机可读介质中,并且在期望执行计算机程序指令时加载到主存储器装置1230中。例如,训练引擎410和预测引擎420可以包括计算机1200的一个或多个部件。因此,图8和图9的方法步骤可以由存储在主存储器装置1230和/或持久性存储装置1220中并由执行计算机程序指令的处理器1210控制的计算机程序指令限定。例如,计算机程序指令可以被实施为被本领域技术人员编程以执行由图8和图9的方法步骤限定的算法的计算机可执行代码。因此,通过执行计算机程序指令,处理器1210执行由图8和图9的方法步骤限定的算法。设备1200还包括用于经由网络与其他装置通信的一个或多个网络接口1280。设备1200还可以包括实现与设备1200的用户交互的一个或多个输入/输出装置1290(例如,显示器、键盘、鼠标、扬声器、按钮等)。

处理器1210可以包括通用和专用微处理器两者,并且可以是唯一的处理器或设备1200的多个处理器中的一个。处理器1210可以包括一个或多个中央处理单元(CPU)和一个或多个图形处理单元(GPU),该一个或多个GPU例如可以与一个或多个CPU分开工作和/或与其一起进行多任务以加速处理,例如,针对本文描述的各种深度学习和分析应用。处理器1210、持久性存储装置1220和/或主存储器装置1230可以包括一个或多个专用集成电路(ASIC)和/或一个或多个现场可编程门阵列(FPGA)、由它们补充或者结合在其中。

持久性存储装置1220和主存储器装置1230各自包括有形的非暂时性计算可读存储介质。持久性存储装置1220和主存储器装置1230可以各自包括高速随机存储存储器,例如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、双倍数据率同步动态随机存取存储器(DDR RAM)或其他随机存取固态存储器装置,并且可以包括非易失性存储器,例如一个或多个磁盘存储装置(例如内置硬盘和可移动磁盘)、磁光盘存储装置、光盘存储装置、闪存存储器装置、半导体存储器装置,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)、数字多功能盘只读存储器(DVD-ROM)磁盘或其他非易失性固态存储装置。

输入/输出装置1290可以包括外围设备,例如打印器、扫描仪、显示屏等。例如,输入/输出装置1290可以包括显示装置,例如阴极射线管(CRT)、用于向用户显示信息(例如,DNA可访问性预测结果)的等离子或液晶显示器(LCD)监视器、键盘以及指示装置,例如用户可以借以向设备1200提供输入的鼠标或轨迹球。

本文讨论的系统和设备中的任一个或全部(包括训练引擎410和预测引擎420)可以由例如设备1200的设备执行和/或结合在其中。

本领域技术人员将认识到,实际计算机或计算机系统的实现方式可以具有其他结构并且也可以包含其他部件,并且图12是这种计算机的部件中的一些的高级表示,以用于说明目的。

前述说明书应被理解为在每个方面都是说明性和示例性的,而不是限制性的,并且本文披露的本发明的范围不应根据说明书来确定,而是根据专利法准许的完整宽度所解释的权利要求书来确定。应当理解,本文示出和描述的实施例仅仅说明本发明的原理,并且在不脱离本发明的范围和精神的情况下,本领域技术人员可以实施各种修改。在不脱离本发明的范围和精神的情况下,本领域技术人员可以实施各种其他特征组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号