首页> 中国专利> 使用经训练的统计模型进行多模态预测的方法和装置

使用经训练的统计模型进行多模态预测的方法和装置

摘要

用于使用统计模型来预测第一模态的输入数据和第二模态的数据之间的关联的方法和装置,该统计模型被训练为表示具有包括第一模态和第二模态的多个模态的数据之间的交互,统计模型包括多个编码器和解码器以及耦合多个编码器和解码器的联合模态表示,每个编码器和解码器被训练为处理用于多个模态之一的数据。该方法包括:基于第一模态和第二模态,从多个编码器和解码器中选择编码器/解码器对或成对的编码器;以及利用联合模态表示和选择的编码器/解码器对或成对的编码器来处理输入数据,以预测输入数据与第二模态中的数据之间的关联。

著录项

说明书

相关申请的交叉引用

本申请根据35 U.S.C.§119(e)要求2018年5月30日提交的题为“METHODS ANDAPPARATUS FOR MULTI-MODAL PREDICTION USING A TRAINED STATISTICAL MODEL(使用经训练的统计模型进行多模态预测的方法和装置)”的美国临时专利申请62/678,083以及2018年5月30日提交的题为“METHODS AND APPARATUS FOR MAKING BIOLOGICALPREDICTIONS USING A TRAINED MULTI-MODAL STATISTICAL MODEL(使用经训练的多模态统计模型进行生物学预测的方法和装置)”的美国临时专利申请62/678,094的优先权,其每一个的全部内容通过引用的方式并入本文。

背景技术

改变安全药物的用途的能力为制药业提供了巨大的优势,包括节省时间和成本,以及提高药物批准成功率。随着计算机基础设施的改进和使能够以高分辨率表征疾病和药物的高通量技术的出现,旨在预测现有药物的新疾病指征(indication)或现有疾病的新疗法的计算算法的实施近来已经出现。

用于发现现有药物的新疾病指征或旨在找到针对给定疾病或患者的最佳药物匹配的一些常规技术依赖于疾病的基因组表征和药物作用机制的分子表征以便做出新的预测。这些技术可以分类为基于药物或基于疾病的技术,尽管两者都具有独特的优势和挑战,但是成功的计算方法通常会结合两种技术的各个方面。

基于药物的技术通常专注于药物结构相似性、药物分子活性相似性或靶通路相似性以及分子对接。他们使用不同的信息或数据模态(modility),例如药物结构、药物靶标、药物类别和药物治疗后的基因表达扰动。基于疾病的技术通常专注于关联指征转移、共有的分子病理学或副作用相似性。它们包括与以下各项相关的信息或数据模态:与疾病关联的突变和通路、以及基因表达或蛋白质、代谢物或微生物组中的疾病关联的变化。结合基于药物和基于疾病的基本原理的方法的示例包括:转录特征互补性和药物靶标-疾病通路似性。

发明内容

根据本文描述的技术的一个方面,一些实施例针对一种用于训练统计模型的方法,该统计模型被配置为表示异构网络中数据之间的模态间关联。该方法包括:访问训练数据,该训练数据包括用于第一模态的训练数据和用于不同于第一模态的第二模态的训练数据;训练统计模型,该统计模型包括第一编码器和第二编码器、第一解码器和第二解码器以及联合模态表示,该联合模态表示将第一编码器和第二编码器耦合到第一解码器和第二解码器。训练包括:使用自监督学习技术、至少一些训练数据以及描述训练数据中数据对之间的至少一个链接的信息来估计第一编码器和第二编码器以及第一解码器和第二解码器的参数的值;以及至少部分地通过存储统计模型的第一编码器和第二编码器以及第一解码器和第二解码器的参数的估计值来存储指定统计模型的信息。

根据本文描述的技术的另一方面,一些实施例针对一种用于使用统计模型来预测第一模态中的输入数据与第二模态中的数据之间的关联的方法,该统计模型被训练为表示具有包括第一模态和第二模态的多个模态的数据之间的链接,统计模型包括多个编码器和解码器以及耦合多个编码器和解码器的联合模态表示,每个编码器和解码器被训练为处理用于多个模态之一的数据。该方法包括:基于第一模态和第二模态,从多个编码器和解码器中选择编码器/解码器对或成对的编码器;以及利用联合模态表示和选择的编码器/解码器对或成对的编码器来处理输入数据,以预测输入数据与第二模态中的数据之间的关联。

根据本文描述的技术的另一方面,一些实施例针对一种用于使用统计模型来预测第一模态中的数据与第二模态中的数据之间的关联的方法,该统计模型被训练为表示具有包括第一模态和第二模态的多个模态的数据之间的交互,统计模型包括多个编码器和解码器以及耦合多个编码器和解码器的联合模态表示,每个编码器和解码器被训练为处理用于多个模态之一的数据。该方法包括:将第一模态中的数据和第二模态中的数据映射到统计模型内的公共表示空间中;访问使用标记的数据训练的统计分类器,其中,标记的数据描述第一模态和第二模态中的数据之间的关联;以及使用经训练的统计分类器预测映射到公共表示空间中的第一模态中的数据与第二模态中的数据之间的关联。

根据本文描述的技术的另一方面,一些实施例针对一种计算机系统,其包括至少一个计算机处理器和编码有多个指令的至少一个存储装置,这些指令在由至少一个计算机处理器执行时,执行训练统计模型以表示数据的模态间关联的方法,其中,数据包括用于第一模态的数据和用于与第一模态不同的第二模态的数据。该方法包括:访问训练数据,该训练数据包括用于第一模态的训练数据和用于第二模态的训练数据;训练统计模型,该统计模型包括第一编码器和第二编码器、第一解码器和第二解码器以及联合模态表示,该联合模态表示将第一编码器和第二编码器耦合到第一解码器和第二解码器。训练包括:使用自监督学习技术、至少一些训练数据以及描述训练数据中数据对之间的至少一个链接的信息来估计第一编码器和第二编码器以及第一解码器和第二解码器的参数的值;以及至少部分地通过存储统计模型的第一编码器和第二编码器以及第一解码器和第二解码器的参数的估计值来存储指定统计模型的信息。

根据本文描述的技术的另一方面,一些实施例针对一种计算机系统,其包括至少一个计算机处理器和编码有多个指令的至少一个存储装置,这些指令在由至少一个计算机处理器执行时,执行使用统计模型来预测第一模态中的输入数据与第二模态中的数据之间的关联的方法,该统计模型被训练为表示具有包括第一模态和第二模态的多个模态的数据之间的交互,统计模型包括多个编码器和解码器以及耦合多个编码器和解码器的联合模态表示,每个编码器和解码器被训练为处理用于多个模态之一的数据。该方法包括:基于第一模态和第二模态,从多个编码器和解码器中选择编码器/解码器对或成对的编码器;以及利用联合模态表示和选择的编码器/解码器对或成对的编码器来处理输入数据,以预测输入数据与第二模态中的数据之间的关联。

根据本文描述的技术的另一方面,一些实施例针对一种计算机系统,其包括至少一个计算机处理器和编码有多个指令的至少一个存储装置,这些指令在由至少一个计算机处理器执行时,执行使用统计模型来预测第一模态中的数据与第二模态中的数据之间的关联的方法,该统计模型被训练为表示具有包括第一模态和不同于第一模态的第二模态的多个模态的数据之间的链接,统计模型包括多个编码器和解码器以及耦合多个编码器和解码器的联合模态表示,每个编码器和解码器被训练为处理用于多个模态之一的数据。该方法包括:将第一模态中的数据和第二模态中的数据映射到统计模型内的公共表示空间中;访问使用标记的数据训练的统计分类器,其中,标记的数据描述第一模态和第二模态中的数据之间的关联;以及使用经训练的统计分类器预测映射到公共表示空间中的第一模态中的数据与第二模态中的数据之间的关联。

根据本文描述的技术的另一方面,一些实施例针对一种用于训练统计模型以表示药物数据、基因数据和疾病数据之间的关联的方法。该方法包括:访问包括基因训练数据、药物训练数据和疾病训练数据的训练数据;以及训练统计模型,该统计模型包括多个编码器、多个解码器和联合表示,多个编码器包括基因编码器、药物编码器和疾病编码器,多个解码器包括基因解码器、药物解码器和疾病解码器,联合表示将多个编码器耦合到多个解码器,其中,联合表示描述训练数据之间的交互。训练包括:使用自监督学习技术、基因训练数据以及描述基因训练数据中数据对之间交互的信息估计基因编码器和基因解码器的参数的值;使用自监督学习技术、基因训练数据和药物训练数据,以及描述基因训练数据中的数据元素与药物训练数据中的数据元素之间的交互的信息,估计基因编码器、基因解码器、药物编码器和药物解码器的参数的值;使用自监督学习技术、基因训练数据和疾病训练数据、以及描述基因训练数据中的数据元素与疾病训练数据中的数据元素之间的交互的信息来估计基因编码器、基因解码器、疾病编码器和疾病解码器的参数的值;以及至少部分地通过存储统计模型的基因编码器、基因解码器、药物编码器、药物解码器、疾病编码器和疾病解码器的参数的估计值来存储指定统计模型的信息。

根据本文描述的技术的另一方面,一些实施例针对一种计算机系统,其包括至少一个计算机处理器和编码有多个指令的至少一个存储装置,这些指令在由至少一个计算机处理器执行时,执行训练统计模型以表示药物数据、基因数据和疾病数据之间的关联的方法。该方法包括访问包括基因训练数据、药物训练数据和疾病训练数据的训练数据;以及训练统计模型,该统计模型包括多个编码器、多个解码器和联合表示,多个编码器包括基因编码器、药物编码器和疾病编码器,多个解码器包括基因解码器、药物解码器和疾病解码器,联合表示将多个编码器耦合到多个解码器,其中,联合表示描述训练数据之间的交互。训练包括:使用自监督学习技术、基因训练数据、以及描述基因训练数据中数据对之间交互的信息估计基因编码器和基因解码器的参数的值;使用自监督学习技术、基因训练数据和药物训练数据,以及描述基因训练数据中的数据元素与药物训练数据中的数据元素之间的交互的信息,估计基因编码器、基因解码器、药物编码器和药物解码器的参数的值;使用自监督学习技术、基因训练数据和疾病训练数据、以及描述基因训练数据中的数据元素与疾病训练数据中的数据元素之间的交互的信息来估计基因编码器、基因解码器、疾病编码器和疾病解码器的参数的值;以及至少部分地通过存储统计模型的基因编码器、基因解码器、药物编码器、药物解码器、疾病编码器和疾病解码器的参数的估计值来存储指定统计模型的信息。

根据本文描述的技术的另一方面,一些实施例针对一种用于预测给定药物的新疾病指征的方法。该方法包括:将给定药物的表示和多个疾病的表示投影到经训练的统计模型的公共表示空间中;以及基于公共表示空间中的给定药物的投影的表示和多个疾病的至少一个的投影的表示的比较来预测给定药物的新疾病指征。

根据本文描述的技术的另一方面,一些实施例针对一种计算机系统,其包括至少一个计算机处理器和编码有多个指令的至少一个存储装置,这些指令在由至少一个计算机处理器执行时,执行预测给定药物的新疾病指征的方法。该方法包括:将给定药物的表示和多个疾病的表示投影到经训练的统计模型的公共表示空间中;以及基于公共表示空间中的给定药物的投影的表示和多个疾病的至少一个的投影的表示的比较来预测给定药物的新疾病指征。

根据本文描述的技术的另一方面,一些实施例针对一种识别给定药物的疾病指征的方法。该方法包括:提供多个药物和多个疾病的表示作为统计模型的输入;以及使用经训练的监督分类器来处理多个药物和多个疾病的表示以识别多个药物中的药物将有效治疗多个疾病中的疾病的可能性,监督分类器是利用关于美国联邦药物管理局(FDA)批准的药物-疾病对的信息训练的。

根据本文描述的技术的另一方面,一些实施例针对一种计算机系统,其包括至少一个计算机处理器和编码有多个指令的至少一个存储装置,这些指令在由至少一个计算机处理器执行时,执行识别给定药物的疾病指征的方法。该方法包括:提供多个药物和多个疾病的表示作为统计模型的输入;以及使用经训练的监督分类器来处理多个药物和多个疾病的表示以识别多个药物中的药物将有效治疗多个疾病中的疾病的可能性,监督分类器是利用关于美国联邦药物管理局(FDA)批准的药物-疾病对的信息训练的。

应该理解,预见到在下面更详细地讨论的前述概念和其它概念的所有组合(只要这些概念不互相矛盾),作为本文公开的发明主题的一部分。

附图说明

本技术的各种非限制性实施例将参照以下附图进行描述。应该理解,附图不一定按照比例绘制。

图1是根据一些实施例的异构网络的图;

图2是根据一些实施例的可以使用多模态统计模型表示的生物数据的异构网络的图;

图3是根据一些实施例的用于表示生物数据的异构网络的模型架构的图;

图4是根据一些实施例的用于训练统计模型以表示生物数据的异构网络的过程的流程图;

图5是根据一些实施例的用于执行数据嵌入的过程的图;

图6是根据一些实施例的用于将单模态信息和网络链接投影到公共潜在空间中的过程的图;

图7示出了根据一些实施例的使用的编码器和解码器的示例神经网络架构;

图8是根据一些实施例的用于训练统计模型以表示异构网络中的模态内和模态间网络链接的过程的流程图;

图9是根据一些实施例的用于训练统计模型以表示模态内网络链接的过程的图;

图10A-10C是根据一些实施例的用于训练统计模型以表示模态间网络链接的过程的图;

图11示意性地示出了根据一些实施例的使用训练的多模态统计模型进行多模态预测;

图12示出了根据一些实施例的在模态特定的表示空间中进行无监督预测的过程;

图13示意性地示出了根据一些实施例的用于比较模态特定的表示空间中的嵌入和投影向量的位置的技术;

图14示出了根据一些实施例的在联合模态表示空间中进行无监督预测的过程;

图15示出了根据一些实施例的使用训练的多模态统计模型来进行监督预测的过程;以及

图16示出了可以在其上实现一些实施例的说明性计算机系统的组件。

具体实施方式

使用统计或机器学习技术来预测生物数据(例如,药物-疾病匹配)之间的关联的常规计算方法通常采用监督学习技术。可用于训练此类技术的数据集通常限于相对少量的标记的数据(例如,FDA批准的药物)。这样的方法通常还专注于一个或两个模态(例如,药物和疾病),并且在训练期间或在做出预测时不考虑来自其他模态的信息。为此,一些实施例针对一种可缩放技术,该可缩放技术用于整合来自多个模态的生物信息,以合并来自大范围来源的生物(例如,药物和/或疾病)信息。特别地,一些实施例针对使用一个或多个统计模型来表示多模态生物信息的异构网络,该一个或多个统计模型被配置为使用自监督学习技术来学习模型中数据之间的连接。图1示出了根据一些实施例的可以使用统计模型来表示的异构网络的示意性示例。

如图所示,异构网络100包括多个节点以及节点之间的连接。网络100中的每个节点与具有不同模态的数据相关联。例如,节点A可以表示与疾病相关联的数据,节点B可以表示与基因相关联的数据,节点C可以表示与药物相关联的数据。与网络100中的节点相关联的链接包括模态内链接(例如,链接132、134),其描述单个模态内的数据之间的交互。例如,链接132描述与节点B相关联的数据之间的交互(例如,基因与其他基因交互),而链接134描述与节点C相关联的数据之间的交互(例如,与其他药物具有结构相似性的药物)。异构网络中的每个节点可以包括任何适当数量的模态内链接(包括没有模态内链接),并且与网络中的任何一个节点相关联的链接的数量可以取决于与该节点相关联的数据的模态。例如,如下面更详细地讨论的,与“基因”模态相关联的节点可以比与“药物类别”模态相关联的节点具有更多的模态内链接。

网络100中的每个节点还包括至少一个模态间链接(例如,链接112、114、116和122),其描述来自不同模态的数据之间的交互。模态间链接将节点连接到网络中的其他节点。尽管一些节点仅包括单个模态间链接,但是其他节点包括到一个或多个其他节点的多个模态间链接,指示网络100中数据之间的更复杂的关联。借助网络100中的模态间链接,在一些实施例中,可以学习来自网络中的不同数据源的数据之间的关联,以实现直接连接或者经由网络中的其它节点间接连接的节点之间的预测。例如,节点A和节点C中的数据之间的关联可以经由这两个节点之间的直接链接116以及经由节点B的节点A和节点C之间的间接路径(例如,经由链接112、114和122)来学习。根据一些实施例,由网络100中的节点表示的数据之间的学习的连接的网格增加了使用训练的统计模型编码的数据表示的丰富性。例如,经训练的统计模型可用于预测异构药物-疾病网络中的缺失链接。

图2示出了根据一些实施例的可以使用统计模型表示的药物-疾病异构网络的示例。如图所示,网络包括多个节点,每个节点与用于不同模态的生物数据相关联。网络包括与网络中的节点相关联并连接网络中的节点的模态内链接和模态间链接。这些链接描述了模态内的数据对或来自不同模态的数据对如何彼此相关。通过在异构网络中包括多个节点,药物与疾病之间的关系可以通过多个模态来建立,多个模态例如为受疾病影响或与疾病相关联的基因、受药物调节的基因或受药物靶向的基因以及在受疾病影响的组织中表达的基因。此外,药物可以通过其分子结构、其相应的蛋白质靶标、药物类别和副作用来表征,而疾病也可以通过疾病本体来表征。

在图2所示的具体药物-疾病网络中,与基因相关联的节点通过直接与网络中的其他四个节点连接,表示药物和疾病之间的核心功能链接。基因可以通过功能性交互(例如,蛋白质-蛋白质交互、转录调控或共表达网络)以及其相应的生物学通路或基因本体关联来表征。在一些实施例中,网络包括药物和疾病代谢组学、蛋白质组学和微生物组信息中的一个或多个。

随着附加的生物数据变得可用,图2中所示的药物-疾病异构网络可以被扩展为包括附加的节点和/或节点之间的附加的链接。以这种方式,药物-疾病异构网络的表示易于扩展和可缩放,这与一些常规的计算模型不同,这些常规的计算模型被训练为仅基于来自一个或两个模态的数据进行预测。新节点或在异构网络的现有节点内表示的数据类型可以以任何合适的方式添加。例如,在一些实施例中,药物-疾病异构网络内的节点可以包括与不同生物相关的数据(例如,来自人和小鼠数据集的数据)。还可以包括来自模型生物、来自酿酒酵母(Saccharomyces cerevisiae)(酵母)、秀丽隐杆线虫(Caenorhabditis elegans)(蠕虫)、斑马鱼(Danio rerio)、拟南芥(thale或mouse-ear cress)和果蝇的药物-表型关联。在另一个示例中,生物间连接可以使用直系同源基因关联在模型中表示。

与异构网络中的节点相关联的数据可以从任何数据源中识别,该数据源提供关于特定模态内的数据之间的交互(例如,基因-基因交互)或来自不同模态(例如,疾病的药物治疗)的数据之间的交互的信息。在一些实施例中,基于生物信息的可公开访问的数据库和/或专有数据库中的信息或基于临床试验或其他医学研究的结果来确定关于数据与异构网络的交互的信息。例如,与药物相关联的数据可以包括与小分子和/或生物制剂有关的信息,并且与疾病相关联的数据可以包括与疾病类别相关的信息,疾病类别包括但不限于肿瘤(例如,白血病、淋巴瘤、肺癌、黑色素瘤、甲状腺癌、肝癌、前列腺癌、肾癌或肾癌、胰腺癌、肠癌、胶质母细胞瘤、星形细胞瘤、乳腺癌等)和非癌性疾病(例如,神经系统疾病、心血管疾病、皮肤病、肌肉骨骼疾病、泌尿外科疾病、呼吸道疾病、营养和代谢性疾病等)。

根据一些实施例使用的药物-疾病异构网络也可以包括与衍生自合成致死筛选的基因-基因交互和衍生自Crispr-或shRNA或siRNA筛选的基因-疾病交互有关的信息。另外,关于药物与疾病之间的直接交互的信息可以至少部分地基于关于FDA批准的药物-疾病指征和体外癌细胞系生存力实验的信息来确定。

表1提供了根据一些实施例的示例数据集和数据库的列表,其可用于识别异构网络的数据和交互。如下面更详细地描述的,关于从这些数据源(和其他数据源)提取的数据之间的交互的信息可以用于训练统计模型,使得训练后的统计模型被配置为表示异构网络中的模态式间关联。然后训练后的统计模型可以用于进行新的模态间预测。

表1:用于构建药物-疾病异构网络的示例数据库

如以上结合图2所讨论的,异构网络中的每个节点包括到网络中一个或多个其他节点的至少一个链接。一些实施例针对通过使用关于从数据源中提取的数据对的信息来训练统计模型来对网络中数据之间的这些链接进行编码,数据源包括但不限于表1中列出的数据源。

根据一些实施例,可以单独考虑图2的网络中的节点中的每个节点及其相关联的链接(模态内和模态间),以训练统计模型。可以使用分类特征来表示网络中节点的数据之间的每个链接。分类特征使得能够使用下面更详细描述的数据嵌入技术将每个模态的数据映射到具有连续值的向量。然后,这些向量在训练阶段期间作为输入提供给统计模型,并可以用于训练后的预测。

在一些情况下,可以仅使用分类特征来表示异构网络中的数据之间的交互。例如,在交互“药物-治疗-疾病”中,特定药物可能被批准用于治疗特定疾病或未获批准。换句话说,“治疗”交互是二进制的。在其他情况下,异构网络中数据之间的交互可以附加地使用数值特征来表示,该数值特征指示链接的数据之间的交互的强度。例如,在交互“药物-调节-基因”中,分类特征可用于表示特定药物是否基于例如药物表达谱来调节特定基因,而数值特征可用于表示例如基于差异基因表达比较确定的调节的程度或强度。

下面更详细地描述与图2所示的异构网络相关联的示例交互,包括来自表1中的示例数据库中的哪些数据用于确定交互数据以及在异构网络中是仅使用分类特征还是除分类特征之外还数值特征来表示交互的指示。下面通过以示例性方式计算交互度量来描述图2的网络中的交互。但是,应当理解,可以以任何合适的方式从数据源中提取和/或计算任何或所有交互度量,实施例在这方面不受限制。

以药物为中心的交互

如图2所示,“药物”节点包括六种不同的以药物为中心的交互,包括一种模态内交互(药物-类似-药物(drug-resembles-drug))和将药物节点连接到网络中其他节点的五种模态间交互。由分类特征和数值特征两者限定的模态内“药物-类似-药物”交互描述了网络中药物的按对的结构相似性。例如,“类似”度量可以通过基于谷本(Tanimoto)系数并使用python库RDKit(http://www.rdkit.org)从药物对应的指纹中计算按对的药物结构相似性来计算。在一种实现方式中,药物结构从三个不同的数据库(ChEMBL、ChemSpider、PubChem)以“微笑(smile)”的形式下载,然后使用python库MolVS(https://molvs.readthedocs.io/)进行smile标准化。接下来,计算每种药物的分子指纹,并计算来自所有可能的按对的药物指纹比较的谷本系数以确定哪些药物与其他药物相似。

“药物-调节-基因”交互由分类特征和数值特征两者限定。该交互可以基于例如从CMAP-LINCS-L1000数据库提取的药物表达谱来确定。在一个实现方式中,数据是从GeneExpression Omnibus数据库中下载的(登录ID=GSE92742),并且包含总共19811种药物,这19811种药物是在两个不同的时间点(6小时和24小时)在3-77良好注释的细胞系的可变组中三次筛选的。该实现方式中使用的基因表达数据包括级别5处理的数据,这些数据针对每个细胞系、时间点和药物治疗,包含相对于对照条件的标准化的差异基因表达值。对于细胞系、时间点和药物治疗的每种组合,数据可以由基因和它们的对应的Z-分数的向量(例如,维度为1x 12328)表示。

另外,从专有数据库生成了针对多个药物的药物诱导的基因表达数据。这些谱是在七个不同的癌细胞系中、在两个不同的时间点(6小时和24小时)以及每种药物的两个不同浓度下生成的。相对于对照条件将差异基因表达标准化,并以Z分数的形式进行处理。从专有数据库针对药物生成的数据与CMAP-LINCS-L1000的数据具有相同的结构。

如上所述,“药物-治疗-疾病”交互是分类的。该交互可以基于批准的(例如,FDA批准的)药物及其对应的疾病指征的列表。在一个实现方式中,用于这种交互的数据是从PharmacotherapyDB数据库下载的,并且包含755种疾病-药物对。

“药物-包括-药物类别”交互是分类的。该交互描述了每种药物与其药理学类别之间的对应关系。在一种实现方式中,用于该交互的数据是从DrugBank数据库(https://www.drugbank.ca/)和DrugCentral(http://drugcentral.org)数据库下载的。

“药物-结合-基因”交互是分类的。该交互描述了药物及其基因编码的蛋白质靶标之间的关系。在一个实现方式中,用于该交互的数据是从DrugBank数据库(https://www.drugbank.ca/)、DrugCentral数据库(http://drugcentral.org)和BindingDB(https://www.bindingdb.org)数据库获得的。

以疾病为中心的交互

如图2所示,“疾病”节点包括将疾病节点连接到网络中其他节点的五种不同的以疾病为中心的模态间交互(其中之一是上述的“药物-治疗-疾病”交互)。疾病节点与任何模态内交互都不相关联。“疾病-调节-基因”交互使用分类特征和数值特征两者表示。在一个实现方式中,用于该交互的数据是从TCGA数据库(https://tcga-data.nci.nih.gov/)和专有数据库中获得的。该交互涉及当与匹配的正常对照组织或健康个体相比时在患病组织中上调和下调的基因。TCGA数据库包含每个患者的癌症基因表达谱及其匹配的正常对照组织谱。在一个实现方式中,下载每个患者的这两个谱,计算肿瘤和对照之间的对应倍数变化,并将基因表达值标准化为Z分数。包含来自575种不同疾病(癌症和非癌症疾病指征)的大约1500个基因表达谱的专有数据库也用于生成用于“疾病-调节-基因”交互的数据。来自GeneExpression Omnibus数据库(https://www.ncbi.nlm.nih.gov/geo/)的数据被下载并使用R库GEOquery和Limma进行处理。每个疾病表达谱通过Limma被标准化,然后是疾病与正常情况之间的基因倍数变化计算。专有疾病基因表达谱也被标准化为Z分数。

“疾病-关联-基因”交互是分类的。该交互涉及与特定疾病相关联的基因特定突变。在一种实现方式中,对应于孟德尔疾病的基因突变的关联是从OMIM数据库(https://www.omim.org/)下载的。与特定癌症相对应的基因突变的关联是从COSMICdb数据库(https://cancer.sanger.ac.uk/cosmic)和Intogen数据库(https://www.intogen.org/)下载的。

“疾病-局部化-解剖学”交互是分类的。该交互涉及疾病与受疾病影响的对应的人体组织之间的关联。在一种实现方式中,这些关系是从Medline疾病-组织关联(Himmelstein DS.2016)数据库下载的。解剖术语被映射到解剖结构本体术语(http://uberon.github.io,Mungall等,2012)。

以基因为中心的交互

如图2所示,“基因”节点包括将基因节点连接到网络中的其他节点的十三种不同的以基因为中心的交互,包括三种模态内交互和十种模态间交互(其中六种在上面结合以药物和疾病为中心的交互进行了描述)。模态内的“基因-交互-基因”交互是分类的,并且与物理蛋白质-蛋白质交互有关,该物理蛋白质-蛋白质交互例如是从StringDB数据库(https://string-db.org/)、Human Interaction数据库(http://interactome.dfci.harvard.edu/)和Human Protein Reference数据库(http://www.hprd.org)下载的。

模态内“基因-调节-基因”交互使用分类特征和数值特征两者来表示。该交互涉及相对于特定基因的敲低或过表达的不同癌细胞系间的标准化的基因表达水平。在一种实现方式中,该数据是从CMAP-LINCS-L1000下载,并且基因表达值以Z分数被标准化。

模态内“基因-共变-基因”交互使用分类特征和数值特征两者来表示。该交互与基因之间的进化共变的速率有关。在一种实现方式中,用于该交互的数据是从Priedigkeit等人(2015年)下载的。将该交互包括在网络中的见解从以下观察中得出:倾向于共同进化的基因通常涉及相似的生物学通路,因此可能参与相似的疾病。

“基因-表达-解剖学”交互是分类的,并且包括特定人类组织类型中基因的表达水平。在一种实现方式中,用于该交互的数据是从TISSUES数据库(https://tissues.jensenlab.org/)和GTEx Portal(https://www.gtexportal.org/)下载的。TISSUES数据库结合了来自基因表达、免疫组织化学、蛋白质组学和文本挖掘实验的数据,而GTEx Portal包含来自多个人体组织的RNA序列数据。

“由解剖学调节的基因”交互是分类的,并且包括特定组织类型中的基因调节信息(例如上调和下调)。在一种实现方式中,用于该交互的数据是从针对成人的Bgee数据库(https://bgee.org/)和GTEx Portal中提取的。

“基因-参与-通路”交互是分类的,并且涉及基因与其对应的细胞通路之间的关联。在一种实现方式中,分子功能、细胞定位和生物学过程是从基因本体联合会(GeneOntology Consortium)(http://www.geneontology.org)下载的。与代谢和信号通路相对应的关联是从KEGG(www.genome.jp/kegg/)、Reactome(https://reactome.org)和WikiPathways(https://wikipathways.org/)获得的。

尽管在图2的说明性异构网络中示出了六个节点,但是应当理解,根据一些实施例,可以替代地使用一个或多个统计模型来表示包括附加的(或更少的)节点的异构网络。例如,一些实施例针对通过统计模型来表示仅包括三个节点“药物”、“基因”和“疾病”及其对应的模态内和模态间链接的异构网络。在其他实施例中,使用统计模型表示具有至少一个表示患者数据(例如,来自电子健康记录)的节点的异构网络。

一些实施例针对多模态表示,其整合了来自生物数据的异构网络的所有域和模态,以上结合图2描述了多模态表示的示例。与一些依赖监督学习和有限训练数据集的常规方法不同,一些实施例采用自监督学习技术,其不需要用于训练的大的成对的数据集。如下面更详细地讨论的,在一些实施例中训练统计模型以利用药物和疾病之间的共享连接(例如,基因),以便发现新颖的药物-疾病关联。

图3示意性地示出了根据一些实施例的可以使用自监督学习技术来训练的统计模型的高级架构。异构网络中与不同模态相对应的每个节点表示为通过架构的从输入到输出的单独路径。在图3的架构中仅表示“基因”、“药物”和“疾病”模态。然而,应当理解,在图3所示的模型架构中也可以包括其他模态,包括但不限于图2的异构网络中的其他节点。

如图所示,图3的架构包括多个编码器/解码器对,每个编码器/解码器对被配置为采用自监督学习技术来训练用于单模态编码器/解码器对的参数的值。架构中包括的编码器/解码器对的数量取决于异构网络中包括的模态或节点的数量。使用公共潜在空间(在本文中也称为联合模态表示或联合多模态表示)将编码器/解码器对联合,以形成多模态统计模型,该多模态统计模型能够学习每个网络节点及其对应的网络链接的联合表示,如以下更详细地描述的。

如图3所示,对于每个编码器/解码器对,该架构包括多个嵌入表示,这些嵌入表示是作为分类输入数据的变换的连续值的向量。每个编码器/解码器对中的编码器和解码器经由联合模态表示而耦合,该联合模态表示包括异构网络中连接的网络节点的联合表示向量。联合模态表示中的向量的数量等于网络中的交互的数量,使得联合模态表示可以表示为NxD矩阵,其中,N是网络中的交互的数量,D是每个联合表示向量的长度。在一些实施例中,N>1x106。有关网络中数据之间交互的信息在联合模态表示中被编码。可以以任何合适的方式对交互进行编码。在一些实施例中,表示输入对中的数据之间的特定交互的嵌入交互向量可以被创建,并被连结到公共潜在空间中的对应的联合表示向量。在其他实施例中,不是将嵌入交互向量连结到联合表示向量,而是可以将嵌入交互向量连结到来自两个编码器的输出,该联合表示向量是从这两个编码器的输出创建的。在其他实施例中,交互信息可以借助于联合表示向量被固有地编码,该联合表示向量是从两个编码器的输出形成的,具有特定交互的特定输入数据被提供给这两个编码器。

如以下更详细地讨论的,对于模态内(例如,基因-基因)交互,使用自监督学习技术、与异构网络中的节点相关联的模态内的输入数据对以及描述数据对之间交互的交互信息来训练每个编码器/解码器对。对于模态间(例如,基因-药物)交互,使用自监督学习技术、跨两种模态的输入数据对以及描述来自不同模态的输入数据之间的交互的交互信息来训练两个编码器/解码器对。当交互包括分类特征和数值特征两者时,可以通过例如将嵌入交互向量和/或联合表示向量的全部或一部分乘以对应于数值特征中表示的交互的强度或程度的值来考虑该数值特征。

图4示出了根据一些实施例的用于训练具有图3所示的架构的多模态统计模型的过程400。在动作410中,训练数据(例如,从诸如表1中的一个或多个公共或专有数据源中提取的)被转换为嵌入向量,该嵌入向量将作为输入被提供给编码器。在数据嵌入期间,相关的分类变量由密集的实数向量表示,这些向量捕获了分类变量之间的关系。嵌入向量表示连续数字空间中的每个变量。结合图5更详细地描述嵌入向量的创建。

然后,过程400进行到动作412,在该动作412中,嵌入向量作为输入被提供给模态特定的编码器,以在联合模态表示空间中提供编码的输出向量。然后,过程400进行到动作414,在该动作414中,至少部分地基于从两个编码器输出的编码的输出向量来计算联合表示向量。可以另外至少部分地基于描述输入数据之间的交互的信息(例如,如上所述的嵌入交互向量)来计算联合表示向量。然后,过程440进行到动作416,在该动作416中,联合表示向量作为输入被提供给模态特定的解码器以生成解码的输出向量。然后,过程400进行到动作418,在该动作418中,至少部分地基于解码的输出向量与作为输入提供给模式特定编码器的嵌入向量的比较来更新编码器和解码器中的权重。例如,在训练期间使用自监督学习技术来更新编码器和解码器中的参数值(例如,权重)。下面更详细地描述过程400中描述的每个动作。

图5示出了根据一些实施例的使用分类特征生成用于与异构网络中的节点相关联的输入数据的嵌入向量的过程。针对每个模态限定输入维度V,其对应于该模态中数据的词汇量的大小。在图5所示的示例中,模态为“基因”,词汇量的大小V为20,000,表示输入数据集中存在20,000个基因。模态的每个元素由长度为V的独热向量(one-hot vector)510“表示”,其中,第i个元素的值为1,向量中的所有其他元素设置为0。例如,为了编码输入数据元素“基因A”,独热向量510中的位置153的值被设置为1,而向量中所有其他值被设置为0。为模态的输入数据集中的每个元素(例如,图5的示例中的20,000个基因中的每一个)创建一个单独的独热向量。然后,独热向量510被投影到大小为1xE的较低维度嵌入空间中,该空间包含输入变量的连续数字表示,而不是二进制值。在图5所示的示例中,E=10,但是应当理解,E可以被设置为任何其他合适的值,实施例在这方面不受限制。

在一些实施例中,数据嵌入是通过利用维度为VxE的嵌入矩阵520变换与每个模态元素相对应的独热向量以产生多个嵌入向量530来完成的,每个嵌入向量530对应于输入数据元素中不同的输入数据元素(例如,图5示例中的基因A)。在一些实施例中,嵌入矩阵520的值是从具有-1/V和+1/V的范围的均匀分布中随机初始化的。在训练统计模型期间,嵌入矩阵520的参数的值可以保持固定,或者可替代地可以作为训练过程的一部分而被更新。通过在训练期间更新用于嵌入矩阵520的参数值,期望用于异构网络中的连接的节点的嵌入向量530在嵌入表示空间中将比未连接的节点更紧密。

在一些实施例中,异构网络中的节点之间的网络链接也使用如上所述的类似的嵌入过程来嵌入,但是与嵌入向量530的维度相比,可以具有更低的嵌入维度(例如,1x5)。图6示意性地示出了一些实施例中的可以如何对网络链接进行编码的示例。特别地,图6示出了如何使用编码器602将作为结合图5描述的数据嵌入架构的输出而产生的嵌入向量530投影到公共潜在空间650中。公共潜在空间650在本文中也被称为联合模态表示。如图所示,编码器602将每个嵌入向量530映射到公共潜在空间650内的更高维度的潜在表示向量604。在图6的示例中,编码器602将每个嵌入向量从1x10的维度映射到公共潜在空间650中1x95的维度。然而,应当理解,编码器602的输出维度可以取任何合适的值。下面结合图7更详细地描述编码器602的示例架构。

图6还示出了根据一些实施例的关于网络链接的信息也被投影到公共潜在空间650中。在类似于根据图5讨论的嵌入过程中,可以通过为网络中的特定节点创建与每个网络链接元素相对应的独热向量610来嵌入关于异构网络中的网络链接的信息。图6示出了嵌入用于在图2所示的异构网络中的“基因”节点的网络链接的示例。独热向量610包括九个元素,每个元素表示与图2中的“基因”节点相关联的九种类型的模态内或模间网络链接之一。如图所示,例如,第五元素被设置为1而所有其他元素被设置为0的独热向量可以用于例如嵌入对应于“基因-交互-基因”网络链接的“交互”链接。独热向量610的维度I基于与网络中的每个节点相关联的网络链接的类型的数量。

可以使用维度为IxF的嵌入矩阵620映射每个独热向量,以产生多个嵌入交互向量630,每个嵌入交互向量对应于输入数据元素之一。如上所述,在一些实施例中,F

如上所述,一些实施例采用针对网络中包括的每个模态或节点使用成对的编码器/解码器的自监督学习技术。在自监督学习技术中,深度神经网络被训练为基于X和输出X'之间的重构误差,来学习或再现输入X。训练编码器的参数使编码器能够重构输入向量的更高级别的表示,而训练解码器使解码器能够从更高级别的表示中恢复输入向量。

如结合图6的架构所描述的,对于每个模态的每个变量或元素,编码器的输入是网络节点的嵌入向量530。编码器将每个嵌入向量映射到较高维度的潜在表示604。在一些实施例中,编码器可以通过下式表征:

Z=α(WeX+be) (等式1)

其中,X是嵌入输入向量530,Z是输出向量或潜在表示604,We和be分别表示线性权重和偏差,α是激活函数。在一些实施例中,激活函数是非线性激活函数,例如,整流线性单元(ReLU)、指数线性单元(ELU)或泄漏ReLu激活函数。

图7示出了根据一些实施例的可以使用的编码器620的示例架构。在图7所示的示例中,编码器620被实现为具有一个隐藏层并且维度为10(输入层)->50(隐藏层)->95(输出层)的完全连接的神经网络。编码器620的输出层是公共潜在空间650中的联合表示向量。

每个编码器/解码器对的解码器部分被配置为将异构网络中两个交互节点(Z)的潜在表示或联合表示映射回输入变量或各个网络节点的嵌入表示向量(X')。在一些实施例中,解码器可以通过下式表征:

X′=α(WdZ+bd) (等式2)

其中,W

图7还示出了根据一些实施例的可以使用的解码器720的示例架构。在图7所示的示例中,解码器620被实现为具有一个隐藏层并且维度为100(输入层)->50(隐藏层)->10(输出层)的完全连接的神经网络。解码器720的输出层是具有与作为输入提供给编码器620的嵌入向量X相同维度的解码的向量X'。

已经讨论了可用于表示生物数据的异构网络的多模态统计模型的组件的通用架构,下面提供训练多模态统计模型以学习网络的节点中数据之间的关联的示例。

图8示出了根据一些实施例的用于训练多模态统计模型的过程800的流程图。使用的具体训练技术可以取决于将在模型中表示的异构网络的节点中的数据之间的交互的类型。在动作810中,使用上述数据嵌入过程来创建模态特定的嵌入向量。在还创建用于公共潜在空间中连结的嵌入交互向量的实施例中,也可以在动作810中使用本文描述的嵌入技术来创建这种嵌入交互向量。

然后,过程800进行到动作812,在该动作812中,多模态统计模型被训练为学习包括至少一个模态内交互的异构网络中的每个节点的模态内交互。例如,在图2所示的异构网络中,仅“基因”和“药物”节点与模态内链接相关联。因此,对于这些节点中的每一个,多模态统计模型可以被分别训练为学习该节点的对应的模态内网络链接。下面结合图9更详细地描述训练多模态统计模型以学习模态内网络链接的示例。应当理解,一些异构网络可能不包括与模态内链接相关联的任何节点,并且对于这样的网络,可以省略动作812中的训练模态内链接。

然后,过程800进行到动作814,在该动作814中,多模态统计模型被训练为学习描述异构网络中不同的连接的节点中的数据之间的关系的模态间交互。如上所述,异构网络中的每个节点经由一个或多个模态间网络链接连接到网络中的至少一个其他节点。对于这些网络链接中的每一个,重复动作814中的训练,直到已对异构网络中的所有网络链接训练了多模态统计模型为止。下面结合图10A-C更详细地描述训练多模态统计模型以学习模态间链接的示例。尽管在动作812之后示出了动作814,但是应当理解,可以以任何合适的顺序对异构网络的节点执行模态内链接和模态间链接的训练,包括但不限于在对模态间链接进行训练之前对所有模态内链接进行训练、在对模态内链接进行训练之前对所有模态间链接进行训练、以及穿插(intersperse)模态内链接和模态间链接的训练。

然后,过程800进行到动作816,在该动作816中,在训练期间估计的训练后的统计模型的参数被存储以在执行预测任务时使用。尽管示出了动作816在动作812和814之后,但是应当理解,用于训练后的统计模型的估计的参数可以在动作812或814中的一个或多个训练迭代之后被存储,使得在一个训练迭代中确定的估计的参数用于初始化模型的至少一些参数以用于随后的训练迭代。作为示例,第一训练迭代可以专注于训练“基因-交互-基因”网络链接,训练的结果为具有反映该模态内交互的估计的参数的基因编码器和基因解码器。用于基因编码器和基因解码器的估计的参数可以被存储并用于初始化模型参数,以用于专注于训练“药物-结合-基因”网络链接的随后的训练迭代。在随后的训练交互过程中,用于基因编码器/解码器的估计的参数从先前存储的值进一步被细化以反映与模态间训练相关的关联。估计的模型参数从一个训练迭代传播到随后的训练迭代的示例将在下面更详细地讨论。

图9示意性地示出了根据一些实施例的用于训练多模态统计模型以学习网络链接“基因-交互-基因”的过程。如图9所示,两个基因编码器/解码器对被示为被同时训练。尽管出于说明的目的示出为两个单独的网络,但是应当注意,图9中所示的每个基因编码器对和基因解码器对应于单个网络结构,单个网络结构的示例在图7中示出。用于基因编码器和基因解码器的单个网络结构包括使用本文所述的自监督学习技术在训练期间估计和更新的参数(例如,网络权重)。

如图所示,耦合编码器的输出和解码器的输入的是联合表示,其表示对其训练多模态统计模型的模态内网络链接。图9示出了网络链接的训练,该网络链接基于例如源自表1中所列的至少一个数据源的数据来编码第一基因RPTOR和第二基因MTOR之间的交互。使用上述数据嵌入技术将基因RPTOR和MTOR中的每一个在模型中表示为嵌入向量(例如,具有维度1x10)。可选地,对于基因-基因对的要被训练的网络链接(在图9的示例中为“交互”)也被表示为如上所述的嵌入交互向量(例如,具有维度1x5)。

用于RPTOR和MTOR的嵌入向量作为输入被提供给基因编码器的实例,基因编码器的实例将每个基因的嵌入向量表示编码为公共潜在空间中对应的模态内表示向量(例如,维度为1x95)。在网络链接也被表示为嵌入交互向量的实施例中,用于“连接的”输入数据(即,图9中的基因RPTOR和MTOR的数据)的模态内表示向量可以与如图所示的公共潜在空间中的嵌入交互向量连结,得到两个连结的向量(例如,具有维度1x100)。

基于公共潜在空间中的两个模态内表示向量(可选地与网络链接信息连结)来计算表示连接的输入数据的联合表示向量和表征该连接的网络链接。例如,在一些实施例中,通过计算公共潜在空间中的两个模态内表示向量的平均值或乘积来计算联合表示向量。在该实现方式中,联合表示向量具有与连结的向量相同的维度(即,在图9的示例中的1x100)。作为图9中所示的用于计算联合表示向量的过程的替代,在一些实施例中,联合表示向量可以在与描述网络链接的嵌入交互向量连结之前基于这两个模态内表示向量的组合(例如,使用平均值或乘积)来计算,并且嵌入交互向量可以在其创建之后与联合表示向量连结。在这种情况下,联合表示向量初始地可以具有与各个模态内表示向量相同的维度(例如1×95),并且在连结之后联合表示向量的最终维度更大(例如,1×100)。

图9中的训练过程通过将联合表示向量(例如,具有维度1x100)作为输入提供给基因解码器(在图9中表示为两个基因解码器,以进行说明)来进行,该基因解码器被配置为针对输入基因RPTOR和MTOR中的每一个输出解码的向量(例如,具有维度1x10)。测量从解码器输出的解码的向量和作为输入提供给编码器的嵌入输入向量之间的偏差,并使用该偏差来更新统计模型中的权重,使得该模型以自监督的方式学习数据之间的关联。在一些实施例中,自监督学习技术使用负采样损失函数来实现,并且从负采样损失函数确定的误差通过编码器和解码器(以及可选地用于数据嵌入的嵌入矩阵)来反向传播,以更新用于模型的这些组件中的每一个的参数(例如,权重)的估计。

负采样损失函数根据以下关系使编码器/解码器对将真实与随机网络连接分离。

其中,w和c表示连接的网络节点,w

当正被编码的网络链接是模态内网络链接时,如在图9的示例中的情况,当确定如何更新针对单个模态编码器表示的参数的估计时,考虑基于输入/输出对两者确定的误差。换句话说,对于每个反向传播循环,将以相同的方式更新图9所示的基因编码器/解码器实例两者的参数。

如以上简要讨论的,一些实施例首先训练统计模型以学习模态内网络链接,然后对模态间网络链接进行训练。在网络节点已经在先前训练迭代中被编码的情况下,为网络组件(例如,编码器、解码器、嵌入矩阵)的预训练的表示而存储的参数可以在使用不同输入的后续训练迭代中使用。

图10A示出了根据一些实施例的用于训练多模态统计模型以学习异构网络的模态间交互的示例。特别地,图10A示出了可以如何训练统计模型以学习图2所示的异构网络中的“药物-结合-基因”网络链接。图10A中概述的训练过程类似于图9中描述的用于训练模态内网络交互的过程,主要区别在于用于训练的输入和编码器/解码器。简而言之,对于来自对应于异构网络中不同节点的不同模态(图10A的示例中的药物和基因)的具体数据对创建嵌入向量。嵌入向量是使用上述数据嵌入过程使用独热向量和对应的嵌入矩阵来创建的。在图10A所示的示例中,为药物LAM-002创建第一嵌入向量,为基因PIKFYVE创建第二嵌入向量。嵌入向量作为输入被提供给相应的药物和基因编码器,以将每个嵌入向量映射到公共潜在表示空间中的更高维度的模态特定的潜在表示。药物和基因编码器的架构可以类似于以上结合图7描述的架构。在一些实施例中,编码器/解码器架构可以通过例如具有不同数量的隐藏层和/或具有不同维度的层而对于不同模态具有不同的架构,其中,对于每个编码器/解码器,输出表示具有相同的维度(例如,1x95)。在其他实施例中,编码器/解码器的架构对于统计模型中表示的每种数据模态是相同的,其中编码器/解码器之间的差异反映在网络中表示的权重中。

如以上简要讨论的,编码器/解码器对中的一个或两个可以与基于至少一个先前的训练迭代而初始化的参数值相关联。例如,在如图9A所示的基因编码器/解码器的模态内训练在如图10A所示的药物和基因编码器/解码器的模态间训练之前进行的情况下,从图9中的训练得到的预训练的基因编码器/解码器对可用于初始化图10A的架构中的基因编码器/解码器对的参数。以这种方式,随着新的数据对和网络交互作为输入被提供给多模态统计模型,继续训练每个模态的编码器/解码器对。

如图10A所示,从编码器输出的模态特定的潜在表示可以被连结到表示输入数据之间的具体模态间网络链接(图10A的示例中的“结合”)的嵌入交互向量。在连结用于将网络链接信息合并到公共潜在表示中的实施例中,连结可以在生成模态特定的潜在表示时发生,或者连结可以在模态特定的潜在表示已经被组合以创建联合表示之后发生。可以例如通过取两个潜在表示的平均值或乘积以计算联合表示向量来组合模态特定的潜在表示,该联合表示向量表示药物LAM-002和PIKFYVE基因的输入数据对的“药物-结合-基因”网络交互。继续进行训练,联合表示作为输入被提供给药物解码器和基因解码器两者,以产生解码的输出向量(例如,具有维度1x10),并且基于解码的输出向量和作为输入提供给编码器的嵌入向量的比较更新编码器和解码器(以及可选的嵌入矩阵)的参数。上面讨论了根据一些实施例的可以如何使用反向传播来更新权重的示例。

图10B示出了根据一些实施例的用于训练多模态统计模型以学习异构网络的模态间交互的另一示例。特别地,图10B示出了可以如何训练统计模型以学习图2所示的异构网络中的“疾病-关联-基因”网络链接。图10B中概述的训练过程类似于图10A中描述的训练过程,主要区别在于用于训练的输入和编码器/解码器。简而言之,对于来自对应于异构网络中不同节点的不同模态(图10B的示例中的基因和疾病)的特定数据对创建嵌入向量。嵌入向量是使用上述数据嵌入过程使用独热向量和对应的嵌入矩阵来创建的。在图10B所示的示例中,为基因BCL6创建第一嵌入向量,为疾病淋巴瘤创建第二嵌入向量。嵌入向量作为输入被提供给相应的基因和疾病编码器,以将每个嵌入向量映射到公共潜在表示空间中的更高维度的模态特定的潜在表示。

编码器/解码器对中的一对或这两对可以与基于至少一个先前的训练迭代而初始化的参数值相关联。例如,在如图10A所示的基因编码器/解码器的模态间训练在图10B中的基因和疾病编码器/解码器的模态间训练之前进行的情况下,从图10A中的训练得到的预训练的基因编码器可用于初始化图10B的架构中的基因编码器和解码器的参数。以这种方式,随着新的数据对和网络交互作为输入被提供给多模态统计模型,继续训练每个模态的编码器/解码器对。

如图10B所示,从编码器输出的模态特定的潜在表示可以被连结到表示输入数据之间的具体模态间网络链接(图10B的示例中的“关联”)的嵌入交互向量。在连结用于将网络链接信息合并在公共潜在表示中的实施例中,连结可以在生成模态特定的潜在表示时发生,或者连结可以在模态特定的潜在表示已经被组合以创建联合表示之后发生。可以例如通过取两个表示的平均值或乘积以计算联合表示向量来组合模态特定的潜在表示,该联合表示向量表示基因BCL6和疾病淋巴瘤的输入数据对的“疾病-关联-基因”网络交互。继续进行训练,联合表示作为输入被提供给基因解码器和疾病解码器两者,以产生解码的输出向量(例如,具有维度1x10),并且基于解码的输出向量和作为输入提供给编码器的嵌入向量的比较更新编码器和解码器(以及可选的嵌入矩阵)的参数。上面讨论了根据一些实施例的如何使用反向传播来更新权重的示例。

图10C示出了根据一些实施例的用于训练多模态统计模型以学习异构网络的模态间交互的另一示例。特别地,图10C示出了可以如何训练统计模型以学习图2所示的异构网络中的“药物-治疗-疾病”网络链接。图10C中概述的训练过程类似于图10A和图10B中描述的训练过程,主要区别在于用于训练的输入和编码器/解码器。简而言之,对于来自对应于异构网络中不同节点的不同模态(图10C的示例中的药物和疾病)的特定数据对创建嵌入向量。嵌入向量是使用上述数据嵌入过程使用独热向量和对应的嵌入矩阵来创建的。在图10C所示的示例中,为药物LAM-002创建第一嵌入向量,为疾病淋巴瘤创建第二嵌入向量。嵌入向量作为输入被提供给相应的药物和疾病编码器,以将每个嵌入向量映射到公共潜在表示空间中的更高维度的模态特定的潜在表示。

编码器/解码器对中的一对或这两对可以与基于至少一个先前的训练迭代而初始化的参数值相关联。例如,在如图10A所示的药物编码器/解码器的模态间训练和图10B中的疾病编码器/解码器的模态间训练在图10C所示的模态间训练之前进行的情况下,从图10A中的训练得到的预训练的药物编码器/解码器对可用于初始化图10C的架构中的药物编码器/解码器对的参数,并且从图10B中的训练得到的预训练的疾病编码器/解码器对可用于初始化图10C的架构中的疾病编码器/解码器对的参数。以这种方式,随着新的数据对和网络交互作为输入被提供给多模态统计模型,继续训练每个模态的编码器/解码器对。

如图10C所示,从编码器输出的模态特定的潜在表示可以被连结到表示输入数据之间的具体模态间网络链接(图10C的示例中的“治疗”)的嵌入交互向量。在连结用于将网络链接信息合并在公共潜在表示中的实施例中,连结可以在生成模态特定的潜在表示时发生,或者连结可以在模态特定的潜在表示已经被组合以创建联合表示之后发生。可以例如通过取两个表示的平均值或乘积以计算联合表示向量来组合模态特定的潜在表示,该联合表示向量表示药物LAM-002和疾病淋巴瘤的输入数据对的“药物-治疗-疾病”网络交互。继续进行训练,联合表示作为输入被提供给药物解码器和疾病解码器两者,以产生解码的输出向量(例如,具有维度1x10),并且基于解码的输出向量和作为输入提供给编码器的嵌入向量的比较更新编码器和解码器(以及可选的嵌入矩阵)的参数。上面讨论了根据一些实施例的如何使用反向传播来更新权重的示例。

以上在图9和图10A-C中提供的所有示例涉及训练统计模型以学习仅是分类的图2的异构网络中的网络交互。如上所述,一些网络交互可以由分类特征和数值特征两者表示,其中,数值特征表示网络中节点内部或节点之间的数据之间的交互强度。为了训练多模态统计模态以学习既是分类的又是数值的网络链接,数值信息可用于缩放联合模态表示中的表示向量。例如,连结到联合表示向量的嵌入交互向量可以通过数值信息来缩放。

多模态统计架构的各种参数(例如,超参数)可以基于针对具体实现的优化来修改。这些参数包括但不限于嵌入维度(例如,1x10)、联合表示维度(例如,1x100)、编码器和解码器的隐藏层的维度(例如,1x50)、编码器和解码器的隐藏层的数量(例如,1)、编码器和解码器的激活函数以及学习速率。

如结合图3所讨论的,一旦被训练,多模态统计模型的整体架构包括多个训练后的模态特定的编码器和解码器以及联合模态表示,该联合模态表示将训练后的编码器耦合到训练后的解码器。如图11中示意性地示出的,经训练的多模态统计模型可以用于通过选择用于预测的适当的成对的训练后的编码器和解码器来在具有第一模态的输入数据和具有不同模态的输出之间进行预测。具体地,图11示出了经训练的多模态统计模型做出关于可能由特定药物可治疗的疾病的预测的能力。如图所示,部分地通过使用训练后的药物编码器和训练后的疾病解码器来进行预测。可以使用经训练的多模态统计网络做出多个类型的预测,包括但不限于给定药物的新疾病指征、给定疾病或患者的候选药物和联合疗法、与疾病相关联的生物标志物以及给定药物的潜在基因靶标。使用仅考虑一种或两种数据模态的对生物数据进行建模的常规技术无法进行此类预测。

一些实施例针对使用经训练的多模态统计模型的无监督预测技术。图12示出了无监督预测技术的示例,其中,使用第二模态的解码器将第一模态(图12的示例中的药物)的表示空间映射到第二模态(图12的示例中的疾病)的表示空间。在图12所示的预测技术中,针对作为输入提供给经训练的统计模型的给定的药物,预测候选疾病指征。经训练的药物编码器用于计算感兴趣药物在联合模态表示中的潜在表示向量,并且该潜在表示向量作为输入被提供给经训练的疾病解码器。经训练的疾病解码器的输出是投影到疾病表示空间中的输入药物的表示。

如图13示意性所示,疾病解码器的输出可以被投影为疾病表示空间中的点1310,而不是将输入药物映射到疾病表示空间中的具体疾病。图13中所示的疾病表示空间是仅包含疾病数据库的子集的“疾病潜在空间”的t-分布随机邻居嵌入(t-SNE)表示。在其上训练了多模态统计模型的每种疾病在n维度的疾病表示空间中也具有固有位置。在一些实施例中,至少部分地基于投影点1310与疾病表示空间中其他疾病的位置之间的距离来预测新的疾病指征。例如,可以通过找到投影点1310的最近邻居和在疾病表示空间内投影的候选疾病来确定药物的新疾病指征。具有给定药物可治疗的最高可能性的候选疾病可以包括投影点1310与候选疾病的点之间的距离小的疾病。例如,如图13所示,痛风、偏头痛和多发性硬化症的疾病各自与疾病表示空间中最接近给定输入药物的投影点1310的点相关联。这样,这些疾病可以作为感兴趣的药物的新的疾病靶标成为很好的候选者。

在一些实施例中,仅与投影点1310具有最近距离的疾病可以被提供作为输出预测。在其他实施例中,与最接近投影点1310的距离相关联的“n个最佳”疾病列表可以被提供作为输出预测。在其他实施例中,可以仅输出具有距疾病表示空间中的投影点1310的距离小于阈值的距离的疾病。还可以输出除疾病名称之外的其他信息,包括但不限于基于距离的相似性分数。

可以使用n维度的表示空间中两点之间的距离的任何合适的量度,实施例在这方面不受限制。根据一些实施例的可以用于预测的距离测量的示例包括但不限于欧几里得距离、余弦相似度和曼哈顿距离。公共表示空间中两个向量之间的欧几里得距离的公式可以如下:

图14示出了另一种无监督预测技术的示例,其中,两种不同模态(图14的示例中的药物和疾病)的输入数据投影到联合模态表示空间中,在联合模态表示空间中,可以进行来自不同模态的联合表示向量之间的比较。如图所示,在图14的预测技术中,用于第一模态(图14的示例中的药物)的输入数据被提供给用于第一模态的经训练的编码器。用于第一模态的经训练的编码器的输出是用于公共潜在空间中的第一模态输入的第一联合表示向量。另外,用于第二模态(在图14的示例中的多个疾病)的输入数据作为输入被提供给用于第二模态的经训练的编码器。用于第二模态的经训练的编码器的输出是公共潜在空间中表示的多个第二联合表示向量,每个第二联合表示向量对应于用于第二模态的输入数据。

对于给定药物的候选疾病指征的预测可通过比较输入药物在公共潜在空间内的第一联合表示向量与投影到公共潜在空间中的疾病的每个第二联合表示向量的距离来确定。例如,为了预测药物A和四种不同疾病之间的关联,药物和疾病编码器可用于计算药物A和四种疾病中的每一种的对应的潜在表示。可以计算药物A的潜在表示向量与投影到公共潜在空间中的每种疾病的潜在表示向量之间的距离,以预测与药物A的表示最接近的疾病表示。具有可由给定药物治疗的最高可能性的候选疾病可以是在潜在表示空间中具有最靠近感兴趣的药物在潜在表现空间中的位置的位置的那些疾病。

尽管在图12和14中描述的无监督预测技术涉及预测具体药物的新疾病指征,但是应理解,无监督预测技术可用于通过选择合适的经训练的编码器和/或解码器以能够在多模态统计模型内的公共表示空间内进行预测来在经训练的统计模型中表示的任何两种模态之间进行预测。

一些实施例针对使用经训练的多模态统计模型的监督预测技术。图15示出了监督预测技术,该监督预测技术使用利用两种不同模态的已知网络交互训练的监督分类器。监督分类器可以使用任何合适的架构来实现,包括但不限于神经网络、基于树的分类器、其他深度学习或机器学习分类器,或者使用统计相关技术来实现。可以利用已知网络交互对(例如,来自FDA批准的药物的已批准的疾病指征)的潜在表示来训练分类器,并且可以使用经训练的分类器做出关于给定新的对是否存在真实关联的预测。

如图所示,可以用FDA批准的药物-疾病对的表示向量训练图15中的监督分类器。如果使用疾病解码器将药物投影到疾病表示空间,或者使用药物解码器将疾病投影到药物表示空间,则用于药物和疾病的输入向量的维度可以对应于数据嵌入层(例如,1x10),或如果使用两种模态的潜在表示来使用经训练的监督分类器做出分类决策,则用于药物和疾病的输入向量的维度可以具有潜在表示空间的维度(例如,1x95)。

除了上述预测示例之外,一些实施例还预期其他类型的预测。例如,可以进行关于可能在治疗给定疾病方面有效的新药物的预测。感兴趣的疾病和所有药物可以投影到多模态统计模型中的公共表示空间(例如,模态特定的表示空间或公共潜在空间)中,并且公共表示空间中向量之间的距离可以用于预测用于治疗该疾病的新药物。

因为在多模态统计模型中表示的异构网络中的所有实体在同一潜在空间中都有表示,并且编码器和解码器已被训练为访问潜在空间,所以除了新药物--疾病匹配外,也可以进行其他交叉模态预测。例如,疾病可以由经训练的疾病编码器进行编码,以预测公共潜在空间中的基因靶标,或者可以通过使疾病潜在表示通过基因解码器并直接在基因空间中比较表示(例如,通过最近的邻居和其他上述距离测量或相似性技术)进行编码。以这种方式,除了预测与给定疾病相关联的新药物之外,基因、蛋白质、通路、解剖和其他生物实体也可以与疾病相关联,从而为药物-疾病的预测提供上下文。另外,异构网络中的特定突变可以被示出为与药物和疾病有很强的关联,从而指示可帮助识别对给定药物有反应的患者的生物标志物。

在又一预测情景中,根据一些实施例,可以预测药物的基因靶标。药物与基因、突变和其他异构网络实体相关联,这可以提供药物作用的机理见解。例如,这对于基于专家知识和传统药物工程学对药物-疾病预测的进一步微调可能是有价值的。

另一预测技术涉及预测患者特定疗法。经训练的多模态统计模型可以用于预测针对特定患者的特定药物/疗法。例如,如上所述,一些实施例被配置为预测与给定疾病相关联的生物标志物。针对这些生物标志物,可以对患者进行筛选,并且带有这些生物标志物的患者可以被预测为通过给定药物进行治疗的良好候选人。

如上所述,图2中未示出的附加模态也可以被添加到由根据本文描述的技术训练的多模态统计网络表示的异构网络。可以添加的一种这样的模态与患者有关。例如,患者信息可以通过以下方式被包括在异构网络中:其患者的特性(例如,基因表达、突变、拷贝数变异、DNA甲基化)与异构网络中的其他实体的接近、或将患者实体定义为异构网络中的新节点(例如,通过用于将患者信息投影到公共潜在空间的单个患者编码器和解码器)。

在前一种情形下,基于患者的基因表达谱(或其他实验获得的属性)在多模态统计模型中表示患者,并且该信息可以链接到其他节点(例如,通过接近于药物和疾病的已知表达谱),并且链接的节点可用于投影到潜在空间中。

在后一种情形下,新的患者实体或节点可以被添加到异构网络,其中,在多模态统计模型中包括其自己的编码器和解码器。异构网络中的网络链接可以例如基于已知对特定药物反应良好或具有疾病的患者在各个患者(由患者节点表示)与网络中的药物和疾病节点之间形成。此外,异构网络中的链接可以在具有相似基因表达谱或其他实验获得的生物学信息或属性(例如,DNA、RNA、蛋白质、医学成像)的两个患者之间形成。可以以与如上所述的异构网络中其他节点的编码器/解码器对相似的方式训练患者编码器和解码器。使用经训练的患者编码器/解码器的预测可以例如使用本文所述的一种或多个技术在感兴趣的患者和候选药物之间进行。

图16示出了可以结合本文提供的本公开的任何实施例使用的计算机系统1600的说明性实施方式。计算机系统1600可包括一个或多个计算机硬件处理器1600和一个或多个制品,这些制品包括非暂态计算机可读存储介质(例如,存储器1620和一个或多个非易失性存储装置1630)。(一个或多个)处理器1610可以以任何合适的方式控制向存储器1620和(一个或多个)非易失性存储装置1630写入数据和从它们读取数据。为了执行本文所描述的任何功能,处理器1610可以执行存储在一个或多个非暂态计算机可读存储介质(例如,存储器1620)中的一个或多个处理器可执行的指令,所述一个或多个非暂态计算机可读存储介质可以用作存储用于由(一个或多个)处理器1610执行的处理器可执行的指令的非暂态计算机可读存储介质。

术语“程序”或“软件”在本文中以一般意义使用,以指代可以用于对计算机或其它处理器(物理的或虚拟的)编程以实现如上所述的实施例的各个方面的任何类型的计算机代码或处理器可执行的指令集。此外,根据一个方面,当被执行时执行本文提供的本公开的方法的一个或多个计算机程序不需要驻留在单个计算机或处理器上,而是可以以模块化方式分布在不同的计算机或处理器之中以实现本文提供的本公开的各个方面。

处理器可执行的指令可以是由一个或多个计算机或其它装置执行的诸如程序模块等许多形式。通常,程序模块包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。通常,程序模块的功能可以被组合或分布。

此外,数据结构可以以任何合适的形式存储在一个或多个非暂态计算机可读存储介质中。为了简化说明,数据结构可被示为具有通过数据结构中的位置而相关的字段。这种关系同样可以通过为字段分配存储空间来实现,该存储空间具有在非暂态计算机可读介质中传达字段之间的关系的位置。然而,任何合适的机制都可用于建立数据结构的字段中的信息之间的关系,包括通过使用指针、标记或建立数据元素之间的关系的其它机制。

各种发明构思可以体现为一个或多个过程,已经提供了其示例。作为每个过程的一部分执行的操作可以任何合适的方式排序。因此,可构造其中以不同于所说明的顺序来执行动作的实施例,这可包括同时执行某些操作,即使在说明性实施例中示出为顺序的动作。

如本文在说明书及权利要求书中所使用的,在提及一个或多个元素的列表时,词组“至少一个”应理解为意指选自元素列表中的任意一个或多个元素中的至少一个元素,但不是必须包括该元素列表内所具体列出的每一元素中的至少一个,并且不排除该元素列表中的元素的任何组合。该限定还允许除词组“至少一个”所指的元素列表内具体指明的元素以外,可选地存在元素,而无论与具体指明的那些元素相关或不相关。因此,例如,在一个实施例中,“A和B中的至少一个”(或等效地,“A或B中的至少一个”,或等效地,“A和/或B中的至少一个”)可指至少一个(可选地包括一个以上)A,而不存在B(可选地包括除B以外的元素);在另一实施例中,可指至少一个(可选地包括多于一个)B,而不存在A(且可选地包括除A以外的元素);在又一实施例中,可指至少一个(可选地包括一个以上)A及至少一个(可选地包括一个以上)B(且可选地包括其它元素);等等。

如本文在说明书和权利要求书中所使用的,词组“和/或”应理解为意指这样结合的元素中的“任一个或其两者”,即,在一些情况下连同地存在且在其它情况下分开存在的元素。以“和/或”列出的多个元素应视为以相同方式构造,即,这样结合的元素中的“一或多个”。除由“和/或”从句特别指明的元素以外,其它元素可以可选地存在,无论与特别指明的那些元素相关或不相关。因此,作为非限制性示例,当结合诸如“包括”的开放式语言使用时,对“A和/或B”的提及在一个实施例中可指仅A(可选地包括除B以外的元素);在另一实施例中,可指仅B(可选地包括除A以外的元素);在又一实施例中,可指A和B二者(可选地包括其它元素);等等。

在权利要求中使用序数术语,诸如“第一”、“第二”、“第三”等修饰要求权利要求的元素时,其本身并不表示进行方法的动作的任何优先级、在先性或一个权利要求元素相比于另一个的顺序或时间顺序。这些术语仅用作标记以区别具有某个名称的一个权利要求元素与另一个具有相同名称的元素(如果不使用序数术语则名称相同)。本文所使用的措辞和术语用于描述的目的,且不应被认为是限制。使用“包括”、“包含”、“具有”、“含有”、“涉及”及其变型意在涵盖之后所列的项目及额外的项目。

在详细阐述本文所述的技术的多个实施例后,对于本领域技术人员来说,将很容易进行各种修改和改进。这样的修改和改进意在在本公开的精神及范围内。因此,前述说明仅是举例说明,并且不意在作为限制。这些技术仅受到由以下权利要求及其等效物所限定的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号