公开/公告号CN112309505A
专利类型发明专利
公开/公告日2021-02-02
原文格式PDF
申请/专利权人 湖南大学;
申请/专利号CN202011226196.8
申请日2020-11-05
分类号G16B50/30(20190101);G06F40/30(20200101);G16B30/00(20190101);G16B25/00(20190101);G16H70/40(20180101);
代理机构43202 国防科技大学专利服务中心;
代理人王文惠
地址 410012 湖南省长沙市岳麓区麓山南路1号
入库时间 2023-06-19 09:46:20
技术领域
本发明涉及一种生物学信息学、计算机应用领域,具体涉及的是一种基于网络表征的抗新冠炎症药物发现方法。
背景技术
新冠肺炎COVID-19的爆发和迅速传播对全球健康构成了严重威胁,研究表明宿主的过度免疫反应是导致COVID-19患者急性呼吸窘迫综合症(ARDS)的重要因素。尽管许多研究人员致力于了解SARS-CoV-2的致病机理,并开发相关的药物来控制和预防SARS-CoV-2;但是,许多研究都集中在预测与SARS-CoV-2生命周期有关的蛋白质或药物,以揭示病毒感染致病机理和治疗方案。然而,最近研究表明,严重疾病的发展似乎不仅与病毒载量有关,SARS-CoV-2诱导的过度炎症反应是导致感染患者死亡的主要原因。不幸的是,现有的抗病毒药物对免疫失衡的患者治疗效果不佳,并且这些药物在这种疾病中的作用机制尚不确定。因此,除了开发抗病毒治疗策略外,迫切需要开发抗炎症风暴的治疗方案来降低COVID-19 患者的死亡风险,这也是当前很多国家和地区抗击COVID-19疫情的难点。
新药研发是一个高度复杂,周期漫长且费用昂贵的过程,因此,从现有的药物中发现潜在抗COVID-19抑制剂的药物重定位方法是一种有效的治疗方案。相比于从头研发新药,从现有药物中发现潜在的药物将会极大程度地降低药物研发成本和周期。因此,药物重新定位方法近年来受到越来越多的制药公司,政府机构以及科研人员的关注。然而,由于目前对 COVID-19靶标信息以及病理学的了解有限,导致治疗COVID-19的药物重定位方法面临众多的挑战和问题。
因此,加强了解SARS-CoV-2引起的宿主免疫反应,并利用这些知识发现潜在的抗炎症风暴的药物及作用机理是具有非常重要的科学意义。
发明内容
为了克服上述技术的不足,本发明提出一种基于网络表征的抗新冠炎症药物发现方法。该方法首先通过融合DrugBank、UniProt、HPRD、SIDER、CTD、NDFRT和STRING等多个数据库构建多源、异构、大规模的生物医药网络;然后,通过随机游走的方式在网络中进行序列采样构成网络序列库,并利用Transformer的深层双向编码器表征技术对进行表征,得到每个节点的表征向量;然后,利用归纳矩阵分解技术进行靶标-药物相互作用预测,发现潜在的抗COVID-19炎症药物,进而推理出相关药物的作用机理。
本发明所采用的技术方案是:
一种基于网络表征的抗新冠炎症药物发现方法,包括以下步骤:
1)参数初始化,包括设置序列轨迹条数psize,网络序列长度l,节点读书的阈值deg,表征向量维度dim,Transformer编码器的层数n;
2)构建药物异质信息网络;
3)随机选择psize∈[1,num]且psize∈N
4)对所有的采样序列进行分词,包括unicode字符串转换、去除特殊字符、空格分词、去除多余字符和标点过程,利用自然语言技术为每个序列字符添加字向量、文本向量和位置向量,并进行叠加编码为向量v;
5)将所有的序列输入Transformer模型,并采用n层相同的Transformer模型堆积,进而学习得到节点的表征向量,其中每层的Transformer模型包含多头注意力机制(multi-head self-attention mechanism)和全连接网络;
6)判断是否达到最大的迭代次数,如果达到最大迭代次数,则输出每个节点的表征向量
7)去除蛋白COVID-19和所有靶标相互关联的信息,并将表征向量输入归纳矩阵分解技术训练得到疾病-靶标的投影矩阵Z
8)基于预测靶标,选择TNF-α作为抗COVID-19炎症风暴的靶标,去除蛋白TNF-α和所有药物相互关联的信息,并将表征向量输入归纳矩阵分解技术训练得到蛋白-药物的投影矩阵Z
9)利用关联谱(Connectivity map)技术从海量的转录组数据中进一步筛选潜在的抗炎症药物;
10)利用文献搜索过滤掉促进TNF-α释放的药物,并分析每个潜在治疗COVID-19炎症药物的作用机理。
作为本发明的进一步改进,所述步骤2)通过以下步骤实现:
2.1)通过DrugBank、UniProt、HPRD、SIDER、CTD和STRING数据库获取drug-drug,drug-protein,drug-disease,drug-side effect,protein-disease多个单网络数据;
2.2)对所有的数据库进行比对,去除冗余数据,构建包含药物、靶标、疾病和副作用4 种类型的药物信息网络,并且删除度小于deg的节点;
2.3)对网络中的所有节点进行编号x
作为本发明的进一步改进,所述步骤3)通过以下步骤实现:
3.1)计算当前节点x
3.2)根据公式
3.3)判断当前轨迹的序列长度是否大于l,如果当前轨迹的序列长度大于l,则转至步骤
4),否则转至步骤3.1)直到满足条件;
作为本发明的进一步改进,所述步骤5)通过以下步骤实现:
5.1)向量v输入多头注意力机制学习得到向量v
5.2)将LayerNorm(ResNet(v+v
作为本发明的进一步改进,所述步骤8)通过以下步骤实现:
8.1)针对感染患者的外周血单个核细胞(PBMC)的基因表达谱和正常人的基因表达量,进行t检验得到每个基因对应的p值,并计算患者每个基因表达量的变化倍数FC;
8.2)如果患者的某一基因相应的p<0.01并且log(FC)>1,则被选为显著差异基因,进而构成基因印记(Gene Signatures);
8.3)基于基因印记,利用Connectivity map在线服务器预测相关药物化合物的关联分数 CMap_score,过滤掉CMap_score>0的药物化合物,剩下的作为潜在的抗COVID-19炎症药物。
与现有技术相比,本发明的有益效果是:
通过构建大规模的药物信息网络,集成了多源异构的信息,多样化的数据为药物研发提供了一个多层关联知识,进而提高了预测精度;其次,通过Transformer模型融合了多头注意力机制,可以不同程度的捕获网络节点之间的关联性与网络节点的物理距离,进而改善了表征的性能;最后,利用关联谱(Connectivity map)和文献搜索结合了转录组数据和文献知识筛选潜在的药物,提高了预测的性能,验证了药物的抗炎机理。
附图说明
图1是基于网络表征的抗新冠炎症药物发现方法的基本流程图;
图2是基于网络表征的抗新冠炎症药物发现方法预测的COVID-19靶标通路富集积分;
图3是基于网络表征的抗新冠炎症药物发现方法推理得到氯喹和羟氯喹的作用机理。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于网络表征的抗新冠炎症药物发现方法,所述方法包括以下步骤:
1)参数初始化,包括设置序列轨迹条数psize,网络序列长度l,节点读书的阈值deg,表征向量维度dim,Transformer编码器的层数n;
2)构建药物异质信息网络;
3)随机选择psize∈[1,num]且psize∈N
4)对所有的采样序列进行分词,包括unicode字符串转换、去除特殊字符、空格分词、去除多余字符和标点过程,利用自然语言技术为每个序列字符添加字向量、文本向量和位置向量,并进行叠加编码为向量v;
5)将所有的序列输入Transformer模型,并采用n层相同的Transformer模型堆积,进而学习得到节点的表征向量,其中每层的Transformer模型包含多头注意力机制(multi-head self-attention mechanism)和全连接网络;
6)判断是否达到最大的迭代次数,如果达到最大迭代次数,则输出每个节点的表征向量
7)去除蛋白COVID-19和所有靶标相互关联的信息,并将表征向量输入归纳矩阵分解技术训练得到疾病-靶标的投影矩阵Z
8)基于预测靶标,选择TNF-α作为抗COVID-19炎症风暴的靶标,去除蛋白TNF-α和所有药物相互关联的信息,并将表征向量输入归纳矩阵分解技术训练得到蛋白-药物的投影矩阵Z
9)利用关联谱(Connectivity map)技术从海量的转录组数据中进一步筛选潜在的抗炎症药物;
10)利用文献搜索过滤掉促进TNF-α释放的药物,并分析每个潜在治疗COVID-19炎症药物的作用机理。
作为本发明的进一步改进,所述步骤2)通过以下步骤实现:
2.1)通过DrugBank、UniProt、HPRD、SIDER、CTD和STRING等数据库获取drug-drug,drug-protein,drug-disease,drug-side effect,protein-disease等多个单网络数据;
2.2)对所有的数据库进行比对,去除冗余数据,构建包含药物、靶标、疾病和副作用4 种类型的药物信息网络,并且删除度小于deg的节点;
2.3)对网络中的所有节点进行编号x
作为本发明的进一步改进,所述步骤3)通过以下步骤实现:
3.1)计算当前节点x
3.2)根据公式
3.3)判断当前轨迹的序列长度是否大于l,如果当前轨迹的序列长度大于l,则转至步骤
4),否则转至步骤3.1)直到满足条件。
作为本发明的进一步改进,所述步骤5)通过以下步骤实现:
5.1)向量v输入多头注意力机制学习得到向量v
5.2)将LayerNorm(ResNet(v+v
作为本发明的进一步改进,所述步骤8)通过以下步骤实现:
8.1)针对感染患者的外周血单个核细胞(PBMC)的基因表达谱和正常人的基因表达量,进行t检验得到每个基因对应的p值,并计算患者每个基因表达量的变化倍数FC;
8.2)如果患者的某一基因相应的p<0.01并且log(FC)>1,则被选为显著差异基因,进而构成基因印记(Gene Signatures);
8.3)基于基因印记,利用Connectivity map在线服务器预测相关药物化合物的关联分数 CMap_score,过滤掉CMap_score>0的药物化合物,剩下的作为潜在的抗COVID-19炎症药物。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
机译: 基于分配地址分配的树状结构网络的网络节点的操作方法,一种网络的形成方法以及一种包括能够降低基于分布地址的树状结构网络的地址浪费的网络节点的系统
机译: 抗体抗VLA-1,一种组合物,其包含分离的核酸,所述核酸包含编码所述抗体的序列,一种确定组织中VLA-1细胞水平的方法,杂交瘤抗体,一种产生表征TR的计算机
机译: 一种制备新的基于抗trombosico的寡糖和多糖的方法。