公开/公告号CN114822688A
专利类型发明专利
公开/公告日2022-07-29
原文格式PDF
申请/专利权人 浙江大学医学院附属第一医院;
申请/专利号CN202210291850.6
申请日2022-03-24
分类号G16B20/50(2019.01);G16B40/20(2019.01);G16B40/30(2019.01);
代理机构郑州异开专利事务所(普通合伙) 41114;
代理人韩鹏程
地址 310000 浙江省杭州市上城区庆春路79号
入库时间 2023-06-19 16:12:48
法律状态公告日
法律状态信息
法律状态
2022-08-16
实质审查的生效 IPC(主分类):G16B20/50 专利申请号:2022102918506 申请日:20220324
实质审查的生效
技术领域
本发明涉及肝癌研究领域,尤其是涉及基于原发性肝癌基因分类和肝癌组织能量代谢的预后分析方法。
背景技术
近十年来,代谢重编程被认为是癌症的十大特征之一,即致癌肿瘤具有一种共同的表型,能有效地产生自身代谢所需的能量和大分子,使得肿瘤细胞不受控制的生长。最新的研究表明,肿瘤之间和肿瘤内部的癌症细胞代谢具有可塑性和灵活性,因而导致治疗效果差。同时,研究也发现人类细胞对葡萄糖、脂肪酸、谷氨酰胺等主要能源物质的代谢特征具有明显的差异性。这种差异性与基因、营养物质和氧气的获取等一系列因素有关。因此,通过研究致癌肿瘤细胞的主要代谢特征有利于揭示致影响致癌肿瘤细胞不受控制生长的因素,指导癌症治疗,并预测治疗反应和预后效果。
肝癌是异质性高,死亡率最高的难治性恶性肿瘤,其死亡率居肿瘤死亡率第二位,仅次于肺癌。针对肝癌的治疗手段有很多,但治疗后的五年生存率极低,仅为12%左右。这极可能与肝癌的代谢异质性有关。目前,临床上主要根据肝癌分期来进行患者的预后,但这种方法无法准确的确定肝癌患者的预后。因此本申请提供了一种基于原发性肝癌基因分类和肝癌组织能量代谢的预后分析方法。
发明内容
本发明目的在于提供一种基于原发性肝癌基因分类和肝癌组织能量代谢的预后分析方法。
为实现上述目的,本发明采取下述技术方案:
本发明所述的基于原发性肝癌基因分类和肝癌组织能量代谢的预后分析方法,包括以下内容:
S1,获取肝癌样本的临床表型数据、表达谱数据、基因CNV突变数据和SNV突变数据;
S2,使用GSVA包的ssGSEA方法,计算所述肿瘤样本的4种代谢途径样本评分;
S3,使用ConsensusClusterPlus包对所述4种代谢途径样本评分进行一致性聚类;
S4,计算一致性矩阵和一致性累积分布函数确定若干最佳分类;
S5,分析在4种代谢途径中所述若干最佳分类间基因表达的差异性;
S6,分析若干最佳分类间所述基因CNV突变数据和所述SNV突变数据的差异性;
S7,分析若干最佳分类间所述临床表型数据的差异性;
S8,分析若干最佳分类间免疫特征的差异性;
S9,综合上述步骤的分类和差异性分析结果,建立原发性肝癌预后分析模型。
进一步地,所述肝癌临床表型数据中,去除缺少生存时间和生存状态的样本,并保证所有患者生存时间大于0;
所述基因CNV突变数据为Masked Copy Number Segment类型,并通过gistic2软件整合,设置置信水平为0.9,同时以hg38作为参考基因组;
所述SNV突变数据通过mutect2软件计算获得。
进一步地,所述4种代谢途径为glycolysis、PPP、FAO和glutaminolysis。
进一步地,S3步中所述一致性聚类采用pam算法,euclidean作为度量距离,并进行了500次bootstraps过程,每个bootstraps过程均包括肿瘤样本总和的80%。
进一步地,S4步中所述一致性累积分布函数为CDF。
进一步地,S4步中所述若干最佳分类设定为2至10之间的任一整数。
进一步地,S6步中使用maftools包对所述SNV突变数据进行分析。
进一步地,S7步中使用卡方检验对所述临床表型数据进行分析。
进一步地,S8步中通过MCPcounter包的MCPcounter.estimate函数计算每个肝癌样本的细胞评分,并通过wilcox.test检验分析免疫特征的差异性。
本发明优点在于通过大数据分析技术构建原发性肝癌基因分类器,确定原发性肝癌的分子亚型,并分析原发性肝癌分子亚型的代谢途径表达差异、基因突变差异、临床表现差异和免疫差异,从而建立原发性肝癌预后分析模型,用于准确预测原发性肝癌的预后,并为揭示原发性肝癌能量代谢模式和肿瘤微环境提供研究基础。
附图说明
图1是本发明所述方法的流程图。
图2是本发明所述方法聚类结果的示意图。
图3是本发明所述方法中获得的肝癌两个亚型的示意图。
图4是本发明所述实施例中4种代谢途径对肝癌样本进行PCA分析结果图。
图5是本发明所述方法中基于TCGA数据集对4种代谢途径中若干最佳分类间基因表达的差异性对比示意图。
图6是本发明所述基于GSE数据集中对4种代谢途径中若干最佳分类间基因表达的差异性对比示意图。
图7是本发明所述方法中基于TCGA数据集对基因CNV突变数据的对比示意图。
图8是本发明所述所述方法中基于TCGA数据集的SNV突变最多的前15个基因的瀑布图。
图9是本发明所述方法中基于TCGA数据集的最佳分类间免疫特征的差异性对比示意图。
图10是本发明所述方法中基于GSE数据集的最佳分类间免疫特征的差异性对比示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明所述的基于原发性肝癌基因分类和肝癌组织能量代谢的预后分析方法,包括以下内容:
S1,获取肝癌样本的临床表型数据、表达谱数据、基因CNV(拷贝数变异数,copynumber variation)突变数据和SNV(single-nucleotide variant,单核苷酸变异)突变数据;
本实施例的肝癌样本数据从TCGA(The Cancer Genome Atlas, 癌症基因组图谱)数据库下载肝癌的临床表型数据,并去除缺少生存时间和生存状态的样本,保证所有患者生存时间大于0,最终得到360个肿瘤样本。
同时,本实施例还直接下载了TCGA数据库中的表达谱数据,以及TCGA数据库中关于肝癌的基因CNV突变数据,和TCGA数据库中通过mutect2(一种常用的基因突变检测软件)软件计算的基因SNV突变数据。
为了丰富肝癌样本,本实施例还从GEO(Gene Expression Omnibus, 由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库)下载了一套的芯片数据,去掉没有临床随访信息和总生存时间为0的样本,最终得到242个肿瘤样本和10501个基因。
本实施例通过分子特征数据库(MSigDB)下载4种代谢途径:glycolysis(糖酵解)、PPP(英文全称pentose phosphate pathway,磷酸戊糖途径)、FAO(英文全称fatty acidoxidation,脂肪酸氧化)和glutaminolysis(谷氨酰胺分解)相关的通路基因。
S2,使用GSVA(Gene Set Variation Analysis,被称为基因集变异分析,是一种非参数的无监督分析方法,主要用来评估芯片核转录组的基因集富集结果)包的ssGSEA方法,计算所述肿瘤样本的4种代谢途径样本评分;
S3,使用ConsensusClusterPlus(用于一致性聚类,根据基因表达量对样品进行分类)包对所述4种代谢途径样本评分进行一致性聚类;一致性聚类采用pam算法,euclidean(欧几里得)作为度量距离,并进行了500次bootstraps(再抽样方法)过程,每个bootstraps过程均包括肿瘤样本总和的80%。
S4,计算一致性矩阵和一致性累积分布函数CDF确定若干最佳分类;最佳分类数设定为2至10之间的任一整数。
本实施例通过一致性聚类(ConsensusClusterPlus)对从TCGA数据库中得到的360个肝癌样本进行聚类,并根据一致性累计分布函数CDF确定最佳聚类,观察 CDF Deltaarea (一致性累计分布函数曲线下面积的相对变化)曲线可以看出,最佳分类数选择为2时具有较为稳定的聚类结果,如图2中 A和B所示。由此,可以确定肝癌的两个亚型,如图3所示。
为了验证该分类结果的准确性,本申请发明人基于4种代谢途径对肝癌样本进行PCA(主成分分析,principal component analysis)分析,如图4中的A和B所示,该分析进一步支持肿瘤间代谢的异质性,并发现将肝癌分为两个亚型是最可靠的分类。由此验证本申请基于肝癌基因分类的方法的准确性和可信性。
S5,如图5中A、B、C所示,通过对比两个肝癌亚型的肿瘤样本的4种代谢途径基因的差异性,和绘制两个肝癌亚型的肿瘤样本的4种代谢途径样本评分热图,分析在4种代谢途径中所述若干最佳分类间基因表达的差异性; 本申请发明人发现在Glutaminolysis、FAO和PPP三个代谢途径的样本评分中,亚型C2评分高于亚型C1。该结论在GSE数据集中也得到了印证,如图6中A、B、C所示。
S6,分析若干最佳分类间所述基因CNV突变数据和所述SNV突变数据的差异性;通过gistic2(拷贝数变异的整合软件)软件整合从TCGA数据库中下载的关于肝癌的基因CNV(拷贝数变异数,copy number variation)突变数据,设置置信水平为0.9,同时以hg38作为参考基因组,进行分析,分析结果如图7所示,表明两个肝癌亚型的基因CNV突变存在一定的差异。同时使用maftools(突变注释格式(MAF)被广泛接受并用于存储检测到的体细胞变体。只要数据采用MAF格式,该软件包就会尝试从TCGA源或任何内部研究中有效地汇总,分析,注释和可视化MAF文件)包对SNV突变数据进行分析,如图8所示,绘制了两个肝癌亚型SNV突变最多的前15个基因的瀑布图。
S7,通过卡方检验分析若干最佳分类间所述临床表型数据的差异性;结果发现:在TCGA数据集中T分期,Stage、Grade分级在两个亚型之间存在显著性差异,在GSE数据集中Stage和年龄在两个亚型之间存在显著性差异。
S8,分析若干最佳分类间免疫特征的差异性;免疫特征主要是指T细胞,NK细胞,B细胞等10种主要的免疫细胞的丰度。
具体是通过MCPcounter(microenvironment cell populations-counter, 允许基于转录数据对肿瘤组织中八个免疫和两个非免疫基质细胞群的相对丰度进行量化)包的MCPcounter.estimate函数计算TCGA数据集中每个肝癌样本的细胞评分,并通过wilcox.test(非参数检验)检验分析两个肝癌亚型的免疫特征的差异性;发现两个肝癌亚型在T cell、CD8T cell等方面均存在显著性差异,如图9所示。结果表明亚型1中的 T 细胞、CD8T 细胞、细胞毒性淋巴细胞、B细胞谱系、单核细胞谱系和髓系树突细胞比亚型2更丰富,提示亚型1中有更高丰度的免疫细胞浸润。该结论在GSE数据集中也得到了印证,如图10所示。
S9,综合上述步骤的分类和差异性分析结果,建立原发性肝癌预后分析模型。
机译: 基于BASP1基因中甲基化胞嘧啶的时间检测肝癌,肝癌的风险,肝癌复发的风险,肝癌的恶性和肝癌的进展的方法
机译: 基于BASP1基因的甲基化胞嘧啶检测肝癌,肝癌风险,肝癌复发风险,肝癌恶性和肝癌发生时间进展的方法。
机译: 原发性肝癌的预后和随访方法