首页> 中国专利> 基于乳腺癌单细胞转录组测序分析的乳腺癌患者复发风险20基因预测模型

基于乳腺癌单细胞转录组测序分析的乳腺癌患者复发风险20基因预测模型

摘要

本发明涉及基因检测技术及生物医学领域,具体涉及到基于乳腺癌单细胞转录组测序分析的乳腺癌患者复发风险20基因预测模型及其建立方法和应用。所述模型由CEBPD、SERPINA1、CD24、ERRFI1、BCL3、DSTN、BTG2、SERTAD1、SPINT1、BAMBI、LIMCH1、NFIA、SKP1、DHRS7、ODF3B、KRT7、ZFP36、CEBPB、BHLHE40和UGDH 20个基因组成。本发明提供的乳腺癌患者复发风险20基因预测模型的为乳腺癌患者的长期预后提供更为准确的判断,为患者术后辅助治疗方案的选择提供依据,从而实现个体化的精准治疗,同时为乳腺癌肿瘤干细胞的研究提供新的研究视角。

著录项

  • 公开/公告号CN112481378A

    专利类型发明专利

  • 公开/公告日2021-03-12

    原文格式PDF

  • 申请/专利权人 中国医科大学附属盛京医院;

    申请/专利号CN202011372282.X

  • 发明设计人 刘彩刚;

    申请日2020-11-30

  • 分类号C12Q1/6886(20180101);G16B5/00(20190101);G16B30/00(20190101);G06F17/18(20060101);

  • 代理机构21107 沈阳亚泰专利商标代理有限公司;

  • 代理人马维骏

  • 地址 110004 辽宁省沈阳市和平区三好街36号

  • 入库时间 2023-06-19 10:13:22

说明书

技术领域

本发明涉及基因检测技术及生物医学领域,具体涉及到基于乳腺癌单细胞转录组测序分析的乳腺癌患者复发风险20基因预测模型及其建立方法和应用。

背景技术

乳腺癌是危害人类女性健康和生命的第一杀手,虽然术后存活率较高,但是术后多年的长期复发及转移现象在临床较为常见。目前,针对术后患者的进一步辅助治疗方案的确定仍缺乏足够的参考信息。尤其是独立于疾病的病理和分子分型,能够从乳腺癌肿瘤细胞根本性的普遍适用性角度出发的术后辅助治疗仍缺乏足够的提示信息和指标。现有的术后长期复发预测以及辅助治疗方案的选择方面仍是以患者的临床病理信息结合目前广泛应用的21基因模型,其应用仍具有一定局限性,比如21基因模型主要应用于管腔型乳腺癌,尤其是Luminal A型乳腺癌。因此,有必要从肿瘤细胞的本质性出发,从乳腺癌肿瘤休眠细胞的特性入手,寻找与肿瘤休眠相关因子,从肿瘤休眠角度建立与患者术后长期复发转移相关的风险模型,进而为患者长期预后提供精确的风险评估,为患者术后辅助治疗方案的选择提供更多的参考信息。

随着单细胞转录组测序技术的发展和应用,其对临床医学的发展产生了广泛深远的影响和意义。与传统的转录组测序技术相比,单细胞转录组测序技术在真正意义上实现了对单个细胞转录组表达情况的检测和分析,是未来转录组分析的主流技术。单细胞转录组测序技术对乳腺癌疾病研究的另一个重要价值在于疾病的异质性。肿瘤本身在基因的遗传和表达方面存在着明显的异质性,而乳腺癌的异质性更是在众多肿瘤类型中较为突出。因此,利用单细胞转录组测序技术可以在单细胞水平上对乳腺癌组织进行细胞亚群的分析,进而挖掘与休眠肿瘤细胞相关的休眠基因。因此,利用休眠相关基因建立的患者长期预后风险模型在乳腺癌的临床治疗中具有重要的应用研究价值。

发明内容

鉴于现有技术存在的问题,本发明的目的在于提供基基于乳腺癌单细胞转录组测序分析的乳腺癌患者复发风险20基因预测模型及其建立方法和应用。本发明利用10×Genmonics平台,通过对乳腺癌患者原位癌、转移淋巴结组织、癌旁组织和血液的单细胞转录组测序,通过降维和非监督聚类,结合经典基因的表达谱,获取了包含免疫细胞、间质细胞、上皮细胞等高分辨率的乳腺癌细胞图谱。并结合拷贝数变异(CNV)分析与上皮基因表达谱,共同定位出肿瘤细胞群体。通过细胞细分亚群和基因模块评分分析,发现肿瘤细胞可分为异质性的不同亚群,且其所处细胞时期各有不同,有的细胞群处于增殖期,有的细胞群偏静止期。通过两个不同时期的差异基因分析获取了相对静止时期细胞的265个特征基因,并建立了预后模型以预测乳腺癌预后。本发明提供多个休眠基因作为生物标记物,提高了对于预测乳腺癌预后的灵敏度和准确性,对乳腺癌患者不良预后风险进行准确的预测和评估,对高风险患者进行重点监测和有效干预,从而降低乳腺癌患者的死亡率、局部复发率,改善患者的预后。

为了实现上述目的,本发明采用以下技术方案。

一种乳腺癌预后标记物,所述预后乳腺癌标记物为CEBPD、SERPINA1、CD24、ERRFI1、BCL3、DSTN、BTG2、SERTAD1、SPINT1、BAMBI、LIMCH1、NFIA、SKP1、DHRS7、ODF3B、KRT7、ZFP36、CEBPB、BHLHE40和UGDH 20个基因组合。

进一步地,基于所述标记物的预后风险模型公式为:风险评分=

进一步地,所述乳腺癌预后标记物和基于所述标记物的预后风险模型公式的临床应用如下。

1)作为评估预后危险度的分子标记物的应用。

2)用于评估乳腺癌预后危险度。

一种预测乳腺癌预后的模型,含有主要与乳腺癌癌的预后有关的20个基因为:CEBPD、SERPINA1、CD24、ERRFI1、BCL3、DSTN、BTG2、SERTAD1、SPINT1、BAMBI、LIMCH1、NFIA、SKP1、DHRS7、ODF3B、KRT7、ZFP36、CEBPB、BHLHE40和UGDH 20。

进一步地,所述预测乳腺癌预后的模型的建立方法,具体包括以下步骤。

步骤1、下载TCGA数据库中乳腺癌患者临床样本的转录组测序数据以及相应的临床病理信息。

步骤2、借助于R语言中的“survival”R包,使用265个休眠基因以及TCGA的测序数据进行单因素COX回归分析,结果提示共有54个基因与患者的生存显著相关。

步骤3、再次利用R语言中的“survival”R包,对54个与患者生存相关的因子进行多因素COX逐步回归分析建模,最终建立由20个休眠相关因子组成的多因素回归模型。

步骤4、计算患者风险评分的公式如下:

本发明中,患者风险评分=(-0.168)*CEBPD+(-0.148)*SERPINA1+(0.133)*CD24+(-0.3)*ERRFI1+(-0.228)*BCL3+(0.311)*DSTN+(-0.301)*BTG2+(-0.231)*SERTAD1+(0.299)*SPINT1+(0.09)*BAMBI+(0.461)*LIMCH1+(-0.269)*NFIA+(0.852)*SKP1+(-0.313)*DHRS7+(0.319)*ODF3B+(0.087)*KRT7+(0.332)*ZFP36+(-0.278)*CEBPB+(-0.197)*BHLHE40+(-0.149)*UGDH。

与现有技术相比,本发明具有以下有益效果。

本发明利用单细胞转录组测序技术对来自乳腺癌患者的肿瘤样本进行处理和分析,建立预测患者长期预后的风险模型及其应用。所述模型由20个基因组成分别为:CEBPD、SERPINA1、CD24、ERRFI1、BCL3、DSTN、BTG2、SERTAD1、SPINT1、BAMBI、LIMCH1、NFIA、SKP1、DHRS7、ODF3B、KRT7、ZFP36、CEBPB、BHLHE40、UGDH。本发明为乳腺癌患者的长期预后提供更为准确的判断,为患者术后辅助治疗方案的选择提供依据,从而实现个体化的精准治疗,同时为乳腺癌肿瘤干细胞的研究提供新的研究视角。

附图说明

图1是模型对乳腺癌患者风险评分的生存分析。

图2是模型ROC曲线。

具体实施方式

下面结合附图和实施例详细描述本发明,以下所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

实施例利用休眠相关基因建立乳腺癌患者预后模型的方法及其应用。

一、休眠相关基因的获得。

利用10×Genmonics平台,通过对乳腺癌患者原位癌、转移淋巴结组织、癌旁组织和血液的单细胞转录组测序,通过降维和非监督聚类,结合经典基因的表达谱,获取了包含免疫细胞、间质细胞、上皮细胞等高分辨率的乳腺癌细胞图谱。并结合拷贝数变异(CNV)分析与上皮基因表达谱,共同定位出肿瘤细胞群体。通过细胞细分亚群和基因模块评分分析,发现肿瘤细胞可分为异质性的不同亚群,且其所处细胞时期各有不同,有的细胞群处于增殖期,有的细胞群偏静止期。通过两个不同时期的差异基因分析,获取了相对静止时期细胞的265个特征基因。

二、利用休眠相关基因建立乳腺癌患者预后模型的方法及其应用。

预测乳腺癌预后的模型的建立方法,具体包括以下步骤。

步骤1、下载TCGA数据库中乳腺癌患者临床样本的转录组测序数据以及相应的临床病理信息。

步骤2、借助于R语言中的“survival”R包,使用265个休眠基因以及TCGA的测序数据进行单因素COX回归分析,结果提示共有54个基因与患者的生存显著相关(P<0.05),见表1。

步骤3、再次利用R语言中的“survival”R包,对54个与患者生存相关的因子进行多因素COX逐步回归分析建模,最终建立由20个休眠相关因子组成的多因素回归模型,见表2。

步骤4、计算患者风险评分的公式如下:

患者风险评分=(-0.168)*CEBPD+(-0.148)*SERPINA1+(0.133)*CD24+(-0.3)*ERRFI1+(-0.228)*BCL3+(0.311)*DSTN+(-0.301)*BTG2+(-0.231)*SERTAD1+(0.299)*SPINT1+(0.09)*BAMBI+(0.461)*LIMCH1+(-0.269)*NFIA+(0.852)*SKP1+(-0.313)*DHRS7+(0.319)*ODF3B+(0.087)*KRT7+(0.332)*ZFP36+(-0.278)*CEBPB+(-0.197)*BHLHE40+(-0.149)*UGDH。

利用模型对患者的风险评分进行生存分析:在利用模型对TCGA中乳腺癌患者进行风险评估,在得到患者的风险评分后,利用R语言中的“survival”包进行生存分析,结果如图1所示,经模型评分高风险组的患者其中位生存时间明显低于低风险患者。

模型的效能分析:利用R语言的“timeROC”R包绘制模型对不同预后时间的工作特性曲线(ROC),同时计算各个曲线的曲线下面积(AUC)。由结果可知,模型对患者的长期预后具有显著的准确性,如图2所示。

表1. 154个与患者生存显著相关的基因。

表2. 20个因子组成的多因素回归模型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号