首页> 中国专利> 乳腺癌剪接变体

乳腺癌剪接变体

摘要

在一些实施方式中,本文提供了用于鉴定可用于生存预后的可变剪接的肿瘤特异性外显子包含和排除事件的方法、组合物和系统。

著录项

  • 公开/公告号CN112534070A

    专利类型发明专利

  • 公开/公告日2021-03-19

    原文格式PDF

  • 申请/专利权人 杰克逊实验室;

    申请/专利号CN201980052462.9

  • 申请日2019-06-28

  • 分类号C12Q1/6886(20180101);C12N15/11(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人陈文平;徐志明

  • 地址 美国缅因州

  • 入库时间 2023-06-19 10:18:07

说明书

本申请根据35 U.S.C.§119(e)要求于2018年6月29日提交的美国临时申请号62/692,121和2019年3月14日提交的美国临时申请号62/818,582的优先权,其中每一个的全部内容通过引用并入本文。

乳腺癌生存率表明,在患者被诊断后的一定时间(例如5年),仍有一些部分患有相同类型和相同阶段的乳腺癌患者还活着。然而,乳腺癌的广泛异质性使对预后的精确评估复杂化,从而使治疗决策变得困难并且在某些情况下治疗不合适。

在某些方面,本文提供了一种分子谱分析平台,该分子谱分析平台可用于例如鉴定乳腺癌特有的外显子剪接事件(例如,外显子包含或外显子排除)并可用于生存预后。可变剪接是一种增加蛋白质多样性的生物学现象。在一种称为“外显子跳跃”的可变剪接类型中,外显子根据细胞条件从转录本剪接出来或者不剪接出来而保留在转录本中并被“跳过”。外显子跳跃事件由RNA结合蛋白(RPB)和剪接体复合体调节。用于评估外显子跳跃程度的常用量度是剪接入百分比(percent spliced in)(PSI或ψ),它表示包含特定外显子或剪接位点的转录本的百分比。

用于分析癌症组织样品的现有方法单独分析了一组正常样品(非癌样品)和一组癌症样品(已知为癌性的样品)以产生两个分布。将分析两个分布的非重叠部分中的数据以评估两组样品之间的差异。由于生物学数据的异质性,在可能因患癌症以外的原因发生可变剪接的情况下(例如,非癌性(正常)健康患者可自然发生外显子跳跃),传统的“双分布”方法不太适用于识别可预测癌症的外显子跳跃事件。

在一些方面,本公开提供了组合针对正常和癌症组织样品确定的分析(例如,PSI值)并且使用概率模型(GMM)来分析组合的输入以识别总人口中的亚群(簇)的方法,其可以被进一步分析以评估它们是否具有癌症特异性。本文所述的某些数据是基于对来自癌症基因组图谱(The Cancer Genome Atlas,TCGA)的约9300例正常和肿瘤样品的分析,其识别了约67,000个外显子跳跃事件。从该数据中,鉴定乳腺癌特异性的外显子剪接事件(例如,外显子包含或外显子排除)的子集。

在一些方面,本公开提供了一种方法,该方法包括测定样品的核酸中靶外显子的存在或不存在,该靶外显子包含SEQ ID NO:22-24、26-36、38-40、73-75、77-79、82-100、102-104中任一个的核苷酸序列。在一些实施方式中,靶外显子包含SEQ ID NO:27、98、102或104中任一个的核苷酸序列。

在其他方面,本公开提供了一种方法,该方法包括测定样品的核酸中至少2个靶外显子的存在或不存在,其中每一个靶外显子包含SEQ ID NO:23、27、35、85、88、89、98、101、102或104中任一个的核苷酸序列。在一些实施方式中,每一个靶外显子包含SEQ ID NO:27、98、101、102或104中任一个的核苷酸序列。

在再其他方面,本公开提供了一种方法,该方法包括测定样品的核酸中至少3个靶外显子的存在或不存在,其中每一个靶外显子包含SEQ ID NO:21、23、27、30、31、32、35、36、39、85、87-89、91、94、98或101-104中任一个的核苷酸序列。

在再进一步的方面,本公开提供了一种方法,该方法包括测定样品的核酸中至少8个不同的靶外显子的存在或不存在,其中每一个靶外显子包含SEQ ID NO:21-40或73-104中任一个的核苷酸序列。

在一些实施方式中,样品是乳腺组织样品。例如,样品可获自怀疑患有乳腺癌、处于患乳腺癌的风险中或诊断患有乳腺癌的受试者。在一些实施方式中,所述受试者是女性受试者。

在一些实施方式中,所述核酸包含信使核糖核酸(mRNA)或从获自所述样品的mRNA合成的互补脱氧核糖核酸(cDNA)。

在一些实施方式中,所述方法进一步包括检测包含SEQ ID NO:24、28、31、33和/或38中任一个的核苷酸序列的靶外显子的存在,或者包含SEQ ID NO:82、87和/或91中任一个的核苷酸序列的靶外显子的不存在,并为该样品指定良好的生存预后。在一些实施方式中,所述方法进一步包括检测包含SEQ ID NO:21-23、25-27、29、30、32和/或34-40中任一个的核苷酸序列的靶外显子的存在,或者包含SEQ ID NO:73-81、83-86、88-90和/或92-104中任一个的核苷酸序列的靶外显子的不存在,并为该样品指定不良的生存预后。

本文还提供了互补的脱氧核糖核酸(cDNA),其包含SEQ ID NO:1-20或105-136中任一个的核苷酸序列。在一些实施方式中,cDNA包含SEQ ID NO:22-24、27-34、36、38或40中任一个的核苷酸序列。本文也考虑了其中包含cDNA的组合物。在一些实施方式中,该组合物还包含结合所述cDNA的探针或引物对。本公开的一些组合物包含(a)信使核糖核酸(mRNA),所述信使核糖核酸(mRNA)包含SEQ ID NO:1-20或105-136中任一个的核苷酸序列,以及(b)探针或引物对,其结合SEQ ID NO:1-20或105-136中任一个的核苷酸序列。在一些实施方式中,探针或引物对包含可检测标记。

本文还提供了试剂盒,其包含可以检测包含SEQ ID NO:22-24、26-36、38-40、73-75、77-79、82-100、102-104中任一个的核苷酸序列的靶外显子的存在或不存在的分子,以及选自缓冲剂、盐类、聚合酶和脱氧核糖核苷三磷酸(dNTP)的检测试剂。在一些实施方式中,分子包含结合包含SEQ ID NO:22-24、26-36、38-40、73-75、77-79、82-100、102-104中任一个的核苷酸序列的核酸的探针或引物。

本文还提供了试剂盒,其包含(a)可检测至少2个靶外显子的存在或不存在的分子,其中每一个靶外显子包含SEQ ID NO:23、27、35、85、88、89、98、101、102或104中任一个的核苷酸序列,(b)可以检测至少3个靶外显子的存在或不存在的分子,其中每一个靶外显子包含SEQ ID NO:21、23、27、30、31、32、35、36、39、85、87-89、91、94、98或101-104中任一个的核苷酸序列,或(c)可以检测至少8个不同靶外显子的存在或不存在的分子,其中每一个靶外显子包含SEQ ID NO:21-40或73-104中任一个的核苷酸序列,以及选自缓冲剂、盐类、聚合酶和脱氧核糖核苷三磷酸(dNTP)的检测试剂。在一些实施方式中,所述探针和/或引物中的至少一个包含可检测标记。

图1A:与正常组织相比时,可变剪接导致癌症患者中的靶外显子包含或外显子排除。图1B:TCGA患者中外显子剪接事件(例如,外显子包含和外显子排除)的频率。使用新颖的高斯混合建模(Gaussian mixture modeling,GMM)聚类方法总共检测出乳腺癌特异性且与生存相关的20个外显子包含事件和32个外显子排除事件。该表表明在TCGA(列)中的824名乳腺癌患者中存在或不存在52个外显子剪接事件(行)。外显子剪接事件按频率排序。分别显示了不良和良好的预后。

图2A:具有生存信息的TCGA群组(n=824,以上)中52-外显子剪接事件列表的检测频率(%)。图2B:使用52-外显子剪接生物标志物组在患者中检测的外显子剪接生物标志物的类型。

图3A:针对剪接事件1446(CCDC115基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内外显子剪接入百分比(PSI,ψ)水平,和y轴表示标准化强度标度的样品数。阴影表示每一个样品的簇分配。图3B:针对剪接事件1446(CCDC115基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇4主要由乳腺癌样品组成。图3C:肿瘤特异性簇C4和TCGA中的正常组织的外显子水平(PSI)。该分析表明靶外显子(在本文中也称为“可变外显子”)在簇C4中的97名乳腺癌患者中表达,而在正常组织中非常低或不存在。图3D:簇C4中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C4中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图4A:针对剪接事件13343(ENAH基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图4B:针对剪接事件13343(ENAH基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇3主要由乳腺癌样品组成。图4C:肿瘤特异性簇C3和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C3中的41名乳腺癌患者中表达,而在正常组织中非常低或不存在。图4D:簇C3中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C3中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图5A:针对剪接事件15088(POLI基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图5B:针对剪接事件15088(POLI基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇3主要由乳腺癌样品组成。图5C:肿瘤特异性簇C3和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C3中的100名乳腺癌患者中表达,而在正常组织中非常低或不存在。图5D:簇C3中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C3中的患者(表达该外显子)具有较差的总体生存率(较短的生存时间,天数)。

图6A:针对剪接事件16864(PLXNB1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图6B:针对剪接事件16864(PLXNB1基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇4主要由乳腺癌样品组成。图6C:肿瘤特异性簇C4和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C4中的74名乳腺癌患者中表达,而在正常组织中非常低或不存在。图6D:簇C4中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C4中的患者(表达该靶外显子)具有较好的总体生存率(更长的生存时间,天数)。

图7A:针对剪接事件21181(SH3GLB1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图7B:针对剪接事件21181(SH3GLB1基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇4主要由乳腺癌样品组成。图7C:肿瘤特异性簇C4和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C4中的57名乳腺癌患者中表达,而在正常组织中非常低或不存在。图7D:簇C4中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C4中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图8A:针对剪接事件34793(TCF25基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图8B:针对剪接事件34793(TCF25基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇4主要由乳腺癌样品组成。图8C:肿瘤特异性簇C4和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C4中的32名乳腺癌患者中表达,而在正常组织中非常低或不存在。图8D:簇C4中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C4中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图9A:针对剪接事件42420(PRR5-ARHGAP8基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图9B:针对剪接事件42420(PRR5-ARHGAP8基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇3主要由乳腺癌样品组成。图9C:肿瘤特异性簇C3和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C3中的265名乳腺癌患者中表达,而在正常组织中非常低或不存在。图9D:簇C3中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C3中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图10A:针对剪接事件4322(WDR45B基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度内的样品数。阴影表示每一个样品的簇分配。图10B:针对剪接事件4322(WDR45B基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇4主要由乳腺癌样品组成。图10C:肿瘤特异性簇C4和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C4中的39名乳腺癌患者中表达,而在正常组织中非常低或不存在。图10D:簇C4中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C4中的患者(表达该靶外显子)具有更好的总体生存率(更长的生存时间,天数)。

图11A:针对剪接事件44438(VPS29基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图11B:针对剪接事件44438(VPS29基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇4主要由乳腺癌样品组成。图11C:肿瘤特异性簇C4和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C4中的54名乳腺癌患者中表达,而在正常组织中非常低或不存在。图11D:簇C4中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C4中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图12A:针对剪接事件48175(E4F1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图12B:针对剪接事件48175(E4F1基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇3主要由乳腺癌样品组成。图12C:肿瘤特异性簇C3和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C3中的60名乳腺癌患者中表达,而在正常组织中非常低或不存在。图12D:簇C3中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C3中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图13A:针对剪接事件49765(TEN1-CDK3基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图13B:针对剪接事件49765(TEN1-CDK3基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇4主要由乳腺癌样品组成。图13C:肿瘤特异性簇C4和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C4中的58名乳腺癌患者中表达,而在正常组织中非常低或不存在。图13D:簇C4中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C4中的患者(表达该靶外显子)具有更好的总体生存率(更长的生存时间,天数)。

图14A:针对剪接事件5134(PLEKHA6基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图14B:针对剪接事件5134(PLEKHA6基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇4主要由乳腺癌样品组成。图14C:肿瘤特异性簇C4和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C4中的70名乳腺癌患者中表达,而在正常组织中非常低或不存在。图14D:簇C4中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C4中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图15A:针对剪接事件56552(GNAZ基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图15B:针对剪接事件56552(GNAZ基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇4主要由乳腺癌样品组成。图15C:肿瘤特异性簇C4和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C4中的33名乳腺癌患者中表达,而在正常组织中非常低或不存在。图15D:簇C4中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C4中的患者(表达该靶外显子)具有更好的总体生存率(更长的生存时间,天数)。

图16A:针对剪接事件5696(TTC3基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图16B:针对剪接事件5696(TTC3基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇3主要由乳腺癌样品组成。图16C:肿瘤特异性簇C3和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C3中的31名乳腺癌患者中表达,而在正常组织中非常低或不存在。图16D:簇C3中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C3中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图17A:针对剪接事件57139(RNF8基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示2个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图17B:针对剪接事件57139(RNF8基因)识别的2个簇中的肿瘤和正常样品的频率(%)。簇2主要由乳腺癌样品组成。图17C:肿瘤特异性簇C2和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C2中的80名乳腺癌患者中表达,而在正常组织中非常低或不存在。图17D:簇C2中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C2中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图18A:针对剪接事件57874(ZDHHC13基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示2个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图18B:针对剪接事件57874(ZDHHC13基因)识别的2个簇中的肿瘤和正常样品的频率(%)。簇2主要由乳腺癌样品组成。图18C:肿瘤特异性簇C2和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C2中的58名乳腺癌患者中表达,而在正常组织中非常低或不存在。图18D:簇C2中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C2中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图19A:针对剪接事件60615(SH3GLB2基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示2个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图19B:针对剪接事件60615(SH3GLB2基因)识别的2个簇中的肿瘤和正常样品的频率(%)。簇2主要由乳腺癌样品组成。图19C:肿瘤特异性簇C2和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C2中的37名乳腺癌患者中表达,而在正常组织中非常低或不存在。图19D:簇C2中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C2中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图20A:针对剪接事件62560(ITFG1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图20B:针对剪接事件62560(ITFG1基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇4主要由乳腺癌样品组成。图20C:肿瘤特异性簇C4和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C4中的53名乳腺癌患者中表达,而在正常组织中非常低或不存在。图20D:簇C4中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C4中的患者(表达该靶外显子)具有更好的总体生存率(更长的生存时间,天数)。

图21A:针对剪接事件6785(SPATS2基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示2个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图21B:针对剪接事件6785(SPATS2基因)识别的2个簇中的肿瘤和正常样品的频率(%)。簇2主要由乳腺癌样品组成。图21C:肿瘤特异性簇C2和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C2中的77名乳腺癌患者中表达,而在正常组织中非常低或不存在。图21D:簇C2中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C2中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图22A:针对剪接事件8742(DHRS11基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子PSI(ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图22B:针对剪接事件8742(DHRS11基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇3主要由乳腺癌样品组成。图22C:肿瘤特异性簇C3和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C3中的44名乳腺癌患者中表达,而在正常组织中非常低或不存在。图22D:簇C3中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C3中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图23A:针对剪接事件1506(CENPK基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图23B:针对剪接事件1506(CENPK基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇1-4主要由乳腺癌样品组成。图23C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1中的37名乳腺癌患者中表达,而在正常组织中非常低或不存在。图23D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图24A:针对剪接事件2098(METTL5基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图24B:针对剪接事件2098(METTL5基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图24C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的38名乳腺癌患者中表达,而在正常组织中非常低或不存在。图24D:簇C1中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图25A:针对剪接事件2242(PLA2R1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图25B:针对剪接事件2242(PLA2R1基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图25C:肿瘤特异性簇C1和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的45名乳腺癌患者中表达,而在正常组织中非常低或不存在。图25D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图26A:针对剪接事件7106(RHOH基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图26B:针对剪接事件7106(RHOH基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图26C:肿瘤特异性簇C1和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的48名乳腺癌患者中表达,而在正常组织中非常低或不存在。图26D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图27A:针对剪接事件7108(RHOH基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图27B:针对剪接事件7108(RHOH基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图27C:肿瘤特异性簇C1和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的44名乳腺癌患者中表达,而在正常组织中非常低或不存在。图27D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图28A:针对剪接事件9442(QPRT基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图28B:针对剪接事件9442(QPRT基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-2主要由乳腺癌样品组成。图28C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的40名乳腺癌患者中表达,而在正常组织中非常低或不存在。图28D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图29A:针对剪接事件10439(IL17RB基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示2个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化强度标度中的样品数。阴影表示每一个样品的簇分配。图29B:针对剪接事件10439(IL17RB基因)识别的2个簇中的肿瘤和正常样品的频率(%)。簇1-2主要由乳腺癌样品组成。图29C:肿瘤特异性簇C1和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的53名乳腺癌患者中表达,而在正常组织中非常低或不存在。图29D:簇C1中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图30A:针对剪接事件11685(STAU1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示2个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图30B:针对剪接事件11685(STAU1基因)识别的2个簇中的肿瘤和正常样品的频率(%)。簇1-2主要由乳腺癌样品组成。图30C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1中的37名乳腺癌患者中表达,而在正常组织中非常低或不存在。图30D:簇C1中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图31A:针对剪接事件13451(LYRM1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图31B:针对剪接事件13451(LYRM1基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图31C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的34名乳腺癌患者中表达,而在正常组织中非常低或不存在。图31D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图32A:针对剪接事件14574(PPARG基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图32B:针对剪接事件14574(PPARG基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图32C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的33名乳腺癌患者中表达,而在正常组织中非常低或不存在。图32D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有更好的总体生存率(更长的生存时间,天数)。

图33A:针对剪接事件16269(BORCS8-MEF2B基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图33B:针对剪接事件16269(BORCS8-MEF2B基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图33C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的43名乳腺癌患者中表达,而在正常组织中非常低或不存在。图33D:簇C1中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图34A:针对剪接事件16833(ENOSF1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图34B:针对剪接事件16833(ENOSF1基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图34C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的46名乳腺癌患者中表达,而在正常组织中非常低或不存在。图34D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图35A:针对剪接事件16929(DHRS4-AS1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图35B:针对剪接事件16929(DHRS4-AS1基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-2主要由乳腺癌样品组成。图35C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的83名乳腺癌患者中表达,而在正常组织中非常低或不存在。图35D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图36A:针对剪接事件16943(NDUFV2基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图36B:针对剪接事件16943(NDUFV2基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇1-4主要由乳腺癌样品组成。图36C:肿瘤特异性簇C3和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C3的58名乳腺癌患者中表达,而在除膀胱之外的正常组织中非常低或不存在。图36D:簇C3中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C3中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图37A:针对剪接事件18745(FER1L4基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图37B:针对剪接事件18745(FER1L4基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇1-4主要由乳腺癌样品组成。图37C:肿瘤特异性簇C2和TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C2的89名乳腺癌患者中表达,而在正常组织中非常低或不存在。图37D:簇C2中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C2中的患者(表达该靶外显子)具有更好的总体生存率(更长的生存时间,天数)。

图38A:针对剪接事件19824(PHF14基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示2个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图38B:针对剪接事件19824(PHF14基因)识别的2个簇中的肿瘤和正常样品的频率(%)。簇1-2主要由乳腺癌样品组成。图38C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的111名乳腺癌患者中表达,而在正常组织中非常低或不存在。图38D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图39A:针对剪接事件19828(PHF14基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示2个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图39B:针对剪接事件19828(PHF14基因)识别的2个簇中的肿瘤和正常样品的频率(%)。簇1-2主要由乳腺癌样品组成。图39C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的111名乳腺癌患者中表达,而在正常组织中非常低或不存在。图39D:簇C1中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图40A:针对剪接事件21024(BCL2L13基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图40B:针对剪接事件21024(BCL2L13基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇1-4主要由乳腺癌样品组成。图40C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的35名乳腺癌患者中表达,而在正常组织中非常低或不存在。图40D:簇C1中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图41A:针对剪接事件22227(SELENBP1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示2个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图41B:针对剪接事件22227(SELENBP1基因)识别的2个簇中的肿瘤和正常样品的频率(%)。簇1-2主要由乳腺癌样品组成。图41C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的86名乳腺癌患者中表达,而在正常组织中非常低或不存在。图41D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有更好的总体生存率(更长的生存时间,天数)。

图42A:针对剪接事件24742(LINC00630基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图42B:针对剪接事件24742(LINC00630基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图42C:肿瘤特异性簇C2和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C2的38名乳腺癌患者中表达,而在除子宫外的正常组织中非常低或不存在。图42D:簇C2中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C2中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图43A:针对剪接事件27194(CTBP2基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图43B:针对剪接事件27194(CTBP2基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图43C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的33名乳腺癌患者中表达,而在正常组织中非常低或不存在。图43D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图44A:针对剪接事件30244(SLC52A2基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图44B:针对剪接事件30244(SLC52A2基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图44C:肿瘤特异性簇C3和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C3的310名乳腺癌患者中表达,而在正常组织中非常低或不存在。图44D:簇C3中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C3中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图45A:针对剪接事件33377(SLC38A1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图45B:针对剪接事件33377(SLC38A1基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图45C:肿瘤特异性簇C2和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C2的52名乳腺癌患者中表达,而在除胃之外的正常组织中非常低或不存在。图45D:簇C2中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C2中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图46A:针对剪接事件40521(FAM65A基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图46B:针对剪接事件40521(FAM65A基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图46C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的32名乳腺癌患者中表达,而在正常组织中非常低或不存在。图46D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图47A:针对剪接事件41168(USP25基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图47B:针对剪接事件41168(USP25基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图47C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的31名乳腺癌患者中表达,而在正常组织中非常低或不存在。图47D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图48A:针对剪接事件45885(HMOX2基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图48B:针对剪接事件45885(HMOX2基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图48C:肿瘤特异性簇C2和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C2的151名乳腺癌患者中表达,而在正常组织中非常低或不存在。图48D:簇C2中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C2中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图49A:针对剪接事件50148(MKRN2OS基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图49B:针对剪接事件50148(MKRN2OS基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇1-4主要由乳腺癌样品组成。图49C:肿瘤特异性簇C2和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C2的40名乳腺癌患者中表达,而在正常组织中非常低或不存在。图49D:簇C2中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C2中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图50A:针对剪接事件52249(ATP8A2P1基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示2个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图50B:针对剪接事件52249(ATP8A2P1基因)识别的2个簇中的肿瘤和正常样品的频率(%)。簇1-2主要由乳腺癌样品组成。图50C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的33名乳腺癌患者中表达,而在正常组织中非常低或不存在。图50D:簇C1中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图51A:针对剪接事件53188(HIBCH基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图51B:针对剪接事件53188(HIBCH基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图51C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的129名乳腺癌患者中表达,而在正常组织中非常低或不存在。图51D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图52A:针对剪接事件58853(SLC35C2基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图52B:针对剪接事件58853(SLC35C2基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图52C:肿瘤特异性簇C1和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C1的40名乳腺癌患者中表达,而在正常组织中非常低或不存在。图52D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图53A:针对剪接事件59314(TRIM5基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示3个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图53B:针对剪接事件59314(TRIM5基因)识别的3个簇中的肿瘤和正常样品的频率(%)。簇1-3主要由乳腺癌样品组成。图53C:肿瘤特异性簇C2和TCGA中正常组织的外显子剪接水平(PSI)。该分析表明靶外显子在簇C2的61名乳腺癌患者中表达,而在正常组织中非常低或不存在。图53D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

图54A:针对剪接事件60239(HSD17B6基因)的混合正常和乳腺癌样品的GMM分析。GMM分析显示了4个不同的簇(亚群)。x轴表示样品内的外显子剪接入百分比(PSI,ψ)水平,y轴表示标准化密度标度中的样品数。阴影表示每一个样品的簇分配。图54B:针对剪接事件60239(HSD17B6基因)识别的4个簇中的肿瘤和正常样品的频率(%)。簇1-4主要由乳腺癌样品组成。图54C:肿瘤特异性簇C2和C3以及TCGA中的正常组织的外显子剪接水平(PSI)。该分析表明,靶外显子在簇C2的130名乳腺癌患者和簇C3的214名乳腺癌患者中表达,而在除乳腺外的正常组织中非常低或不存在。图54D:簇C1中乳腺癌患者与TCGA中其余乳腺癌患者的生存分析。该分析表明,C1中的患者(表达该靶外显子)具有较差的总体生存率(较短的生存时间,天数)。

可变剪接是真核生物中生物多样性的关键机制,因为它允许从单个基因转录和翻译多个mRNA亚型(isoform)。人类基因组包含超过20,000个基因;然而,超过95%的多外显子pre-mRNA被可变剪接以产生近200,000个亚型。翻译成蛋白质的可变剪接亚型可以具有显著不同的或甚至相反的功能。可变剪接涉及广泛的生物学过程,包括免疫细胞成熟和加工。

检查癌症转录组的研究能够提供对癌细胞异质性的前所未有的见解,并产生了新颖的分类。该进展尚未完全转化为临床益处。亚型以及可变剪接的改变与多种疾病有关,并且可以通过调节致癌基因和肿瘤抑癌基因的表达而造成癌症恶性。由于剪接位点或剪接调节元件处的突变,异常的可变剪接谱可在癌症中出现,但也可能反映剪接调节子的变化。在髓性白血病中以及在肺癌和乳腺癌的偶发性突变中发现了核心剪接机制中的复发性突变,从而表明选择性改变在肿瘤发生中起关键作用。可变剪接的改变导致在肿瘤中产生新的亚型的库,这些新亚型与融合分子一起可以被视为另一类新抗原。

在某些方面,本文提供了包括测定样品中包含或排除特定外显子的特定癌症亚型的方法,所述特定癌症同工型。在一些实施方式中,测定样品的多个如本文所提供的外显子包含或外显子排除亚型。由本公开提供的数据证明,在~91%的所有测试的乳腺癌样品中可以检测到五十二个不同的外显子包含或外显子排除亚型中的至少一个。

检测方法

本公开的一些方面包括测定样品中包含SEQ ID NO:21-40和105-136中任一个的核苷酸序列(例如,外显子)的核酸(例如,外显子包含事件或外显子排除事件)(的存在或不存在)。应当理解的是,短语“测定样品中包含SEQ ID NO:X的核苷酸序列的核酸”涵盖了测定样品中包含由SEQ ID NO:X识别的全长核苷酸序列(SEQ ID NO:X的所有核苷酸)的核酸的存在或不存在;并且该短语还包括测定样品中包含由SEQ ID NO:X识别的核苷酸序列的片段的核酸的存在或不存在。该片段的长度不受限制,并可以是例如,至少50、至少60、至少70、至少80、至少90或至少100个核苷酸。

在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:21的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:22的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:23的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:24的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:25的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:26的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:27的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:28的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:29的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:30的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:31的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:32的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:33的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:34的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:35的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:36的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:37的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:38的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:39的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:40的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:105的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:106的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:107的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:108的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:109的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:110的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:111的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:112的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:113的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:114的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:115的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:116的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:117的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:118的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:119的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:120的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:121的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:122的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:123的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:124的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:125的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:126的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:127的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:128的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:129的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:130的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:131的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:132的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:133的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:134的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:135的核苷酸序列的核酸。在一些实施方式中,所述方法包括测定样品中包含SEQ ID NO:136的核苷酸序列的核酸。

在一些实施方式中,本公开的方法包括测定样品中(至少一种)包含SEQ ID NO:22-24、27-34、36、38或40中任一个的核苷酸序列的核酸。在一些实施方式中,该方法进一步包括测定样品中包含SEQ ID NO:21、25、26、35、37或39中任一个的核苷酸序列的核酸。

在一些实施方式中,本公开的方法包括测定样品中包含SEQ ID NO:21的核苷酸序列的核酸、包含SEQ ID NO:22的核苷酸序列的核酸、包含SEQ ID NO:23的核苷酸序列的核酸、包含SEQ ID NO:24的核苷酸序列的核酸、包含SEQ ID NO:25的核苷酸序列的核酸、包含SEQ ID NO:26的核苷酸序列的核酸、包含SEQ ID NO:27的核苷酸序列的核酸、包含SEQ IDNO:28的核苷酸序列的核酸、包含SEQ ID NO:29的核苷酸序列的核酸、包含SEQ ID NO:30的核苷酸序列的核酸、包含SEQ ID NO:31的核苷酸序列的核酸、包含SEQ ID NO:32的核苷酸序列的核酸、包含SEQ ID NO:33的核苷酸序列的核酸、包含SEQ ID NO:34的核苷酸序列的核酸、包含SEQ ID NO:35的核苷酸序列的核酸、包含SEQ ID NO:36的核苷酸序列的核酸、包含SEQ ID NO:37的核苷酸序列的核酸、包含SEQ ID NO:38的核苷酸序列的核酸、包含SEQID NO:39的核苷酸序列的核酸、包含SEQ ID NO:40的核苷酸序列的核酸、包含SEQ ID NO:105的核苷酸序列的核酸、包含SEQ ID NO:106的核苷酸序列的核酸、包含SEQ ID NO:107的核苷酸序列的核酸、包含SEQ ID NO:108的核苷酸序列的核酸、包含SEQ ID NO:109的核苷酸序列的核酸、包含SEQ ID NO:110的核苷酸序列的核酸、包含SEQ ID NO:111的核苷酸序列的核酸、包含SEQ ID NO:112的核苷酸序列的核酸、包含SEQ ID NO:113的核苷酸序列的核酸、包含SEQ ID NO:114的核苷酸序列的核酸、包含SEQ ID NO:115的核苷酸序列的核酸、包含SEQ ID NO:116的核苷酸序列的核酸、包含SEQ ID NO:117的核苷酸序列的核酸、包含SEQ ID NO:118的核苷酸序列的核酸、包含SEQ ID NO:119的核苷酸序列的核酸、包含SEQID NO:120的核苷酸序列的核酸、包含SEQ ID NO:121的核苷酸序列的核酸、包含SEQ IDNO:122的核苷酸序列的核酸、包含SEQ ID NO:123的核苷酸序列的核酸、包含SEQ ID NO:124的核苷酸序列的核酸、包含SEQ ID NO:125的核苷酸序列的核酸、包含SEQ ID NO:126的核苷酸序列的核酸、包含SEQ ID NO:127的核苷酸序列的核酸、包含SEQ ID NO:128的核苷酸序列的核酸、包含SEQ ID NO:129的核苷酸序列的核酸、包含SEQ ID NO:130的核苷酸序列的核酸、包含SEQ ID NO:131的核苷酸序列的核酸、包含SEQ ID NO:132的核苷酸序列的核酸、包含SEQ ID NO:133的核苷酸序列的核酸、包含SEQ ID NO:134的核苷酸序列的核酸、包含SEQ ID NO:135的核苷酸序列的核酸、包含SEQ ID NO:136的核苷酸序列的核酸。

在一些实施方式中,本公开的方法包括测定样品中52个外显子(选自包含SEQ IDNO:21-40和105-136中任一个的核苷酸序列的外显子)中的2个(或至少2个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的3个(或至少3个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的4个(或至少4个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的5个(或至少5个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的6个(或至少7个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的7个(或至少7个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的8个(或至少8个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的9个(或至少9个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的10个(或至少10个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的11个(或至少11个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的12个(或至少12个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的13个(或至少13个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的14个(或至少14个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的15个(或至少15个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的16个(或至少16个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的17个(或至少17个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的18个(或至少18个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的19个(或至少19个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的20个(或至少20个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的21个(或至少21个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的22个(或至少22个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的23个(或至少23个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的24个(或至少24个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的25个(或至少25个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的26个(或至少26个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的27个(或至少27个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的28个(或至少28个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的29个(或至少29个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的30个(或至少30个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的31个(或至少31个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的32个(或至少32个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的33个(或至少33个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的34个(或至少34个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的35个(或至少35个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的36个(或至少36个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的37个(或至少37个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的38个(或至少38个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的39个(或至少39个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的40个(或至少40个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的41个(或至少41个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的42个(或至少42个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的43个(或至少43个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的44个(或至少44个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的45个(或至少45个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的46个(或至少46个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的47个(或至少47个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的48个(或至少48个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的49个(或至少49个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的50个(或至少50个)。在一些实施方式中,本公开的方法包括测定样品中52个外显子中的51个(或至少51个)。在一些实施方式中,本公开的方法包含分析样品中的52个外显子。

应当理解,方法“包括测定样品中五十二(52)个外显子剪接亚型(例如,外显子包含或外显子排除),每一个包含SEQ ID NO:21-40和105-136的不同核苷酸序列”是包括测定表1、表2和表3中提供的所有52个亚型的方法。

并非每个样品具有超过一个本公开的外显子剪接亚型(例如,外显子包含或外显子排除)。在许多实施方式中,在样品中检测到本公开的外显子剪接亚型中的仅一个。然而,可以测定样品中52个外显子剪接亚型中的一个或多个(例如1至52个)。例如,单个样品可以包括仅包含SEQ ID NO:1或SEQ ID NO:21的序列的外显子剪接亚型。可以测定表1、表2和表3的外显子剪接亚型的全部52个或52个的子集(少于52个)以检测包含SEQ ID NO:1或SEQID NO:21的序列的外显子剪接亚型。

还应理解,“测定外显子剪接亚型(例如,外显子包含或外显子排除)”或“测定核酸”的步骤包括测定包含外显子剪接亚型的mRNA或测定包含外显子剪接亚型的互补DNA(cDNA)(例如,包含SEQ ID NO:21-40和105-136中任一个的序列)。如本领域已知的,cDNA是从mRNA合成的。

核酸检测分析的实例

有许多不同的已知方法用于测定样品中特定核苷酸序列的存在或不存在,其任何一种可以根据本发明使用。例如,可以使用从样品获得的mRNA进行标准的聚合酶链反应(PCR)方法(例如,逆转录PCR(RT-PCR))。在RT-PCR中,首先使用逆转录酶将RNA模板转化为互补DNA(cDNA)。然后将cDNA用作模板而使用PCR进行指数扩增。因此,本文提供的试剂盒可包含在PCR中使用的任何一种或多种试剂,例如与包含外显子剪接事件(例如,外显子包含或外显子排除)的特定核酸结合的引物或探针、聚合酶、缓冲液、脱氧核糖核苷三磷酸(dNTP)和盐。

在一些实施方式中,使用

在其他实施方式中,使用长读测序技术(例如,基于单分子实时(SMRT)测序技术构建的

在其他实施方式中,将Droplet Digital

还在其他实施方式中,ViewRNA

在再其他实施方式中,

可以使用其他核酸检测方法。

探针

本公开的一些方面包括测定样品中包含SEQ ID NO:1-20中任一个的核苷酸序列的核酸(例如,外显子包含事件)的存在或不存在,其中每一个包含外显子包含事件以及外显子包含事件的直接上游序列和直接下游序列(SEQ ID NO:21-40中的任一个)。本公开的一些方面包括测定样品中包含SEQ ID NO:105-136中任一个的核苷酸序列的核酸(例如,外显子排除事件)的存在或不存在,其中每一个包含外显子排除事件以及外显子排除事件的直接上游序列和直接下游序列(SEQ ID NO:41-72中的任一个)。

探针是合成(非天然存在)的核酸,其与目标核酸(例如,包含SEQ ID NO:1-20、21-40、41-72或105-136的任一个的核苷酸序列或包含在其内的核酸)完全或部分互补并因此与目标核酸结合。在一些实施方式中,探针包含DNA。在一些实施方式中,探针包含RNA。在一些实施方式中,探针包含DNA和RNA。应当理解,术语“探针”涵盖“引物”,如本领域中已知的,“引物”是用作核酸(例如DNA)合成的起点的合成核酸(例如DNA)。探针的长度可以变化,这取决于所使用的核酸检测分析法。例如,探针所具有的长度可以为至少15、至少18、至少20、至少25、至少30、至少40、至少50、至少60、至少70、至少80、至少90个或至少100个核苷酸。在一些实施方式中,探针的长度为15至30个核苷酸、15至50个核苷酸或15至100个核苷酸。取决于应用,探针可能长于100个核苷酸。

在一些实施方式中,设计一种或多种探针以直接结合SEQ ID NO:21-40和105-136中任一个的外显子(例如,外显子包含事件或外显子排除事件)。该探针可以结合于,例如,外显子的5′区、中央区或3′区。

在一些实施方式中,设计一种或多种探针以结合于SEQ ID NO:21-40和105-136中任一个的外显子的直接上游(5′)的核苷酸序列。在其他实施方式中,设计一种或多种探针以结合于SEQ ID NO:21-40和105-136中任一个的外显子的直接下游(3′)的核苷酸序列。在一些实施方式中,设计一对探针中的第一探针(例如引物)以结合于SEQ ID NO:21-40和105-136中任一个的外显子的直接上游(5′)的核苷酸序列,和设计所述探针对的第二探针(例如,引物)以结合于SEQ ID NO:21-40和105-136中任一个的外显子的直接下游(3′)的核苷酸序列,使得所述探针对在该外显子侧翼。

在一些实施方式中,一种或多种探针被设计为结合于外显子连接点(exonjunction)。外显子连接点包含(a)包含外显子的5′区(例如,SEQ ID NO:21-40和105-136中的任一个)的核苷酸序列和外显子的5′区直接上游的核苷酸序列;或(b)包含外显子的3′区(例如,SEQ ID NO:21-40和105-136中的任一个)的核苷酸序列和外显子的3′区直接下游的核苷酸序列。表6提供了包括外显子包含事件(下划线的)以及外显子包含事件的直接上游和下游序列的cDNA序列的实例。可以设计任何一种或多种探针以结合于表6的核苷酸序列(SEQ ID NO:1-20)的任何区域,例如,用于检测(例如,扩增或标记)样品中的该核苷酸序列的目的。表7提供了包含外显子排除事件(加下划线)以及外显子排除事件的直接上游和下游序列的cDNA序列的实例。可以设计任何一种或多种探针以结合于表7的核苷酸序列(SEQID NO:41-72)的任何区域,例如,用于检测(例如,扩增或标记)样品中的该核苷酸序列的目的。

组织样品

在一些实施方式中,mRNA获自生物样品。生物样品包括组织样品或流体样品。组织样品的非限制性实例包括血液样品和乳腺组织样品。流体样品的非限制性实例包括脑脊髓液(CSF)样品和尿液样品。

在一些实施方式中,mRNA获自乳腺组织样品。在一些实施方式中,乳腺组织样品是从女性受试者(例如,人类女性受试者)获得的,尽管它可以可选地从男性受试者(例如,人类男性受试者)获得。

在一些实施方式中,样品获自被诊断患有癌症,例如乳腺癌的受试者。例如,受试者可能患有,可能具有患病的危险或可能被怀疑患有乳腺导管、乳腺小叶或导管与小叶之间的乳腺组织的癌症。可以采样的乳腺癌的非限制性实例包括原位导管癌、浸润性导管癌,乳腺管状癌、乳腺髓样癌、乳腺粘液癌、乳腺乳头状癌、乳腺筛状癌、浸润性小叶癌、炎性乳腺癌、乳头Paget病、乳腺叶状肿瘤、转移性乳腺癌和三阴性乳腺癌(TNBC)。

应用

在一些实施方式中,本公开的方法包括基于样品中包含SEQ ID NO:21-40和105-136中任一个的核苷酸序列(例如,外显子)的核酸(例如,外显子包含事件或外显子排除)的存在,对癌症患者指定良好的预后或不良的预后。因此,在一些实施方式中,本文的方法包括从受试者获得样品,测定样品中包含SEQ ID NO:21-40和105-136中任一个的核苷酸序列的核酸,并对样品/患者(例如乳腺组织样品)指定良好的预后或不良的预后(参见,例如表4或表5)。在一些实施方式中,在获自患者的样品中检测包含SEQ ID NO:21-40或105-136中任一个的核苷酸序列的核酸。

在一些实施方式中,当检测到包含SEQ ID NO:24、28、31、33、38、114、119或123中任一个的核苷酸序列的核酸时,对样品指定良好的预后。在一些实施方式中,良好的预后是至少70%的概率生存至少2000天。在一些实施方式中,良好的预后是至少75%的概率生存至少2000天。在一些实施方式中,良好的预后是至少70%的概率生存至少4000天。在一些实施方式中,良好的预后是至少75%的概率生存至少4000天。

在其他实施方式中,当检测到包含SEQ ID NO:21-27、29、30、32、34-37、39、40、105-113、115-118、120-122或124-136中任一个的核苷酸序列的核酸时,对样品指定不良的预后。在一些实施方式中,不良的预后是至少75%的概率生存少于2000天。

另外的实施方式

1.包含SEQ ID NO:22-24、27-34、36、38或40中任一个的核苷酸序列的互补脱氧核糖核酸(cDNA)。

2.一种组合物,其包含段落1的cDNA。

3.一种组合物,其包含至少两种段落1的cDNA。

4.段落2或3的组合物,其进一步包含含有SEQ ID NO:21、25、26、35、37或39中任一项的核苷酸序列的cDNA。

5.段落2或4的组合物,其包含含有SEQ ID NO:21的核苷酸序列的核酸、含有SEQID NO:22的核苷酸序列的核酸、含有SEQ ID NO:23的核苷酸序列的核酸、含有SEQ ID NO:24的核苷酸序列的核酸、含有SEQ ID NO:25的核苷酸序列的核酸、含有SEQ ID NO:26的核苷酸序列的核酸、含有SEQ ID NO:27的核苷酸序列的核酸、含有SEQ ID NO:28的核苷酸序列的核酸、含有SEQ ID NO:29的核苷酸序列的核酸、含有SEQ ID NO:30的核苷酸序列的核酸、含有SEQ ID NO:31的核苷酸序列的核酸、含有SEQ ID NO:32的核苷酸序列的核酸、含有SEQ ID NO:33的核苷酸序列的核酸、含有SEQ ID NO:34的核苷酸序列的核酸、含有SEQ IDNO:35的核苷酸序列的核酸、含有SEQ ID NO:36的核苷酸序列的核酸、含有SEQ ID NO:37的核苷酸序列的核酸、含有SEQ ID NO:38的核苷酸序列的核酸、含有SEQ ID NO:39的核苷酸序列的核酸和含有SEQ ID NO:40的核苷酸序列的核酸。

6.段落2的组合物,其进一步包含与所述cDNA结合的探针,或与所述cDNA结合的一对引物。

7.段落2-6中任一项所述的组合物,其中所述cDNA从获自组织样品,任选地乳腺组织样品的信使核糖核酸(mRNA)合成。

8.段落7的组合物,其中所述乳腺组织样品获自女性受试者。

9.段落7或8的组合物,其中所述样品获自被诊断患有癌症的受试者。

10.段落7或8的组合物,其中所述样品获自具有患癌症的风险或怀疑患有癌症的受试者。

11.一种方法,其包括测定样品中的包含SEQ ID NO:22-24、27-34、36、38或40中任一个的核苷酸序列的核酸。

12.段落11的方法,其进一步包括测定样品中包含SEQ ID NO:21、25、26、35、37或39中任一个的核苷酸序列的核酸。

13.段落11的方法,包括测定样品中含有SEQ ID NO:21的核苷酸序列的核酸、含有SEQ ID NO:22的核苷酸序列的核酸、含有SEQ ID NO:23的核苷酸序列的核酸、含有SEQ IDNO:24的核苷酸序列的核酸、含有SEQ ID NO:25的核苷酸序列的核酸、含有SEQ ID NO:26的核苷酸序列的核酸、含有SEQ ID NO:27的核苷酸序列的核酸、含有SEQ ID NO:28的核苷酸序列的核酸、含有SEQ ID NO:29的核苷酸序列的核酸、含有SEQ ID NO:30的核苷酸序列的核酸、含有SEQ ID NO:31的核苷酸序列的核酸、含有SEQ ID NO:32的核苷酸序列的核酸、含有SEQ ID NO:33的核苷酸序列的核酸、含有SEQ ID NO:34的核苷酸序列的核酸、含有SEQID NO:35的核苷酸序列的核酸、含有SEQ ID NO:36的核苷酸序列的核酸、含有SEQ ID NO:37的核苷酸序列的核酸、含有SEQ ID NO:38的核苷酸序列的核酸、含有SEQ ID NO:39的核苷酸序列的核酸和含有SEQ ID NO:40的核苷酸序列的核酸分析样品。

14.段落11-13中任一项所述的方法,其中所述核酸是信使核糖核酸(mRNA),其任选地从乳腺组织样品获得。

15.段落11-13中任一项所述的方法,其中所述核酸是从获自乳腺组织样品的mRNA合成的互补脱氧核糖核酸(cDNA)。

16.段落14或15所述的方法,其中所述乳腺组织样品是从女性受试者获得的。

17.段落14-16中任一项所述的方法,其中所述乳腺组织样品是从被诊断患有癌症的受试者获得的。

18.段落14-16中任一项所述的方法,其中所述乳腺组织样品是从具有患癌症风险或被怀疑患有癌症的受试者获得的。

19.段落11-18中任一项所述的方法,其进一步包括检测包含SEQ ID NO:21-40中任一个的核苷酸序列的核酸。

20.段落11-19中任一项所述的方法,其中所述核酸是mRNA。

21.段落11-19中任一项所述的方法,其中所述核酸是cDNA。

22.段落19-21中任一项所述的方法,还包括对于从其获得样品的受试者指定良好的预后或不良的预后。

23.段落22的方法,其中如果检测到包含SEQ ID NO:24、28、21、33或38中任一个的核苷酸序列的核酸,则对从其获得样品的受试者指定良好的预后。

24.段落22的方法,其中如果检测到包含SEQ ID NO:21-27、29、30、32、34-37、39或40中任一个的核苷酸序列的核酸,则对从其获得样品的受试者指定不良的预后。

25.一种方法,其包括:

从受试者获得样品;

测定样品中包含SEQ ID NO:21-40中任一个的核苷酸序列的核酸;和

为受试者指定良好的预后或不良的预后。

26.段落25的方法,其还包括检测样品中包含SEQ ID NO:21-40中任一个的核苷酸序列的核酸。

27.段落26的方法,其中所述样品是乳腺组织样品。

28.段落25-27中任一段所述的方法,其中所述测定步骤包括测定所述样品中含有SEQ ID NO:21的核苷酸序列的核酸、含有SEQ ID NO:22的核苷酸序列的核酸、含有SEQ IDNO:23的核苷酸序列的核酸、含有SEQ ID NO:24的核苷酸序列的核酸、含有SEQ ID NO:25的核苷酸序列的核酸、含有SEQ ID NO:26的核苷酸序列的核酸、含有SEQ ID NO:27的核苷酸序列的核酸、含有SEQ ID NO:28的核苷酸序列的核酸、含有SEQ ID NO:29的核苷酸序列的核酸、含有SEQ ID NO:30的核苷酸序列的核酸、含有SEQ ID NO:31的核苷酸序列的核酸、含有SEQ ID NO:32的核苷酸序列的核酸、含有SEQ ID NO:33的核苷酸序列的核酸、含有SEQID NO:34的核苷酸序列的核酸、含有SEQ ID NO:35的核苷酸序列的核酸、含有SEQ ID NO:36的核苷酸序列的核酸、含有SEQ ID NO:37的核苷酸序列的核酸、含有SEQ ID NO:38的核苷酸序列的核酸、含有SEQ ID NO:39的核苷酸序列的核酸和含有SEQ ID NO:40的核苷酸序列的核酸。

28.段落25-27中任一项所述的方法,其中如果检测到包含SEQ ID NO:24、28、21、33或38中任一个的核苷酸序列的核酸,则对从其获得样品的受试者指定良好的预后。

29.段落25-27中任一项所述的方法,其中如果检测到包含SEQ ID NO:21-27、29、30、32、34-37、39或40中任一个的核苷酸序列的核酸,则对从其获得样品的受试者指定不良的预后。

30.一种试剂盒,其包含:包含与SEQ ID NO:1-20中任一个的核苷酸序列互补的核苷酸序列的探针;和至少一种用于检测核酸的试剂,所述试剂选自缓冲剂、盐类、聚合酶和脱氧核糖核苷三磷酸(dNTP)。

31.一种试剂盒,其包含:

包含与SEQ ID NO:1的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:2的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:3的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:4的核苷酸序列互补的核苷酸序列的探针、包含与SEQ IDNO:5的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:6的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:7的核苷酸序列互补的核苷酸序列的探针、包含与SEQID NO:8的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:9的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:10的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:11的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:12的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:13的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:14的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:15的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:16的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:17的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:18的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:19的核苷酸序列互补的核苷酸序列的探针和包含与SEQ ID NO:20的核苷酸序列互补的核苷酸序列的探针。

32.一种试剂盒,其包含:

包含与SEQ ID NO:21的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:22的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:23的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:24的核苷酸序列互补的核苷酸序列的探针、包含与SEQID NO:25的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:26的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:27的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:28的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:29的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:30的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:31的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:32的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:33的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:34的核苷酸序列互补的核苷酸序列的探针、包含与SEQ IDNO:35的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:36的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:37的核苷酸序列互补的核苷酸序列的探针、包含与SEQ ID NO:38的核苷酸序列互补的核苷酸序列的探针、、包含与SEQ ID NO:39的核苷酸序列互补的核苷酸序列的探针和包含与SEQ ID NO:40的核苷酸序列互补的核苷酸序列的探针。

33.段落31或32的试剂盒,其中该试剂盒进一步包含至少一种用于检测核酸的试剂,其选自缓冲剂、盐类、聚合酶和脱氧核糖核苷三磷酸(dNTP)。

实施例

实施例1

可变剪接是一种生物现象,其增加转录本和蛋白质多样性。在一种称为“外显子跳跃”的可变剪接类型中,基于细胞条件,外显子剪接“入”或“出”转录本(图55)。

由于可变剪接,同一基因的不同转录本亚型(外显子构型)可在肿瘤和正常样品中表达。因此,即使基因在肿瘤和正常组织中均表达,转录本仍可能携带癌症特有的外显子构型。

鉴定癌症生物标志物的常规方法是基于基因表达。研究人员意图使用微阵列或RNA测序检测基因是否在肿瘤中特异性表达。我们采用基于剪接的方法而非基于基因的方法来鉴定癌症生物标志物。

方法

为了鉴定癌症中的剪接生物标志物,我们采取了以下概述的步骤,即(i)转录本测序,(ii)TCGA分析和(iii)聚类分析,其使用了一种新颖的方法来鉴定基于剪接的生物标志物。

测序:使用

数据分析步骤1,TCGA分析:使用

数据分析步骤2,聚类:应用称为ts3(肿瘤特异性剪接位点检测)的本公开的方法以发现仅在癌症中包含(例如,剪接入)和排除(剪接出)的外显子(图55)。这是通过使用基于GMM的聚类方法来完成的。

结果

我们应用了基于高斯混合建模的方法以识别对TCGA群组中的乳腺癌患者特异性的外显子剪接事件。结果,我们鉴定了20个在癌症中特异性表达并具有预后能力的外显子包含事件(剪接“入”外显子)。这些外显子包含事件具有以下属性:

-与正常组织相比,靶外显子的PSI水平(表达)增加(PSI

-正常组织中靶外显子低或不存在(PSI

-在至少30位乳腺癌患者中可靠地检测到剪接事件(每一位患者中至少10个RNA-Seq阅读的覆盖率),

-携带这些外显子包含事件的患者具有良好或不良的生存预后(p<0.05,对数秩检验)。

我们还鉴定了32个外显子排除事件(剪接“出”外显子),这些事件对乳腺癌是特异于并且具有预后能力。这些外显子排除事件具有以下属性:

-与正常组织相比,靶外显子的PSI水平(表达)降低(PSI

-正常组织中靶外显子很高(PSI

-在至少30位乳腺癌患者中可靠地检测到剪接事件(每一位患者至少10个RNA-Seq阅读的覆盖率),

-携带这些外显子排除事件的患者具有良好或不良的生存预后(p<0.05,对数秩检验)。

由于它们是癌症特有的,因此这些外显子事件被称为“外显子包含生物标志物或外显子排除生物标志物”。

使用长读SMRT

我们发现了两种类型的外显子剪接生物标志物,具有良好和不良的预后。表1表明15个外显子包含事件具有不良的预后(结果较差,生存时间较短),和5个外显子包含事件具有良好的预后(结果较好,生存时间较长)。表2表明29个外显子排除事件具有不良的预后,和3个外显子排除事件具有良好的预后。

表1.与乳腺癌生存相关的外显子包含生物标志物

表2.与乳腺癌生存相关的外显子排除生物标志物

图1显示了在癌症基因组图谱(TCGA)患者中52种外显子包含或外显子排除生物标志物的检测。包含生物标志物以白色描绘,且排除生物标志物以黑色描绘。良好预后的生物标志物被标示“1”,而不良预后的生物标志物被标示“0”。在2-33%的患者中检测到了这些生物标志物。例如,影响PRR5-ARHGAP8基因的剪接事件42420存在于22%的患者中,而生物标志物15088-POL1存在于9%的患者中。此外,91.5%的患者具有至少一种生物标志物(824名患者中的754名)。

图2A显示8.5%(70名患者)没有外显子包含生物标志物生存预测子,13.6%(112名患者)恰好具有一个外显子生物标志物生存预测子,和77.9%(642名患者)具有多于一种外显子包含生物标志物生存预测子。

就外显子生物标志物检测而言,乳腺癌TCGA患者可分为四组:(i)仅不良的生物标志物(60.9%或502名患者),(ii)仅良好的生物标志物(2.9%或24名患者),以及(iii)混合的不良和良好的生物标志物(27.7%或228名患者),和(iv)无检测的生物标志物(8.5%或70名患者)(图2B)。

因此,虽然通常在患者中检测到多于一种生物标志物,但我们观察到患者倾向于具有相同类型的外显子剪接生物标志物(全部不良的或全部良好的)。正在进行另外的工作以设计一种在临床中利用这些外显子生物标志物的策略。

示例性应用:使用52外显子剪接生物标志物组进行预后

我们基于结果(不良的,良好的,混合的,无预测的)和外显子剪接生物标志物的数量(恰好一个事件,多于一个事件)将患者分为不同的组。该分类在表3中可得。例如,对于11.9%的患者(恰好一个事件)确定不良的预后。

表3.外显子剪接生物标志物结果

表4.外显子包含生物标志物的基因组位置

*是:存在数据库中报告的携带3个外显子(靶、上游和下游)的转录本,以及携带2个外显子(上游和下游)的转录本

表5.外显子排除生物标志物的基因组位置

*是:存在数据库中报告的携带3个外显子(靶、上游和下游)的转录本,以及携带2个外显子(上游和下游)的转录本

实施例2

在此实施例中,我们分析了表4和表5中列出的剪接事件(见图3A-54D)。这些靶外显子的表达(表示为PSI)在癌症和正常样品间显著变化(参见,例如,图3A,从0(0%包含)到0.3(30%包含)变化)。

数据的目视检查表明存在其中包含靶外显子或“剪接入”的样品亚群。使用称为GMM的聚类方法正式检测了该亚群(图3A中的分类“4”样品)。剪接事件1446(CCDC115)的GMM分析产生了4个样品亚群(簇)。

然而,只有一个簇(例如,图3A和3B的C4)符合肿瘤特异性簇的标准,因为它具有以下特性:

·簇C4包含超过>90%的肿瘤样品(见图3B);

·与正常相比,簇C4具有>10%的增加表达(PSI)(PSI

·正常组织中外显子包含事件非常低或不存在(PSI

簇C4包含824名被分析中的97名乳腺癌患者,这意味着在约12%的TCGA乳腺癌患者中检测到该外显子包含事件。此外,在簇C4中的乳腺癌患者与在TCGA中的其余乳腺癌患者的生存分析表明,C4中的患者(表达靶向外显子)具有较差的总体生存率(图3D)。因此,外显子包含事件1446(CCDC115)(i)是乳腺癌特异性的,(ii)在乳腺癌患者的亚群中检测到,和(iii)与不良的总体生存相关。

此外,不同靶外显子的表达(表示为PSI)在癌症和正常样品中显著不同(参见,例如,图23A,从0(0%排除)至1.0(100%包含)变化)。

数据的目视检查表明存在其中靶外显子被排除或“剪接出”的样品亚群。使用称为GMM的聚类方法正式检测了该亚群(图23A中的分类“4”样品)。剪接事件1506(CENPK)的GMM分析产生了4个样品亚群(簇)。

尽管如此,只有两个簇(例如,图23A和23B中的C1和C3)符合肿瘤特异性簇的标准,因为它具有以下特性:

·簇C1和C3包含超过>90%的肿瘤样品(见图23B);

·与正常相比,簇C1具有>10%的表达(PSI)增加(PSI

·该外显子排除事件在正常组织中非常低或不存在(PSI

簇C1包含了824名被分析中的37名乳腺癌患者,这意味着在约4%的TCGA乳腺癌患者中检测到该外显子排除事件。此外,对簇C1中的乳腺癌患者与TCGA中其余乳腺癌患者的生存分析表明,C1中的患者(靶向外显子被剪接出)具有较差的总体生存率(图23D)。因此,外显子排除事件1506(CENPK)(i)是乳腺癌特异性的,(ii)在乳腺癌患者的亚群中被检测到,和(iii)与不良的总体生存相关。

表6.外显子包含事件序列

表7.外显子排除事件序列

本文所公开的所有参考文献、专利和专利申请相对于其在其中各自所引用的主题通过引用并入本文,在某些情况下,其可能包含文献整体。

除非明确地指明相反,否则本文中在说明书和权利要求书中使用的不定冠词“一个”和“一”应理解为表示“至少一个”。

还应该理解的是,除非有明显的相反指示,否则在本文要求保护的包含多个步骤或动作的任何方法中,该方法的步骤或动作的顺序不必限于其中该方法的步骤或动作被叙述的顺序。

在权利要求书以及以上说明书中,所有过渡短语例如“包含”、“包括”、“带有”、“具有”、“含有”、“涉及”、“持有”、“构成(composed of)”,等等应被理解为开放式的,即意指包含但不限于。如美国专利局专利审查程序手册第2111.03节所述,仅过渡短语“由……组成”和“基本上由……组成”应分别是封闭的或半封闭的过渡短语。

数值之前的术语“大约”和“基本上”是指所述数值的±10%。

在提供值的范围的情况下,在此具体考虑和描述了该范围的上限和下限之间的每一个值。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号