首页> 中国专利> 基于基因拷贝数改变的模式的恶性黑色素瘤的基因组分类

基于基因拷贝数改变的模式的恶性黑色素瘤的基因组分类

摘要

本发明涉及允许按照基因组概况分类恶性黑色素瘤细胞的方法和试剂盒,以及诊断、预测临床结果和使患者群体分层以使用所述方法进行临床试验和治疗的方法。

著录项

  • 公开/公告号CN102203789A

    专利类型发明专利

  • 公开/公告日2011-09-28

    原文格式PDF

  • 申请/专利权人 雅培制药有限公司;

    申请/专利号CN200980143554.4

  • 申请日2009-10-28

  • 分类号G06F19/24(20110101);C12Q1/68(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人权陆军;郭文洁

  • 地址 美国伊利诺伊州

  • 入库时间 2023-12-18 03:30:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-23

    未缴年费专利权终止 IPC(主分类):G06F19/24 授权公告日:20150603 终止日期:20171028 申请日:20091028

    专利权的终止

  • 2015-06-03

    授权

    授权

  • 2013-07-10

    专利申请权的转移 IPC(主分类):G06F19/24 变更前: 变更后: 登记生效日:20130620 申请日:20091028

    专利申请权、专利权的转移

  • 2011-12-14

    实质审查的生效 IPC(主分类):G06F19/24 申请日:20091028

    实质审查的生效

  • 2011-09-28

    公开

    公开

说明书

交叉参考相关申请

本申请要求对2008年10月31日提交的美国申请No.61/110,308的优先权,所述申请的内容在此引入作为参考。

本申请也将名称为METHODS FOR ASSEMBLING PANELS OF CANCER CELL LINES FOR USE IN TESTING THE EFFICACY OF ONE OR MORE PHARMACEUTICAL COMPOSITIONS的申请(Dimitri Semizarov,Xin Lu,Ke Zhang,和Rick Lesniewski,发明人;2009年10月28日提交的,其要求对2008年10月31日提交的美国申请No.61/110,281的优先权)引入作为参考。

关于联邦政府资助的研究或开发的声明

不适用。

参考光盘上的材料

不适用。

发明背景

发明领域

本发明涉及用于限定与恶性黑色素瘤(MM)相关的肿瘤、癌细胞系和受试者样品的基因组亚组的方法。本发明还涉及按照基因组亚组装配(assembling)成小组(panels)的肿瘤、癌细胞系和受试者样品以用于测试一种或多种用于给受试者施用的治疗性干预的功效的方法。

相关领域的描述

癌症是特征在于临床过程、结果和治疗反应性的相当大变异性的基因组的疾病。该变异性背后的主要因素是癌症所固有的遗传异质性。相同组织病理学亚型的个别肿瘤在细胞DNA中具有不同的畸变。

皮肤恶性黑色素瘤是在西方国家发病率日益升高的极具侵袭性的皮肤癌类型(Tucker和Goldstein,2003)。黑色素瘤是具有不可预测的临床过程和具有侵袭性生长及对现有化疗方案的抗性的潜能的异质性疾病(heterogeneous disease)。由于临床、形态学和细胞学改变的谱(spectrum)和缺乏分离病期(discrete stage),难以预测个别黑色素瘤患者的临床结果(Onken等人,2004;Weyers等人,1999)。

癌症分类的改进对于抗癌药物的发现是至关重要的。目前,基于其可用性(availability)、对小鼠中肿瘤形成的适应性以及培养中的生长和其他参数选择临床前模型,但它们不代表亲本肿瘤的遗传异质性。这导致临床试验中对在临床前模型中已显示卓越反应的试剂的差的反应。

黑色素瘤肿瘤的表型多样性伴随相应的基因拷贝数反常模式的多样性。染色体畸变是与许多发育疾病和癌症关联的有害事件。体细胞中发生的染色体区域的扩增和缺失被认为是导致癌症的主要因素之一。因此恶性黑色素瘤中基因拷贝数模式的系统性检查可能用作恶性黑色素瘤的基于基因组学的分子分类学的基础。可通过经典细胞遗传学分析或荧光原位杂交(FISH)个别地检测具有预后意义的反复染色体畸变(Recurrent chromosomal aberration)(Levsky和Singer,2003)。然而,FISH分析不能检测整个遗传学异常谱,因为其只查询有限组的由应用的探针小组限定的染色体基因座。更有利的诊断工具将基于疾病的精确分类。其将使得能够进行合理的患者选择以进行基于受试者的MM的遗传状态的治疗。

发明概述

在第一方面,本发明涉及用于获得恶性黑色素瘤(MM)基因组亚组的数据库的方法,所述方法包括步骤:

(a)获得多个,m个,包含至少一个MM细胞的样品,其中所述样品包含细胞系或肿瘤;

(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集;

(c)鉴定数据集中被正常细胞污染的样品并且从数据集消除所述被污染的样品,其中鉴定和消除包括:

(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一

致的机器学习算法(machine learning algorithm);

(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;

(3)从数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;

(d)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法(unsupervised clustering algorithm)估计数据集中亚组的数目r;

(e)利用改进的基因组非负矩阵因子分解(modified genomic Non-negative Matrix Factorization)(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括:

(1)利用如下公式计算每100步乘性更新(multiplicative updating)后算法的散度:

D(V||WH)=Σi=1nΣj=1m(VijlogVij(WH)ij-Vij+(WH)ij)---(11)

其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目;

(2)如果步骤(e)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001%,那么终止算法;

(3)随机重复算法,进行选择的运行数,并且使用如下公式计算每一次运行算法的H的Pearson相关系数矩阵:

Ci,j=ρ(H,i,H,j)=1r-1Σk(Hk,i-H,i)(Hk,j-H,j)sH,isH,j---(12)

其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,m是数据集中的样品数目,k从1运行至r,且r是来自步骤(d)的亚组的数目;

(4)计算获自步骤(e)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵;

(5)通过使用1减步骤(e)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇,将数据集中的肿瘤和细胞系分配至r个亚组中;

(f)应用同表象相关(Cophenetic correlation)、贝叶斯信息准则(Bayesian Information Criterion)或其组合以提供来自数据集的簇的终数目,其中每一个最终的簇限定了每一个肿瘤或癌细胞系样品的基因组亚组;和

(g)任选地使用10倍稳定性检验(ten-fold stability test)评价步骤(f)中选择的簇的终数目的稳定性。

在第二方面,本发明涉及分类MM肿瘤或细胞系的方法,包括:

(a)提供通过方法开发的数据库,所述方法包括:

(i)获得多个,m个,包含至少一个MM肿瘤或细胞系的样品;

(ii)获得第一数据集,所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息;

(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品,其中鉴定和消除包括:

(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;

(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;

(3)从第一数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;

(iv)通过对数据集应用使用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r;

(v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括:

(1)利用如下公式计算每100步乘性更新后算法的散度:

D(V||WH)=Σi=1nΣj=1m(VijlogVij(WH)ij-Vij+(WH)ij)---(11)

其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目;

(2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001%,那么终止算法;

(3)随机重复算法,进行选择的运行数,并且使用如下公式计算每一次运行算法的H的Pearson相关系数矩阵:

Ci,j=ρ(H,i,H,j)=1r-1Σk(Hk,i-H,i)(Hk,j-H,j)sH,isH,j---(12)

其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,m是数据集中的样品数目,k从1运行至r,且r是来自步骤(iv)的亚组的数目;

(4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵;

(5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇,将数据集中的肿瘤和细胞系分配至r个亚组中;

(vi)应用同表象相关、贝叶斯信息准则或其组合来提供来自数据集的簇的终数目,其中每一个最终的簇限定了每一个肿瘤或癌细胞系样品的基因组亚组;和

(vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性;

(b)提供怀疑含有MM细胞的样品,

(c)获得第二数据集V样品,其包括来自相同的步骤(ii)的至少一个基因座的拷贝数改变信息;以及

(d)通过将V样品与步骤(i)-(vii)中确定的簇相比较,分类来自V样品的样品。

在第三方面,本发明涉及分类用于抑制或杀伤恶性黑色素瘤(MM)细胞的治疗性干预的方法,其包括:

(a)从一小组(a panel of)按照基因组亚组分类的MM细胞,从每一个亚组选择至少一个MM细胞系,其中根据下述方法装配小组,所述方法包括:

(i)获得多个,m个,包含MM细胞的样品;

(ii)获得第一数据集,所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息;

(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品,其中鉴定和消除包括:

(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;

(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;

(3)从第一数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;

(iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r;

(v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括:

(1)利用如下公式计算每100步乘性更新后算法的散度:

D(V||WH)=Σi=1nΣj=1m(VijlogVij(WH)ij-Vij+(WH)ij)---(11)

其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目;

(2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001%,那么终止算法;

(3)随机重复算法,进行选择的运行数,并且使用如下公式计算每一次运行算法的H的Pearson相关系数矩阵:

Ci,j=ρ(H,i,H,j)=1r-1Σk(Hk,i-H,i)(Hk,j-H,j)sH,isH,j---(12)

其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,m是数据集中的样品数目,k从1运行至r,且r是来自步骤(iv)的亚组的数目;

(4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵;

(5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇,将数据集中样品分配至r个亚组中;

(vi)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目,其中每一个最终的簇限定了每一个样品的基因组亚组;和

(vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性;

(viii)从步骤(vi)中选择的每一个簇选择至少一个MM细胞系并且装配至按照基因组亚组限定的小组中。

(b)将来自每一个亚组的至少一个MM细胞与治疗性干预接触;

(c)测定治疗性干预抑制或杀伤来自每一个亚组的至少一个MM细胞的效力;

(d)按照测定的治疗性干预抑制或杀伤来自每一个亚组的至少一个MM细胞系的效力分类所述治疗性干预,其中抑制或杀伤来自一个亚组而非另一个亚组的至少一个MM细胞系指示着治疗性干预抑制或杀伤那个亚组的MM细胞的特异性。治疗性干预可以是化学疗法、生物反应调节物(biological response modifier)、疫苗免疫治疗或生物化学疗法(biochemotherapy)。如果治疗性干预是生物反应调节物,那么其可以是包含活性剂例如干扰素、白细胞介素-2、单克隆抗体和肿瘤坏死因子-α或其组合的药物组合物。

在第四方面,本发明涉及装配用于分类来自样品的MM细胞的探针小组的方法,包括:

(a)装配数据库,包括:

(i)获得多个,m个,包括至少一个MM细胞的样品;

(ii)获得包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的第一数据集;

(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品,其中鉴定和消除包括:

(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;

(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;

(3)从第一数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;

(iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中的亚组的数目r;

(v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括:

(1)利用如下公式计算每100步乘性更新后算法的散度:

D(V||WH)=Σi=1nΣj=1m(VijlogVij(WH)ij-Vij+(WH)ij)---(11)

其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目;

(2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001%,那么终止算法;

(3)随机重复算法,进行选择的运行数,并且使用如下公式计算每一次运行算法的H的Pearson相关系数矩阵:

Ci,j=ρ(H,i,H,j)=1r-1Σk(Hk,i-H,i)(Hk,j-H,j)sH,isH,j---(12)

其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,m是数据集中的样品数目,k从1运行至r,且r是来自步骤(iv)的亚组的数目;

(4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵;

(5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇,将数据集中的肿瘤和细胞系分配至r个亚组中;

(vi)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目,其中每一个最终的簇限定了每一个肿瘤或癌细胞系样品的基因组亚组;和

(vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性。

(viii)从步骤(vi)中选择的每一个簇选择至少一个样品并且装配至按照基因组亚组限定的小组中;

(b)分析步骤(a)的数据库以确定每一个亚组的特有拷贝数异常;

(c)基于每一个亚组的确定的特有拷贝数异常设计多个探针并且将每一种探针分配至基因组亚组中。

在第五方面,本发明涉及包括用于分类MM肿瘤样品的探针小组的试剂盒。探针小组中的探针可以是例如FISH探针。

在第六方面,本发明涉及用于分类MM肿瘤样品的试剂盒,其包括:

(a)装配数据库的说明书,其包括用于如下方面的说明书:

(i)获得多个,m个,包含至少一个MM细胞的样品;

(ii)获得第一数据集,所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息;

(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品,其中鉴定和消除包括:

(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;

(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;

(3)从第一数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;

(iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r;

(v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括:

(1)利用如下公式计算每100步乘性更新后算法的散度:

D(V||WH)=Σi=1nΣj=1m(VijlogVij(WH)ij-Vij+(WH)ij)---(11)

其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目;

(2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新计算的散度相比较时减小不超过约0.001%,那么终止算法;

(3)随机重复算法,进行选择的运行数,并且使用如下公式计算每一次运行算法的H的Pearson相关系数矩阵:

Ci,j=ρ(H,i,H,j)=1r-1Σk(Hk,i-H,i)(Hk,j-H,j)sH,isH,j---(12)

其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,m是数据集中的样品数目,k从1运行至r,且r是来自步骤(iv)的亚组的数目;

(4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵;

(5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇,将数据集中的肿瘤和细胞系分配至r个亚组中;

(vi)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目,其中每一个最终的簇限定了每一个肿瘤或癌细胞系样品的基因组亚组;和

(vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性;和

(b)任选地,第一、第二、第三、第四、第五和第六细胞系或其分离的基因组DNA,其中

所述第一细胞系选自SKMEL119、HS944、WM1366和WM88;

所述第二细胞系是WM3248;

所述第三细胞系是1205LU;

所述第四细胞系选自451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63、WM35、WM983和WM983C;

所述第五细胞系选自WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793B和501MEL,以及

所述第六细胞系是MALME3M或WM882。

在本发明的所有方面,无监督聚类算法可以是等级聚类,可独立地或一起使用同表象相关或贝叶斯信息准则来提供来自数据集的簇的终数目。

在本发明的所有方面,样品的多元性(plurality),m,可包括第一、第二、第三、第四、第五和第六细胞系,其中

所述第一细胞系选自SKMEL119、HS944、WM1366和WM88;

所述第二细胞系是WM3248;

所述第三细胞系是1205LU;

所述第四细胞系选自451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63、WM35、WM983和WM983C;

所述第五细胞系选自WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793B和501MEL,以及

所述第六细胞系是MALME3M或WM882。

在本发明的一些方面,MM细胞来自细胞系。

几个附图视图的概述

图1显示基于基因组的肿瘤分类程序的工作流程。

图2显示MM数据集的树形图以得到通过使用等级聚类产生的簇的可能数目。

图3显示分类至6个簇中的MM肿瘤和细胞系CGH数据的热图(heatmap)。每一行表示样品,且每一列表示SNPs基因座;红色、白色和蓝色分别表示高、正常和低拷贝数;水平黑线分隔不同的簇;垂直间隙分隔染色体1至22;细胞系用绿色圆圈突出显示。

发明详述

本发明提供评价、分类和分层(stratifying)MM肿瘤以及评价治疗性干预对MM肿瘤的功效。本发明利用基于微阵列的比较基因组杂交技术以在全基因组规模上检测基因拷贝数异常,从而提供伴随DNA拷贝数的变化的染色体畸变的全基因组观察。与先前基于组织病理学的分类方案(classification scheme)不同,本发明的方法确定MM细胞的遗传异质性,观察到的临床干预中的变异性背后的主要因素。

本发明的方法允许进行MM的基因组亚组划分(sub-grouping)以促进发现和开发针对MM的靶向疗法以及限定个别的患者群体,所述患者具有对这些疗法易感的MM。患者组的该分层在临床试验设计中也是格外有用的。

通过本发明的聚类程序限定的亚组具有独特的基因组畸变模式,意味着不同的来源和肿瘤发生机制。该观察提示不同的亚组将表现每一个亚组特有的不同的临床行为和不同的对治疗性干预的敏感性。之前对于其他拷贝数反常已观察到这样的现象,例如乳腺癌中的的HER2扩增、肺癌中的EGFR扩增、神经母细胞瘤(neuroblastoma)中的MYCN扩增。(参见例如(Anand等人,2003;Hirsch等人,2006;Seeger等人,1985;Vogel等人,2002))。

由新颖的计算算法(computational algorithm)使得成为可能的本发明的方法基于拷贝数改变的复杂全基因组模式的分析。本发明的方法提供了MM的基因组亚型的完整表征并且产生更精确的临床行为与治疗性干预的关联。

提出的基因组分类学对于MM受试者的整个群体是有效的,这是因为(i)样本集足够大(约110个样品)和(ii)样品获自多种来源,从而消除偏倚的可能性。

因此,在一个方面,本发明提供了使用高分辨率比较基因组杂交(CGH)对MM样品进行概况分析的方法和使用定制的统计学算法对拷贝数概况进行分类的方法。可将所得的MM的分类用于预测患者对药物的反应和选择临床前模型。

本发明的方法允许进行基于基因组异常的模式的MM分类,从而确定疾病的分子亚组。

在另一个方面,本发明开发可用于限定或分类MM细胞的基因组亚组的独特计算算法。通常,计算算法包括下列步骤:

1.应用机器学习算法(例如随机森林(Random Forests))鉴定和消除具有正常细胞导致的显著污染的样品;

2.在将数据与基因组非负矩阵因子分解(gNMF)模型拟合之前使用无监督聚类(例如等级聚类)估计簇的可能数目;

3.使用gNMF的多个随机开始,然后应用由gNMF产生的H距阵的相关作为距离矩阵来分类样品;

4.使用gNMF算法将肿瘤和癌细胞系分类至几个可能数目的簇中,然后使用同表象相关系数和贝叶斯信息准则(BIC)选择最佳模型和确定簇的最终数目;和

5.任选地,应用10倍稳定性检验以评价簇的稳定性。

在一个实施方案中,本发明分类MM细胞,包括步骤:(1)从MM细胞样品提取基因组DNA(gDNA);(2)将gDNA与微阵列杂交,然后分析微阵列以获得用于微阵列分析中的每一个探针的原始信号;(3)确定每一个基因座的拷贝数和检测拷贝数改变区域;(4)进行数据质量控制;(5)使用分段算法(segmentation algorithm)修正(smoothing)拷贝数数据并且降低维数;(6)使用gNMF,利用通过等级聚类估计的簇的估计数目分类修正的数据;(7)使用同表象相关和/或贝叶斯信息准则选择最佳分类模型;和(8)任选地,检验gNMF分类的稳定性。

本发明的方法通过在临床前试验模型小组中提供亲本肿瘤的更完整代表来促进临床前试验模型的合理选择和提高临床前试验的可预测性。尽管不希望受任何理论束缚,本发明的基本原理如下。已显示拷贝数改变(CNAs)的模式决定人肿瘤的表型。因此,如果通过CNAs的模式限定肿瘤群体的亚组,且然后选择至少一个细胞系以匹配每一个亚组,那么可开发比目前可获得的成组模型更能充分代表MM细胞群体的多样性的一小组细胞系。这些细胞系的小组可用于测试治疗性干预。此外,这些数据库允许患者MM肿瘤被更精细地分类,从而允许精准地开具具有更高的有效地治疗癌症的概率的治疗性干预的处方。

本发明的方法有助于治疗性干预和临床前试验模型的合理选择。定义

全基因组拷贝数概况(genome-wide copy number profile)或“拷贝数”是超过一个遗传基因座的DNA拷贝数的测量。拷贝数概况可估计细胞基本上是其中每一个遗传基因座以两个拷贝存在(由于二倍性的缘故,除性染色体外)的野生型还是异常于野生型,即包含遗传基因座的扩增和缺失。扩增和缺失可影响元件的一部分和完整的元件或同时影响许多元件。拷贝数概况不必定确定扩增或缺失的准确数目,但鉴定含有遗传异常的那些区域,和确定异常是缺失还是扩增。

在一些实施方案中,“野生型”基因组,当用于样品的基因型确定的背景中时,不必定表示野生型样品是严格二倍体。在本发明的背景中,“野生型”基因组是获自不表达或不将表达特定疾病状态例如MM的细胞的基因组。例如,野生型基因组可由受试者从健康正常细胞提供,并且可将其与相同受试者的MM细胞相比较。

“贝叶斯信息准则”或“BIC”是指用作用于模型选择的统计学准则的参数方法。BIC由(Schwarz,1978)进行了描述。BIC利用公式(1)来限定:

BIC=-2*ln L+kln(n)  (1)

其中L是测量模型怎样好地接近数据的似然性,k是模型中使用的参数的数目,且n是样品的数目。第二项k*ln(n)用作对模型中使用的参数的数目的罚分以避免过度拟合(over-fitting)。

可互换使用的“同表象相关系数”或“同表象相关”是指用于测量用于得出终聚类结果的树形图怎样忠实地保持初始未建模数据点之间的逐对距离的算法。为了用于本发明,如果假定已通过树形图Ti对原始数据Xi建模,那么利用公式(2)限定距离测量:

x(i,j)=|Xi-Xj|    (2)

第i个与第j个样品之间的距离,且t(i,j)=模型点Ti与Tj之间的树形图(dendrogrammatic)距离,其中所述距离是这两个点首次连接在一起所处的节点的高度。

然后,如果x是x(i,j)的平均值,并且t是t(i,j)的平均值,那么同表象相关系数c由公式(3)限定:

c=Σi<j(x(i,j)-x)(t-(i,j)-t)[Σi<j(x(i,j)-x)2][Σi<j(t(i,j)-t)2]---(3)

随着r增加,同表象相关将在某个点急剧减少,从而对应于簇的最佳数目(Carrasco等人,2006;Maher等人,2006)。

“聚簇分析”,也称为“数据分段(data segmentation)”是指将对象(也称为观察、个体、案例(cases)或数据行(data rows))的集合分组或分段成亚群(subset)、亚组或“簇”,以便每一个簇内的那些对象彼此之间比分配至不同簇的对象之间关系更密切。聚簇分析的所有目的中核心的是待聚类的个别对象之间的相似性(或相异性)程度的概念。聚类的种类的实例是等级聚类和K-平均值聚类。

“等级聚类”是指簇的等级的建立(团聚的)或解散(分裂的)。该等级的传统表示是树形图,其中个别要素在一端并且含有每一个要素的单个簇在另一端。团聚的算法始于树的叶,然而分裂的算法始于根。用于进行等级聚类的方法在本领域内是公知的。

等级聚类方法已在生物医学研究中广泛地用于基于其基因表达模式聚簇生物学样品和得出样品群体中的亚组结构(Bhattacharjee等人,2001;Hedenfalk等人,2003;Sotiriou等人,2003;Wilhelm等人,2002)。例如,等级聚类已被用于将64个人肿瘤细胞系基于1161个选择的基因的表达模式分组成几个簇,且得出不同簇的分子特征(Ross等人,2000)。

“机器学习”是指涉及使得计算机能够“学习”的算法和技术的设计和开发的人工智能的学科分支。一般而言,存在两种类型的学习:归纳的和演绎的。归纳的机器学习法从数据集提取出规则和模式。机器学习研究的主要焦点是通过计算和统计学方法自动地从数据提取信息。基于需要的算法结果,被组织至分类学中的许多机器学习算法对于本领域技术人员来说是已知的。这些包括(1)监督学习(例如,随机森林);(2)无监督学习(例如,主要组分分析、向量量化等);(3)半监督学习(semi-supervised learning);(4)强化学习(reinforcement learning);(5)转导(transduction);和(6)学会学习。

“非负矩阵因子分解”(NMF)是指用于发现非负数据的基于部分的线性代表的算法。非负矩阵因子分解最初被开发为用于图象分析的数学工具(Lee和Seung,1999;Lee和Seung,2001)。NMF在基因组学中被采用来分析基因表达数据(Brunet等人,2004)。具体地,NMF适用于在基因拷贝数数据的分析中使用,用于基因拷贝数分析的方法的变形称为基因组非负矩阵因子分解(gNMF)(Carrasco等人,2006;Maher等人,2006)。已知一组样品的修正的拷贝数数据的nxm矩阵V,其中n是区段的数目,且m是样品的数目,gNMF算法将矩阵V因子分解成如公式(4)中显示的nxr矩阵W和rxm矩阵H:

V=W*H+e    (4)

其中W可被视为每一个亚组的标准模型;H被视为属于每一个亚组的每一个样品的相对权重;e表示模型拟合残数(model fitting residue),且r为待聚类的(clustered)亚组的数目(其通常比m小得多)。已知r和V为输入,gNMF算法首先随机设置W和H的初始值,然后根据公式(5)和(6)利用乘性更新规则(multiplicative update rule)迭代更新W和H:

HαμHαμΣiWV/(WH)ΣkW---(5)

WWΣμHαμV/(WH)ΣvHαv---(6)

其中α从1运行至r,μ从1运行至m,以及i从1运行至n。

“Pearson线性相异性(Pearson linear dissimilarity)”是指公式(7):

dρ(x,y)=1-ρ(x,y)2---(7)

其中和是两个具有长度n的向量,是具有公式(8)的Pearson线性相关:

ρ(x,y)=1n-1Σi=1n(xi-xsx)(yi-ysy)---(8)

其中样本标准差sx和sy具有公式(9):

sx=Σi=1n(xi-x)2n-1---(9)

并且其中样本平均值具有公式(10):

x=1nΣi=1nxi.---(10)

“随机森林”是指监督学习算法,其使用树预测值(tree predictor)的组合以便每一棵树依赖于独立取样的随机向量的值并且森林中所有树具有相同的分布(Breiman,2001)。

随机森林生长许多分类树。为了分类来自输入向量(input vector)的新对象,将输入向量置于森林中每一棵树下方。每一棵树给出分类,且认为树“投票”赞成该类。森林选择具有最多投票(在森林中全部树的范围内)的分类。如下生长每一棵树:

1.如果训练集(training set)中案例的数目是n,那么从原始数据随机获取n个案例的样本-但具有替换。该样本将是用于生长树的训练集。

2.如果存在m个输入变量,指定数目m<<M以便在每一个节点,从M中随机选出m个变量并且将对这m个变量的最佳分裂用于分裂节点。在森林生长过程中m的值保持恒定。

3.使每一棵树生长至最大可能程度。不存在剪枝。

森林差错率(forest error rate)取决于两个因素:

1.森林中任何两棵树之间的相关。增加相关则增加森林差错率。

2.森林中每一棵个别树的强度。具有低差错率的树是强分类器(classifier)。增加个别树的强度则减小森林差错率。

“寡核苷酸”或“多核苷酸”是在长度上范围为至少2,优选至少8和更优选至少20个核苷酸的核酸或与多核苷酸特异性杂交的化合物。多核苷酸包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。多核苷酸的另一个实例是肽核酸(PNA)。

“探针”是可被特定靶识别的表面固定化分子。

“固体支持物”、“支持物”和“基质”可互换使用并且是指具有一个或多个刚性或半刚性表面的材料或材料的组。

“杂交”是指足够互补以通过Watson-Crick碱基配对或非规范碱基配对形成复合物的核酸序列之间的复合物的形成。例如,当引物与靶序列(模板)“杂交”时,此种复合物(或杂交体(hybrid))足够稳定以发挥例如DNA聚合酶起始DNA合成所需的引发功能。杂交序列不必具有完全的互补性来提供稳定的杂交体。在许多情况下,当少于约10%的碱基错配时,稳定的杂交体形成。如本文中所使用的,术语“互补”是指在测定条件下与其互补体形成稳定双链体的寡核苷酸,通常其中存在约80%、约81%、约82%、约83%、约84%、约85%、约86%、约87%、约88%、约89%、约90%、约91%、约92%、约93%、约94%、95%、约96%、约97%、约98%或约99%的更大的同源性。本领域技术人员知道如何估计和调整杂交条件的严格性以便具有至少所需的互补性水平的序列稳定地杂交,同时具有更低互补性的那些序列不杂交。杂交条件和参数的实例是公知的(Ausubel,1987;Sambrook和Russell,2001)。

核酸阵列(“阵列”)包括附着至固体支持物的核酸探针。阵列一般包含多个在不同的已知位置中与基质的表面偶联的不同核酸探针。这些阵列也被描述为微阵列,“芯片”已广泛地描述于本领域中,例如美国专利Nos.5,143,854、5,445,934、5,744,305、5,677,195、6,040,193、5,424,186和(Fodor等人,1991)中。这些阵列通常可使用机械合成法或整合光刻法和固相合成法的组合的光指导的合成法(light directed synthesis method)来生产。用于使用机械合成来合成阵列的技术描述于例如美国专利No.5,384,261中。虽然平面阵列表面是优选的,但也可在事实上任何形状的表面或甚至多种表面上制作阵列。阵列可以是珠、凝胶、聚合物表面、纤维例如光导纤维(fiber optics)、玻璃或任何其他适当的基质上的核酸;例如,如美国专利Nos.5,770,358、5,789,162、5,708,153、6,040,193和5,800,992中所描述的。可以以这样的方式包装阵列以允许其用于诊断或所有包括的设备的其他操作,参见例如,美国专利Nos.5,856,174和5,922,591。

可使用单核苷酸多态性(SNPs)设计阵列以覆盖完整基因组。例如,阵列可以以23.6kb SNP基因座的平均标记间距离(mean inter-marker distance)以23.6kb基因座的平均标记间距离覆盖人基因组中的116,204个单核苷酸多态性(SNP)基因座。

“标记的”和“用可检测标记(或试剂或部分)标记的”可互换使用并且具体说明可以例如在与另一种实体(例如,扩增产物)结合后使实体(例如,DNA的片段、引物或探针)显现。可选择可检测标记以便所述标记产生可被测量并且强度与结合的实体的量相关(例如,成比例)的信号。用于标记和/或检测核酸分子例如引物和探针的多种系统是公知的。可通过掺入或缀合可利用分光镜方法、光化学方法、生物化学方法、免疫化学方法、电学方法、光学方法、化学方法或其他方法直接或间接检测的标记来制备标记的核酸。适当的可检测试剂包括放射性核素、荧光团、化学发光试剂、微粒、酶、比色标记、磁性标记、半抗原等。

“探针”是指经设计用于与CGH微阵列、SNPs微阵列或本领域内已知的任何其他微阵列结合使用的寡核苷酸,其能够在适当的条件下与靶序列的至少一部分选择性杂交。一般说来,探针序列被鉴定为“互补的”(即,与编码或有义链(+)互补)或“反向互补的”(即,与反义链(-)互补)。探针可具有约10至100个核苷酸,优选约15至75个核苷酸,最优选约15至50个核苷酸的长度。

可互换使用的“药物组合物”或“药物”是指可用于治疗患有至少一种类型的癌症的受试者或患者的任何试剂,无论是小分子(例如,含有活性剂的药物,一般非肽)还是生物试剂(例如,基于肽、蛋白质或抗体的药物,包括具有修饰例如加入聚乙二醇(PEGylation)的任何药物)。

“细胞”可来自肿瘤、细胞系或受试者。

“治法”或“治疗方案”是指企图减小或消除疾病的影响或症状或阻止疾病从一种状态进展至第二更有害的状态的治疗过程。治疗方案可包括处方药、外科手术或放射治疗。受试者的肿瘤的拷贝数概况还可影响选择的疗法的副作用和功效。在本发明中,可将受试者的肿瘤的拷贝数概况用于确定可能是最有效的疗法或治疗方案。

“受试者”或“患者”包括哺乳动物和非哺乳动物。哺乳动物的实例包括:人、其他灵长类动物例如黑猩猩和其他猿类和猴物种;农畜(farm animal)例如牛、马、绵羊、山羊、猪;家畜例如兔、狗、和猫;实验室动物包括啮齿类动物例如大鼠、小鼠和豚鼠。非哺乳动物的实例包括鸟和鱼。

“治疗”意指减轻、消除或改善疾病或状况症状,预防另外的症状,改善或预防症状背后的代谢原因,抑制疾病或状况,例如抑制疾病或状况的发展,减轻疾病或状况,使疾病或状况消退,减轻由疾病或状况引起的状态或者预防性和/或治疗性终止疾病或状况的症状。

实践本发明

在本发明的方法中,生成拷贝数概况的参考数据库,其中确定多个(m)包含MM细胞的样品中的基因组拷贝数(其中m是从1至5,000,000的整数。例如,多个样品可为二(2)、五(5)、十(10)、十五(15)、二十(20)、二十五(25)、五十(50)、一百(100)、二百(200)、五百(500)、一千(1,000)、一万(10,000)、五万(50,000)、十万个样品(100,000)、二十五万个样品(250,000)、五十万(500,000)、一百万(1,000,000)个样品等)。然后按照拷贝数的模式,拷贝数概况,将MM细胞分类至基因组亚组。这些亚组中的每一个亚组不仅代表了基于基因型的分类,而且还预期对各种治疗性干预显示特有的反应性。例如,一个亚组可以对辐射更易感,而另一个亚组对药物干预例如化学疗法更易感。

在可从患有MM或处于患MM的风险中的受试者获得的MM细胞中检测到拷贝数改变。可使用常规常规技术获得此种细胞。例如,可通过外科手术从患有或怀疑患有癌症的受试者解剖肿瘤,然后立即将其例如在-80℃冷冻。

为了开发允许受试者的分类的不同亚组的数据库,可商购获得或从公共来源获得MM肿瘤和癌细胞系。一组有用的细胞系示于表1中。在表中,ATTC,美国典型培养物保藏中心(Manassus,VA);CLS,Cell Line Service(德国),和DSMZ,Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH(Braunschweig,德国)。

可从许多商购可得或可公共获得的来源获得MM细胞和癌细胞系的其他拷贝数和拷贝数改变信息,例如从Gene Expression Omnibus(GEO),其可从美国国家生物技术信息中心(NCBI)获得,Broad Institute/Dana Farber Cancer Institute internet Portal,从Dana Farber Cancer Institute网站在线获得等。

表1

细胞和来源

一旦获得肿瘤和癌细胞系,就使用常规技术例如酚-氯仿提取、盐析、无消化提取(digestion-free extraction)或通过使用商购可得的试剂盒例如DNEasy或QIAAMP试剂盒(Qiagen,Valencia,CA)从每一个肿瘤或细胞系提取基因组DNA(gDNA)。然后可修饰或改变获自每一个肿瘤或细胞系的gDNA以促进分析。例如,可使用常规技术将引物或衔接头序列连接至gDNA。例如,可首先用限制性内切核酸酶例如HindIII或XbaI消化gDNA。一旦消化,就可将一个或多个引物或适应序列(adapted sequence)连接至消化的gDNA。优选,衔接头是识别粘性4碱基对突出端的那些。

使用常规方法扩增分离的DNA。有用的核酸扩增方法包括聚合酶链反应(PCR)。PCR在许多参考文献(Innis,1990;Innis等人,1995;McPherson等人,1991;Saiki等人,1986;Sninsky等人,1999);和美国专利Nos.4,683,195、4,683,202和4,889,818(其每一个在此引入作为参考)中进行了描述。PCR的变形包括基于TAQMAN-的测定(Holland等人,1991)和逆转录酶聚合酶链反应(RT-PCR;描述于例如美国专利Nos.5,322,770和5,310,652中,其每一个都引入作为参考)。

通常,向分离的gDNA中加入一对引物以与靶核酸的互补链杂交。如果消化获自肿瘤或癌细胞系的gDNA,并将其与引物或衔接头序列连接,那么优选用于扩增方法中的引物之一识别所述衔接头序列。也优选用于扩增方法中的引物扩增250至2000个碱基对大小范围内的片段。

在完成扩增后,使用常规技术例如MINELUTE96 UF PCR纯化系统(Qiagen)纯化所得到的扩增的DNA。在纯化后,然后使用常规技术例如超声处理或酶促消化例如DNA酶I片段化扩增的DNA。在片段化后,用可检测标记对DNA进行标记。用于标记DNA和DNA的片段的方法是公知的。

可使用多种多样的可检测标记中的任何一种。适当的可检测标记包括但不限于各种配体、放射性核素(例如,32P、35S、3H、14C、125I、131I等);荧光染料;化学发光试剂(例如,吖啶(acridinium)酯、稳定的二氧杂环丁烷(stabilized dioxetane)等);光谱可分辨的无机荧光半导体纳米晶体(spectrally resolvable inorganic fluorescent semiconductor nanocrystal)(例如,量子点)、金属纳米颗粒(nanoparticles)(例如,金、银、铜和铂)或纳米簇(nanocluster);酶(例如,辣根过氧化物酶、β-半乳糖苷酶、萤光素酶、碱性磷酸酶);比色标记(colorimetric label)(例如,染料、胶体金等);磁性标记(例如,DYNABEADSTM);和生物素、洋地黄毒苷(dioxigenin)或其他半抗原和蛋白质。

一旦扩增,就用可检测标记对片段化的DNA进行标记,使用常规技术将其与微阵列杂交。微阵列可包含寡核苷酸、基因或基因组克隆,其可用于比较基因组杂交(CGH)以寻找基因组获得和丧失。可选地,微阵列可包含检测突变或多态性例如单核苷酸多态性(SNPs)的寡核苷酸或基因组克隆。可使用本领域内已知的常规技术制造微阵列。可选地,可使用商购可得的微阵列。可使用的微阵列的实例是AFFYMETRIXGENECHIPMapping 100K Set SNP阵列(Matsuzaki等人,2004)(Affymetrix,Inc.,Santa Clara,CA)、Agilent Human Genome aCGH Microarray 44B(Agilent Technologies,Inc.,Santa Clara,CA)、Illumina微阵列(Illumina,Inc.,San Diego,CA)、Nimblegen aCGH微阵列(Nimblegen,Inc.,Madison,WI)等。

在杂交后,使用常规技术洗涤微阵列以除去未杂交的核酸。在洗涤后,在读数器或扫描仪中分析微阵列。读数器和扫描仪的实例包括GENECHIPScanner 3000 G7(Affymetrix,Inc.)、Agilent DNA微阵列扫描仪(Agilent Technologies,Inc.)、GENEPIX4000B(Molecular Devices,Sunnyvale,CA)等。可使用商购可得的软件例如由Affymetrix或Agilent Technologies提供的那些软件分析从微阵列中包含的探针采集的信号。例如,如果使用来自Affymetrix的GENECHIPScanner3000 G7,那么可使用AFFYMETRIXGENECHIPOperating软件。AFFYMETRIXGENECHIPOperating软件从检测来自所有探针的信号的AFFYMETRIXGENECHIP扫描仪收集和提取原始或特征数据(信号)。可以以任何适当的文件格式之一电子地存储原始或特征数据,例如CEL文件(CEL文件的格式是与Windows INI格式相似的ASCII文本文件)、CHP文件、CNT文件、metaprobeset文件或纯文本文件。

处理从微阵列收集和提取的数据以确定每一条染色体上每一个基因座的拷贝数和限定拷贝数改变的区域。可使用已知的算法例如二元环状分段(Binary Circular segmentation)(Olshen等人,2004)、DNA的获得和丧失分析(Gain and Loss Analysis of DNA)(GLAD)(Hupe等人,2004)、基于隐蔽马尔可夫模型的方法(Fridlyand等人,2004;Zhao等人,2004)或聚类方法(Wang等人,2005)等进行这样的处理。可选地,可使用商购可得的软件,例如PARTEKGENOMIC SUITETM软件,例如6.08.0103版(可从Partek,St.Louis,MO获得),GenePattern(可在线获得;(Reich等人,2006))和dChip(可在线获得;(Li和Hung Wong,2001;Li和Wong,2001)。

例如,如果使用PARTEKGENOMIC SUITETM软件例如6.08.0103版,那么可将包括利用扫描仪检测的来自微阵列中所有探针的信号的CEL文件加载至软件中。通过在针对预置基线(用于确立预置基线的数目不是关键的并且为整数(n),其中n是1至100。例如,预置基线可以为2)进行校正后,将从微阵列测定的肿瘤或癌细胞系样品的信号强度与在参考或对照中的信号强度相比较来计算拷贝数。所使用的参考或对照可以是利用相同微阵列平台测量的一组正常组织样品或来自与肿瘤样品相同的患者的配对正常组织。参考或对照可包括至少5个样品、至少10个样品、至少15个样品、至少20个样品、至少25个样品、至少30个样品、至少35个样品、至少40个样品、至少45个样品、至少50个样品、至少75个样品、至少100个样品、至少150个样品、至少200个样品等。

然后对所得的拷贝数数据进行分段,且在每一个样品中检测拷贝数改变区域。可使用下列控制参数获得拷贝数改变区域的分段和检测:

(i)拷贝数区域必须包含至少100个探针;

(ii)比较拷贝数区域对邻近拷贝数区域的平均拷贝数的p值必须小于0.00001;和

(iii)转换的信/噪比必须大于0.1。

当这些区域中的平均拷贝数在统计学上小于1.65(缺失)或大于2.65(获得),P值小于0.01时,可检测到拷贝数改变区域。

因为肿瘤样品可包含相当大百分比的正常细胞,所述正常细胞可稀释拷贝数改变的信号,所以机器学习算法可用于捕获肿瘤和癌细胞系样品的拷贝数模式与正常样品的拷贝数模式之间的差异。这样的算法可用于鉴定被正常细胞污染的肿瘤样品并且将其从进一步分析中消除。因此,该算法用作数据质量控制并且称为“数据质量控制算法”。

数据质量控制算法包括从本文中之前描述的肿瘤和癌细胞系样品选择具有最多数目的拷贝数改变区域的样品亚组(在下文中称为“第一样本集”)。也选择正常组的样品(在下文中称为“第二样本集”)。将这些第一和第二样本集用作训练组来开发机器学习算法,以通过将算法的参数调整至最能代表第一和第二样本集之间的差异来将样品分类为“正常”或“肿瘤”样品。将训练的分类器应用于剩余肿瘤或癌细胞系样品以将分数赋予每一个样品。该分数代表每一个样品被正常细胞污染的概率。从随后的聚类分析中排除具有超过50%的污染概率的样品。可用于该目的的机器学习算法包括随机森林(RF)(Breiman,2001)、支持向量机(Support Vector Machine)(SVM)(Vapnik,1995)、Recursive-SVM(Zhang等人,2006)、最小角度回归(Least-angle regression)(LARS)(Efron等人,2004)等。

因为从微阵列获得的拷贝数数据倾向于为高度密集和有噪声的,所以可修正拷贝数数据以降低噪声水平,和降低维数(也称为“降维”)和数据复杂性。可通过首先使用常规技术检测每一个样品中显著获得的或缺失的拷贝数区域来进行数据修正。一旦鉴定了此种区域,那么如果邻近区域具有相似的拷贝数改变以及如果这些区域之间的距离小于500千碱基,则可合并所述邻近区域。接着可使用数据集中来自所有样品的断点的联合对完整基因组进行分段,并且可通过计算每一个区段内的SNPs探针的拷贝数平均值来计算每一个区段的拷贝数(Carrasco等人,2006)。数据修正可给出每一个样品的拷贝数获得和缺失的更好的分辨率。

在数据修正和降维后,将数据集经历无监督聚类方法来获得每一个肿瘤与癌细胞系样品之间的相对相似性的概观和获得迄今存在于数据中的亚组的数目(其在本文中也称为r亚组)的估计(例如,粗略估计)。在数据修正和降维后,将使用Pearson线性相异性算法的无监督聚类方法应用于修正的肿瘤和细胞系拷贝数数据集,所述数据集也称为“数据集(Data Set)”或V。可将聚类模式作图和进行目视检查以获得数据集中亚组的可能数目r的范围(数据集中亚组的可能数目的范围将是1至100的整数(n))。可使用的无监督聚类方法的实例包括但不限于等级聚类、主要组分分析(PCA)(Pearson,1901)或多维标度法(Multidimensional Scaling)(MDS)(Borg和Groenen,2005)。然后将亚组的数目(其各自被称为“r值”,其中各r值是1至100的整数)在使用基因组非负矩阵因子分解(“gNMF”)的聚类分析中用作输入。

在之前gNMF对簇CGH数据的应用(Carrasco等人,2006;Maher等人,2006)中,当肿瘤或癌细胞系样品的亚组分配在进行预先规定的数目的步骤(例如,100)后不改变时,终止算法。基于使用模拟数据以及实际CGH数据的测试,认为该准则过早地终止(例如,结束)gNMF算法。因此,可改进gNMF算法以使在乘性更新进行选择的数目的步骤(其中步骤的选择的数目不是关键的并且是1至1000的整数(n),例如5步、10步、25步、50步、100步、200步等)后,使用公式(11)计算来自数据集的算法的散度:

D(V||WH)=Σi=1nΣj=1m(VijlogVij(WH)ij-Vij+(WH)ij)---(11)

其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目。

通过使用上述公式,如果当与算法的乘性更新进行先前或预先选择的数目的步骤(例如,100)所计算的散度相比较时,上文中计算的散度减小不超过约0.001%,则终止迭代算法(在本文中也称为“终止准则”)。已发现对gNMF算法的该改进显著地提高了聚类的准确度。

因为gNMF是随机程序,所以当始于不同的初始值时算法可产生不同的结果。为了进一步改进聚类算法的性能,开发了新颖的多起始策略(multiple initiation strategy)。对于每一个数据集,所述策略包括使用上述终止准则和随机起始或重复gNMF算法,进行选择的运行数(可随机起始或重复算法的选择的运行数是从1至1000的整数(n),例如1、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、350等)。一旦算法已完成其随机选择的运行数,就使用公式(12)计算这些运行的每一次的H的Pearson相关系数矩阵:

Ci,j=ρ(H,i,H,j)=1r-1Σk(Hk,i-H,i)(Hk,j-H,j)sH,isH,j---(12)

其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列的向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,且m是数据集中样品的数目,k从1运行至r,且r是亚组的数目(之前在本文中测定的)。一旦确定每一次运行的H的Pearson相关系数矩阵,就计算相关矩阵的平均值。通过使用1减平均相关矩阵作为距离矩阵运行无监督聚类方法(例如,例如等级聚类算法)并且将树形图分割至r个亚组,来获得最终的聚类结果。

例如,如果gNMF算法随机运行200次,则在200次运行后,使用上述公式计算来自200次随机gNMF运行的每一次的输出的H的Pearson相关系数矩阵。然后计算200次运行的相关矩阵的平均值。可通过使用1减平均相关矩阵作为距离矩阵运行等级聚类算法并且将树形图分割至r个亚组,来获得最终的聚类结果。

一旦获得最终的聚类结果,就可将同表象相关系数、贝叶斯信息准则(BIC)或同表象相关和BIC的组合用于选择最好地反映这些肿瘤和细胞系样品的遗传模式的分布的最佳模型(即,簇的最佳数目和每一个样品至簇之一的最佳分配)。可将对数正态分布用于该分析,因为其被广泛用于拟合DNA拷贝数(Hodgson等人,2001)。为了计算似然性,可假定每一个簇中的样品来自相同的多对数正态分布(multi-lognormal distribution),其中每一个区段的平均拷贝数遵循对数正态分布。如果区段之间的相关性弱,那么可在计算中假定区段之间独立。在该情况下,所得的对数似然公式(13)是:

lnL=12ln(2π)Σi=1rΣj=1niΣt=1m(yijt-μit)22σit2ln(σij)---(13)

其中r是簇的数目,ni是簇i中样品的数目,m是区段的数目,yijt是第i簇中第j样品的第t区段的对数变换的拷贝数,μit是第i簇中第t区段的对数变换的拷贝数的平均值,且σit是第i簇中第t区段的对数变换的拷贝数的标准差。因此特定模型中参数的数目k将是2×r×m。

许多次,当使用同表象相关系数和BIC作为在无监督聚类中选择最佳模型的准则时,这两个算法将经常选择相同的模型。

可使用10倍稳定性检验程序评估聚类结果的稳定性。可如下进行10倍稳定性检验。在对数据集运行gNMF并且将样品分配至簇后,省去(leave out)至少约10%的肿瘤和癌细胞系样品,且对剩余的90%的肿瘤和癌细胞系样品第二次运行上述改进的gNMF算法(如果至少约15%的肿瘤和癌细胞系样品被省去,那么对剩余的85%的肿瘤和癌细胞系样品第二次运行上述gNMF算法,等等)。然后计算作为该排列的结果被分配至不同簇的样品数目。重复检验进行选择的次数(检验可重复1至1000次。例如,检验可重复1次、20次、25次、50次、100次、200次、500次、750次、1000次等)以使用本领域已知的常规技术获得差错率。该差错率代表就肿瘤和癌细胞系样品的排列而言的聚类结果的稳定性。可对使用相同数据集(肿瘤和癌细胞系样品)的无监督聚类方法(例如,等级聚类)使用该10倍稳定性检验。

使用这些方法,可将具有MM细胞和MM细胞系的肿瘤分类至基因组亚组。首先,使用上述方法将足够数目的MM肿瘤和MM细胞系聚类至不同亚组。从这些亚组的每一个,选择来自每一个亚组的至少一个细胞系并且将其加入至小组(panel),每一个小组因而包含基因组亚组。从而所得的小组充分地代表MM的全部基因组亚型(genomic subtype)。该小组可用作MM的药物组合物或药物测试的临床前模型,从而提供了处于考虑中的肿瘤类型的基因组多样性的全面覆盖。

应用

装配诊断小组(diagnostic panel)使得能够增加对MM诊断的灵敏度。现在不仅可就MM诊断受试者,而且还可就基于受试者的MM基因型在分类小组中的分类的MM的“基因组类型”诊断受试者。这样,可施用靶向治疗性干预,其增加治疗的成功和改善受试者的生活质量。

在本发明的诊断方法中,获得怀疑包含至少一个MM细胞的样品。然后使用用于确立原始诊断小组的相同探针和参数,或可检测拷贝数改变的任何其他组的探针和参数,使样品中的细胞经历微阵列分析,且处理来自微阵列分析的数据集以确定受试者的MM基因型类似于哪个亚组。然后将受试者的MM基因型分配至该亚组。

根据亚组信息,可设计治疗性干预和试验。例如,当关于治疗成功(如与MM基因型相关的)的数据变得可获得时,可基于受试者MM基因型和亚组分类对受试者施用具有最高的治疗MM的概率的那些治疗。这样,极大地减少了试错(trail-and-error)治疗,也极大地减少了对最具侵入性的治疗(外科手术)的依赖,并且受试者在治疗过程中具有更好的减轻和更高生活质量的机会。受试者的生活质量提高,这是因为治疗时间段和治疗性干预的次数减少。

如果未确立治疗,那么可通过使用细胞小组数据确定治疗性干预。例如,如果细胞系S、K、I和N落入单个亚组,那么可就潜在功效使它们经历各种治疗选择的体外测试。有效地对簇中大多数细胞系具有不利作用的那些治疗性干预代表了最可能有效地治疗受试者的那些干预。

用于MM(包括未扩散至它们发展的部位以外的那些黑色素瘤)的治疗性干预是外科手术切除,所述切除具有与原发病灶的镜下病期(microstage)成比例的边缘(margin);对于大多数厚度为2mm或更小的病灶,这意味着1cm的径向再切除(re-excision)边缘。

具有2mm或更厚的Breslow厚度的黑色素瘤的治疗通常是具有基于Breslow厚度和解剖学定位的边缘的外科手术切除。对于大多数厚度超过2mm至4mm的黑色素瘤,这意味着2cm至3cm的径向切除边缘。患有具有超过4mm的Breslow厚度的黑色素瘤的受试者通常考虑进行利用高剂量干扰素的辅助疗法(adjuvant therapy)。

已扩散至局部淋巴结的一些黑色素瘤可使用原发性肿瘤的广泛性局部切除和累及的局部淋巴结的去除来治疗。辅助的高剂量干扰素可增加存活。目前可获得的辅助化学疗法通常不提高存活。

已扩散至远部位的黑色素瘤难以用标准疗法治疗,虽然高剂量白细胞介素-2(IL-2)可在一些受试者中产生反应。其他治疗包括联合化学疗法、生物反应调节物(例如特定的单克隆抗体、干扰素、IL-2或肿瘤坏死因子α)、疫苗免疫治疗或生物化学疗法(化学免疫治疗)。

可使代表性细胞系和肿瘤样品经历体外测试,测定治疗性干预治疗MM的能力。例如,可就其对各种化学治疗剂(单独地和组合地)的易感性测定细胞系。当多个细胞系对一个或多个干预作出相似的反应时,则选择那些干预给受试者施用。因此,可通过体外,和最终真实世界治疗数据增加细胞小组,从而提供基于MM拷贝数概况的治疗矩阵(therapeutic matrix)。

在另一个实施方案中,本发明的方法涉及装配用于分类MM细胞的探针小组。就每一个亚组的最具特征性的拷贝数异常分析基因组亚组的数据库,并且设计探针用以检测那些区域。探针可以是用于原始微阵列分析程序的或就特定特征设计和最优化的探针的亚群。在一个实施方案中,此种探针是FISH探针。在另一个实施方案中,在试剂盒中提供了此种探针小组。

在其他方案中,提供了用以分类MM细胞的试剂盒,其包括例如用于装配通过基因组亚组分类MM细胞的数据库的说明书和至少第一、第二、第三、第四、第五和第六细胞系或其分离的基因组DNA,其中每一个细胞系或gDNA代表基因组亚组。例如,所述第一细胞系或gDNA可以是SKMEL119、HS944、WM1366、WM88;所述第二细胞系可以是WM3248;所述第三细胞系可以是1205LU;所述第四细胞系可以是451LU、SKMEL19、SKMEL28、SKMEL30、SKMEL63、WM35、WM983或WM983C;所述第五细胞系可以是WM3211、M14、MEWO、SKMEL2、SKMEL5、UACC257、UACC62、WM122、WM13662、WM239A、WM32112、WM32482、WM793B或501MEL,以及所述第六细胞系可以是MALME3M或WM882。

试剂盒可包括探针小组以及为正常或非MM细胞的对照细胞系或gDNA。

实施例

下列实施例仅用于举例说明目的并且不应当被解释为对所请求保护的发明的限制。存在对于本领域技术人员来说是可获得的多种多样的备选技术和程序,所述技术和程序类似地允许人们成功地进行期望的发明。

涉及MM分类的本发明的方法概述于图1中。

实施例1:细胞系和肿瘤组织样品的CGH数据

本发明收集了来自各种公开的来源的30个黑色素瘤细胞系和109个黑色素瘤短期培养物的CGH数据(Greshock等人,2007;Lin等人,2008)以确立黑色素瘤分类模型。用于本研究的细胞系的来源列于表1中。已按照制造商的说明书,使用Affymetrix’s GENECHIPMapping250K STY SNP阵列获得了这些数据。

还可使用其他SNPs或CGH微阵列平台例如AFFYMETRIXSNPs微阵列的其他版本、Agilent aCGH微阵列(Agilent,Inc.,Santa Clara,CA)、ILLUMINA微阵列(Illumina,Inc.,San Diego,CA)和NIMBLEGENaCGH微阵列(Nimblegen,Inc.,Madison,WI)获得拷贝数数据。

实施例2:步骤2:拷贝数测定和拷贝数改变的检测

将Genomic Suite软件(6.08.0103版)(Partek;St.Louis,MO)用于数据的低水平处理以测定每一个基因座的拷贝数和限定拷贝数改变的区域。将包括对于全部SNPs探针的信号的CEL文件加载至软件中,且通过将肿瘤或细胞系样品的信号强度与90个正常女性组织样品的参考组的信号强度(针对2的基线校正的)相比较来计算拷贝数。参考组还可由其他组的正常样品或来自肿瘤样品的相同患者的配对正常组织组成,其利用相同微阵列平台来进行测量。

对所得的探针水平拷贝数数据进行分段,且检测每一个样品中的拷贝数改变区域。具体地,使用下列控制参数将探针水平拷贝数分段至区域中:(i)区域必须包含至少100个探针,(ii)比较所述区域对邻近区域的平均拷贝数的p值必须小于0.00001,和(iii)转换的信/噪比必须大于0.1。当这些区域中的平均拷贝数小于1.65(缺失)或大于2.65(获得),P值小于0.01时,检测到拷贝数改变区域。

拷贝数的分段和拷贝数改变的检测还可通过其他算法实现,例如二元环状分段(Olshen等人,2004)、DNA的获得和丧失分析(GLAD)(Hupe等人,2004)、基于隐蔽马尔可夫模型的方法(Fridlyand等人,2004)(Zhao等人,2004)或聚类方法(Wang等人,2005)等。这些方法已在几种软件包例如GenePattern(Reich等人,2006)和dChip(Li和Hung Wong,2001;Li和Wong,2001)中得到实现。

实施例3:步骤3:数据质量控制

肿瘤样品可包含相当大百分比的正常细胞,所述正常细胞稀释存在于肿瘤细胞中的拷贝数改变的信号。开发了捕获肿瘤与正常样品的拷贝数模式之间的差异的机器学习算法,然后将其用于鉴定正常污染的样品并且从进一步分析中消除该样品。首先,选择具有最多数目的拷贝数改变区域的样品亚群和正常样品组。将这两组样品用于训练机器学习算法(随机森林:RF(Breiman,2001))以通过将参数调整至最佳地代表肿瘤与正常样品之间的差异来分类正常和肿瘤样品。第二,将训练的分类器算法应用于剩余的样品;分类器给每一个样品赋予分数,其中所述分数代表样品被正常细胞污染的概率。将具有高于50%正常细胞污染的概率分数的样品从聚类分析中排除。

实施例4:步骤4:数据修正和降维

利用SNPs微阵列获得的拷贝数数据的密度高并且存在相当大量噪声。因此,对拷贝数数据进行修正以降低聚类分析的噪声、维数和复杂性。在检测每一个样品中相当大地获得的或缺失的区域后,如果邻近区域具有相似的拷贝数改变并且它们之间的距离小于500kb,那么合并所述邻近区域。通过使用来自数据集中全部样品的断点的联合来形成DNA区段。将每一个区段中的探针的平均拷贝数用于进一步分析。该步骤允许在高通量分析中更清楚地分辨DNA获得和缺失。

实施例5:步骤5:使用等级聚类测定亚组的可能数目的试点(Pilot clustering)聚类分析

对于每一个数据集,本发明人使用Pearson相异性(定义为(1-r)/2,其中r是Pearson相关)等级聚类肿瘤和细胞系CGH数据。将等级聚类模式作图并且和进行目视检查以获得数据集中亚组的可能数目范围。然后使用基因组非负矩阵因子分解将这些数目在聚类分析中用作输入。

实施例6:步骤6:肿瘤和细胞系CGH数据的gNMF聚类

使用步骤5中测定的范围内的簇数目,将gNMF算法用于分类肿瘤和细胞系CGH数据。对于每一个簇数目,使用我们开发的终止准则运行200次gNMF算法。然后通过根据1减H的相关矩阵的平均值进行等级聚类来获得分类模型。

实施例7:步骤7:使用贝叶斯信息准则(BIC)进行的模型选择

利用初始等级聚类分析中选择的几个可能的r值(亚组的数目)运行上述gNMF程序,且建立具有不同数目的亚组的几个模型。然后将贝叶斯信息准则(BIC)用于选择最佳模型(亚组的数目和每一个样品至亚组之一的分配),所述模型最好地反映了这些肿瘤和细胞系样品的遗传模式的分布。

将BIC用作准则来选择最好地反映这些肿瘤和细胞系样品的遗传模式在无监督聚类中的分布的模型。在选择最佳模型后,将每一个黑色素瘤肿瘤样品和细胞系分配至基于选择的模型的基因组亚组之一。还可把将来要进行概况分析的其他黑色素瘤肿瘤样品分配至基于它们的基因组模式的亚组之一。

实施例8:步骤8:聚类稳定性的10倍稳定性检验

开发10倍稳定性检验程序用以评估分类结果的稳定性。在对数据集运行gNMF并且将肿瘤和细胞系样品分配至亚组后,随机省去10%的样品,且对剩余的90%的样品应用相同的程序。计算按照该排列分配至不同亚组的样品的数目。重复该省去检验200次以获得差错率,其代表就样品的排列而言的聚类结果的稳定性。还评估对相同的数据集使用相同程序的等级聚类的稳定性,且发现其总是远高于gNMF聚类的稳定性。

实施例9:结果

步骤1-2。如实施例1和2中所述处理139个MM肿瘤和细胞系样品的CGH数据。检测到总共5616个具有显著改变的拷贝数的区段。

步骤3。将数据质量控制程序应用于MM CGH数据。发现29个肿瘤样品被正常细胞显著污染。将剩余的未被污染的80个肿瘤样品和30个细胞系用于随后的分析。

步骤4。将CGH数据的维数降至4637。

步骤5。将等级聚类用作对MM数据集的初始分析以估计簇的数目。聚类的树形图示于图2中。树形图的目视检查提示数据中存在2-7个主要的簇。

步骤6。使用范围在2至7内的簇数目,将gNMF算法用于分类肿瘤和细胞系CGH数据。对于每一个簇数目,使用我们开发的终止准则运行gNMF算法200次。然后通过根据1减H的相关矩阵的平均值进行等级聚类来获得分类模型。

步骤7。在步骤6中拟合关于gNMF模型的BIC。结果列于表2中,其中r表示每一个模型中的簇的数目。根据表2,本发明人发现具有6个簇的模型具有最小的BIC。具有6个簇的gNMF输出的热图示于图3中。

表2

使用不同簇数目的模型的BIC

将80个MM肿瘤样品分类至基于它们的拷贝数改变的模式的6个亚组,且将细胞系分配至适当的亚组。每一个簇的肿瘤样品数目和细胞系的特性列于表3中。

表3.MM的每一个亚组中MM肿瘤的数目和细胞系的特性

表3

MM的每一个亚组中MM肿瘤的数目和细胞系的特性

步骤8。将10倍稳定性检验用于具有4个簇的gNMF模型。聚类稳定性的10倍检验。差错率为26.42%。作为比较,将使用步骤5中修正的拷贝数数据获得的等级聚类树形图分割至2至7个簇,且使用相同10倍检验测试簇的稳定性。差错率为17.94%至32.14%。

由聚类程序限定的6个组具有不同的基因组畸变模式,这意味着不同的来源、肿瘤发生机制并且提示它们将表现每一个亚组特有的不同的临床行为和对治疗性干预的敏感性。

参考文献

Anand,S.,S.Penrhyn-Lowe,and A.R.Venkitaraman.2003.AURORA-A amplification overrides the mitotic spindle assembly checkpoint,inducing resistance to Taxol.Cancer Cell.3:51-62.

Ausubel,F.M.1987.Current protocols in molecular biology.Greene Publishing Associates;J.Wiley,order fulfillment,Brooklyn,N.Y.Media,Pa.2v.(loose-leaf)pp.

Bhattacharjee,A.,W.G.Richards,J.Staunton,C.Li,S.Monti,P.Vasa,C.Ladd,J.Beheshti,R.Bueno,M.Gillette,M.Loda,G.Weber,E.J.Mark,E.S.Lander,W.Wong,B.E.Johnson,T.R.Golub,D.J.Sugarbaker,and M.Meyerson.2001.Classification of human lung carcinomas by mRNAexpression profiling reveals distinct adenocarcinoma subclasses.Proc Natl Acad Sci USA.98:13790-5.

Borg,I.,and P.Groenen.2005.Modern Multidimensional Scaling:theory and applications.Springer,New York.

Breiman,L.2001.Random Forests.Machine Learning.45:5-32.

Brunet,J.P.,P.Tamayo,T.R.Golub,and J.P.Mesirov.2004.Metagenes and molecular pattern discovery using matrix factorization.Proc Natl Acad Sci USA.101:4164-9.

Carrasco,D.R.,G.Tonon,Y.Huang,Y.Zhang,R.Sinha,B.Feng,J.P.Stewart,F.Zhan,D.Khatry,M.Protopopova,A.Protopopov,K.Sukhdeo,I.Hanamura,O.Stephens,B.Barlogie,K.C.Anderson,L.Chin,J.D.Shaughnessy,Jr.,C.Brennan,and R.A.Depinho.2006.High-resolution genomic profiles define distinct clinico-pathogenetic subgroups of multiple myeloma patients.Cancer Cell.9:313-25.

Efron,B.,T.Hastie,I.Johnstone,and R.Tibshirani.2004.Least angle regression.Annals of Statistics.32:407-499.

Fodor,S.P.,J.L.Read,M.C.Pirrung,L.Stryer,A.T.Lu,and D.Solas.1991.Light-directed,spatially addressable parallel chemical synthesis.Science.251:767-73.

Fridlyand,J.,A.M.Snijders,D.Pinkel,D.G.Albertson,and A.N.Jain.2004.Hidden Markov models approach to the analysis of array CGH data.Journal of Multivariate Analysis.90:132-153.

Greshock,J.,B.Feng,C.Nogueira,E.Ivanova,I.Perna,K.Nathanson,A.Protopopov,B.L.Weber,and L.Chin.2007.A comparison of DNA copy number profiling platforms.Cancer Res.67:10173-80.

Hedenfalk,I.,M.Ringner,A.Ben-Dor,Z.Yakhini,Y.Chen,G.Chebil,R.Ach,N.Loman,H.Olsson,P.Meltzer,A.Borg,and J.Trent.2003.Molecular classification of familial non-BRCA1/BRCA2 breast cancer.Proc Natl Acad Sci USA.100:2532-7.

Hirsch,F.R.,M.Varella-Garcia,P.A.Bunn,Jr.,W.A.Franklin,R.Dziadziuszko,N.Thatcher,A.Chang,P.Parikh,J.R.Pereira,T.Ciuleanu,J.von Pawel,C.Watkins,A.Flannery,G.Ellison,E.Donald,L.Knight,D.Parums,N.Botwood,and B.Holloway.2006.Molecular predictors of outcome with gefitinib in a phase III placebo-controlled study in advanced non-small-cell lungcancer.J Clin Oncol.24:5034-42.

Hodgson,G.,J.H.Hager,S.Volik,S.Hariono,M.Wernick,D.Moore,N.Nowak,D.G.Albertson,D.Pinkel,C.Collins,D.Hanahan,and J.W.Gray.2001.Genome scanning with array CGH delineates regional alterations in mouse islet carcinomas.Nat Genet.29:459-64.

Holland,P.M.,R.D.Abramson,R.Watson,and D.H.Gelfand.1991.Detection of specific polymerase chain reaction product by utilizing the 5′----3′exonuclease activity of Thermus aquaticus DNA polymerase.Proc Natl Acad Sci USA.88:7276-80.

Hupe,P.,N.Stransky,J.P.Thiery,F.Radvanyi,and E.Barillot.2004.Analysis of array CGH data:from signal ratio to gain and loss of DNA regions.Bioinformatics.20:3413-22.

Innis,M.A.1990.PCR protocols:a guide to methods and applications.Academic Press,San Diego.xviii,482 p.pp.

Innis,M.A.,D.H.Gelfand,and J.J.Sninsky.1995.PCR strategies.Academic Press,San Diego.xv,373 p.pp.

Lee,D.D.,and H.S.Seung.1999.Learning the parts of objects by non-negative matrix factorization.Nature.401:788-91.

Lee,D.D.,and H.S.Seung.2001.Algorithms for Non-negative Matrix Factorization.Advances In Neural Information Processing Systems.14:556-562.

Levsky,J.M.,and R.H.Singer.2003.Fluorescence in situ hybridization:past,present and future.J Cell Sci.116:2833-8.

Li,C.,and W.Hung Wong.2001.Model-based analysis of oligonucleotide arrays:model validation,design issues and standard error application.Genome Biol.2:RESEARCH0032.

Li,C.,and W.H.Wong.2001.Model-based analysis of oligonucleotide arrays:expression index computation and outlier detection.Proc Natl Acad Sci USA.98:31-6.

Lin,W.M.,A.C.Baker,R.Beroukhim,W.Winckler,W.Feng,J.M.Marmion,E.Laine,H.Greulich,H.Tseng,C.Gates,F.S.Hodi,G.Dranoff,W.R.Sellers,R.K.Thomas,M.Meyerson,T.R.Golub,R.Dummer,M.Herlyn,G.Getz,and L.A.Garraway.2008.Modeling genomic diversity and tumor dependency in malignant melanoma.Cancer Res.68:664-73.

Maher,E.A.,C.Brennan,P.Y.Wen,L.Durso,K.L,Ligon,A.Richardson,D.Khatry,B.Feng,R.Sinha,D.N.Louis,J.Quackenbush,P.M.Black,L.Chin,and R.A.DePinho.2006.Marked genomic differences characterize primary and secondary glioblastoma subtypes and identify two distinct molecular and clinical secondary glioblastoma entities.Cancer Res.66:11502-13.

Matsuzaki,H.,S.Dong,H.Loi,X.Di,G.Liu,E.Hubbell,J.Law,T.Berntsen,M.Chadha,H.Hui,G.Yang,G.C.Kennedy,T.A.Webster,S.Cawley,P.S.Walsh,K.W.Jones,S.P.Fodor,and R.Mei.2004.Genotyping over 100,000 SNPs on a pair of oligonucleotide arrays.Nat Methods.1:109-11.

McPherson,M.J.,G.R.Taylor,and P.Quirke.1991.PCR,a practical approach.IRL Press at Oxford University Press,Oxford;New York.xxi,253 p.pp.

Olshen,A.B.,E.S.Venkatraman,R.Lucito,and M.Wigler.2004.Circular binary segmentation for the analysis of array-based DNA copy number data.Biostatistics.5:557-72.

Onken,M.,L.Worley,J.Ehlers,and J.Harbour.2004.Gene expression profiling in uveal melanoma reveals two molecular classes and predicts metastatic death.Cancer Res.15:7205-7209.

Pearson,K.1901.On Lines and Planes of Closest Fit to Systems of Points in Space.Philosophical Magazine.2:559-572.

Reich,M.,T.Liefeld,J.Gould,J.Lerner,P.Tamayo,and J.P.Mesirov.2006.GenePattern2.0.Nat Genet.38:500-1.

Ross,D.T.,U.Scherf,M.B.Eisen,C.M.Perou,C.Rees,P.Spellman,V.Iyer,S.S.Jeffrey,M.Van de Rijn,M.Waltham,A.Pergamenschikov,J.C.Lee,D.Lashkari,D.Shalon,T.G.Myers,J.N.Weinstein,D.Botstein,and P.O.Brown.2000.Systematic variation in gene expression patterns in human cancer cell lines.Nat Genet.24:227-35.

Saiki,R.K.,T.L.Bugawan,G.T.Horn,K.B.Mullis,and H.A.Erlich.1986.Analysis of enzymatically amplified beta-globin and HLA-DQ alpha DNA with allele-specific oligonucleotide probes.Nature.324:163-6.

Sambrook,J.,and D.W.Russell.2001.Molecular cloning:a laboratory manual.Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.

Schwarz,G.1978.Estimating the dimension of a model.Annals of Statistics.6:461-464.

Seeger,R.C.,G.M.Brodeur,H.Sather,A.Dalton,S.E.Siegel,K.Y.Wong,and D.Hammond.1985.Association of multiple copies of the N-myc oncogene with rapid progression of neuroblastomas.N Engl J Med.313:1111-6.

Sninsky,J.J.,M.A.Innis,and D.H.Gelfand.1999.PCR applications:protocols for functional genomics.Academic Press,San Diego.xviii,566 p.,[3]p.of plates pp.

Sotiriou,C.,S.Y.Neo,L.M.McShane,E.L.Korn,P.M.Long,A.Jazaeri,P.Martiat,S.B.Fox,A.L.Harris,and E.T.Liu.2003.Breast cancer classification and prognosis based on gene expression profiles from a population-based study.Proc Natl Acad Sci USA.100:10393-8.

Tucker,M.,and A.Goldstein.2003.Melanoma etiology:where are we?Oncogene.22:3042-3052.

Vapnik,V.1995.The nature of statistical learning theory.Springer-Verlag,New York.

Vogel,C.L.,M.A.Cobleigh,D.Tripathy,J.C.Gutheil,L.N.Harris,L.Fehrenbacher,D.J.Slamon,M.Murphy,W.F.Novotny,M.Burchmore,S.Shak,S.J.Stewart,and M.Press.2002.Efficacy and safety of trastuzumab as a single agent in first-line treatment of HER2-overexpressing metastatic breast cancer.J Clin Oncol.20:719-26.

Wang,P.,Y.Kim,J.Pollack,B.Narasimhan,and R.Tibshirani.2005.A method for calling gains and losses in array CGH data.Biostatistics.6:45-58.

Weyers,W.,M.Euler,C.Diaz-Cascajo,W.Schill,and M.Bonczkowitz.1999.Classification of cutaneous malignant melanoma:a reassessment of histopathologic criteria for the distinction of different types.Cancer(Phila).86:288-99.

Wilhelm,M.,J.A.Veltman,A.B.Olshen,A.N.Jain,D.H.Moore,J.C.Presti,Jr.,G.Kovacs,and F.M.Waldman.2002.Array-based comparative genomic hybridization for the differential diagnosis of renal cell cancer.Cancer Res.62:957-60.

Zhang,X.,X.Lu,Q.Shi,X.Q.Xu,H.C.Leung,L.N.Harris,J.D.Iglehart,A.Miron,J.S.Liu,and W.H.Wong.2006.Recursive SVM feature selection and sample classification for mass-spectrometry and microarray data.BMC Bioinformatics.7:197.

Zhao,X.,C.Li,J.G.Paez,K.Chin,P.A.Janne,T.H.Chen,L.Girard,J.Minna,D.Christiani,C.Leo,J.W.Gray,W.R.Sellers,and M.Meyerson.2004.An integrated view of copy number and allelic alterations in the cancer genome using single nucleotide polymorphism arrays.Cancer Res.64:3060-71.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号