首页> 中国专利> 一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统

一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统

摘要

本申请公开了一种头颈部鳞状细胞癌新免疫分型的预测系统,属于人工智能领域。本发明首次运用多组学聚类分析方法,整合RNA‑seq和体细胞突变数据,得到了一个具有生物学意义和临床价值的头颈部鳞状细胞癌免疫分型方法。本发明首次发现,免疫激活型患者的生存结果优于中间型和免疫荒漠型。因此,本发明的免疫亚型分类能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。本发明进一步采用深度学习的方法,基于临床易获取的病理图像数据,构建了一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统,该系统对头颈部鳞状细胞癌免疫亚型的预测准确率高,该免疫亚型预测结果能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。

著录项

  • 公开/公告号CN113870951A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 四川大学;

    申请/专利号CN202111266753.3

  • 发明设计人 徐浩;杨丹;徐子昂;但红霞;

    申请日2021-10-28

  • 分类号G16B40/00(20190101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构51222 成都高远知识产权代理事务所(普通合伙);

  • 代理人郑勇力;张娟

  • 地址 610000 四川省成都市武侯区一环路南一段24号

  • 入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明属于人工智能领域,具体涉及一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统。

背景技术

头颈部鳞状细胞癌(简称HNSCC)是一种恶性程度较高,危害性较大的恶性肿瘤,每年大约有90万例新发病例。该肿瘤的传统治疗方案包括手术、放疗和化疗,尽管随着肿瘤治疗的进展,许多患者的生活质量得到了改善,但5年生存率仍仅保持在50%。

近年来,免疫治疗在临床上受到越来越多的关注。在头颈部鳞状细胞癌中,抗PD-1和抗PD-L1治疗已被证明是一种有前途的治疗方法。但是,由于免疫治疗的应答率较低,仅有部分患者能从免疫治疗中获益。这可能是由患者的免疫异质性造成的。因此,更好地了解肿瘤免疫微环境对头颈部鳞状细胞癌的治疗策略具有重要意义。

肿瘤免疫微环境主要由免疫细胞、免疫细胞因子等因素组成,均与肿瘤的发生发展有关。基于肿瘤免疫微环境的肿瘤免疫分型将有助于了解肿瘤机制,指导临床治疗。目前已有少数研究试图利用肿瘤免疫微环境特征进行头颈部鳞状细胞癌免疫分型,然而,这些研究只分析了主要是RNA-seq(即转录组测序技术)的遗传谱单一组学,并不能完全代表肿瘤免疫微环境(the tumor immune microenvironment,TIME)的特征。此外,目前除了测序外还没有其它方法来预测患者所属的免疫亚型,使免疫分型在临床上应用受限。

在癌症分子分型的研究中,整合多组学数据对患者进行多视角分型已成为研究热点,结果准确率较高。越来越多的证据表明,体细胞突变与肿瘤免疫应答有关。因此,有必要整合免疫相关基因的表达情况和体细胞突变信息,进行多组学聚类分析,以便获得更准确的免疫亚型。

传统的亚型预测方法依赖于测序,限制了免疫分型在临床实践中的应用。但最近的研究表明,病理图像和肿瘤基因组学之间存在潜在联系。因此,如果能够建立合适的方法,利用病理图片来识别免疫亚型,这将有利于新免疫亚型的临床推广。

发明内容

本发明的目的在于提供一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统。

本发明提供了一种用于对头颈部鳞状细胞癌免疫亚型进行分型的系统,所述免疫亚型为中间型、免疫激活型或免疫荒漠型;三种免疫亚型的免疫浸润程度按照免疫激活型、中间型和免疫荒漠型的顺序依次降低;

所述系统按照如下方法将头颈部鳞状细胞癌的免疫亚型进行分型:

1)头颈鳞癌特异性免疫相关基因筛选:基于泛癌中代表免疫细胞亚群的相关基因,进行头颈鳞癌肿瘤组织和癌旁组织间基因差异性分析,获得头颈鳞癌特异性免疫相关基因;

2)分型:以上述头颈鳞癌特异性免疫相关基因对应的RNA-seq和体细胞突变数据作为分型依据,采用R语言iclusterplus包进行多组学聚类分析,将患者分为三个亚型。

优选的,步骤2)中,所述分型的过程中参数设置要为:maxiter=2000,sdev=0.05,eps=1.0e-4。

本发明还提供一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统,所述免疫亚型为中间型、免疫激活型或免疫荒漠型;三种免疫亚型的免疫浸润程度按照免疫激活型、中间型和免疫荒漠型的顺序依次降低;

所述预测系统包括以下部分:

输入模块,用于输入头颈部鳞状细胞癌患者的头颈部鳞状细胞癌病理图像数据;

预测模块,所述预测模块内置神经网络模型,用于根据头颈部鳞状细胞癌病理图像数据计算免疫亚型预测结果;

输出模块,用于输出头颈部鳞状细胞癌患者的免疫亚型预测结果:中间型、免疫激活型或免疫荒漠型。

优选的,所述中间型、免疫激活型和免疫荒漠型的分型标准是对头颈部鳞状细胞癌按照如下方法进行划分得到:

1)头颈鳞癌特异性免疫相关基因筛选:基于泛癌中代表免疫细胞亚群的相关基因,进行头颈鳞癌肿瘤组织和癌旁组织间基因差异性分析,获得头颈鳞癌特异性免疫相关基因;

2)分型:以上述头颈鳞癌特异性免疫相关基因对应的RNA-seq和体细胞突变数据作为分型依据,采用R语言iclusterplus包进行多组学聚类分析,将患者分为三个亚型。

优选的,步骤2)中,所述分型的过程中参数设置要为:maxiter=2000,sdev=0.05,eps=1.0e-4。

优选的,所述头颈部鳞状细胞癌病理图像数据是切割后的像素大小为224×224的图块。

优选的,预测模块中,所述神经网络模型为EfficientNets模型。

优选的,预测模块中,所述EfficientNets模型的网络构架包括:2D卷积层Conv2D1,批标准化层BN1,7个限制层,2D卷积层Conv2D2,批标准化层BN2,全局池化层GAP,损失层和全连接层。

优选的,用于训练所述EfficientNets模型的预训练模型具有如下参数设置:

2D卷积层Conv2D1:

kernel_size=(3,3),strides=2,padding="same",use_bias=False;

批标准化层BN1:激活函数为swish;

7个Block层参数如下表所示:

2D卷积层Conv2D2:

kernel_size=(1,1),strides=1,padding="same",use_bias=False;

批标准化层BN2:激活函数为swish;

全局池化层:Default,为EfficientNets的默认参数;

损失层:dropout_rate=0.2;

全连接层:units=2,activation=tf.keras.activations.softmax;

其中:width_coefficient为宽度系数;depth_coefficient为深度系数;resolution为切割图片后单个图片的宽度;in_channels为输入图像的通道数目;out_channels为卷积之后的通道数目;layers为添加额外卷积层的次数;expansion_factor为将in_channels的大小缩放的倍数;k为卷积核的一维尺寸dropout_rate为随机舍弃的神经元比例;kernel_size为卷积核的二维尺寸;strides为卷积操作中的滑动步长;padding为卷积核边缘的填充方式;use_bias为是否使用偏置向量;swish为激活函数,函数表达式为f(x)=x*sigmoid(βx),其中β是一个常数或可训练的参数;Units为该层的神经元数;Activation为激活函数;tf.keras.activations.softmax为Tensorflow内置的激活函数的一种。

优选的,用于训练所述EfficientNets模型的学习率为0.007,训练轮数为80。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于实现上述用于预测头颈部鳞状细胞癌免疫亚型的预测系统。

本发明中,“免疫浸润程度”是指肿瘤组织中免疫细胞富集程度。

需要特别说明的是,本发明中所述三种头颈部鳞状细胞癌免疫亚型:“中间型”“免疫激活型”或“免疫荒漠型”均为本发明首次提出,其划分的标准是按照如下方法进行:

1)头颈鳞癌特异性免疫相关基因筛选:基于Charoentong[Cell Rep,2017.18(1):p.248-262.]从37项研究中总结出泛癌中代表免疫细胞亚群的相关基因(782个),进行头颈鳞癌肿瘤组织和癌旁组织间基因差异性分析,获得头颈鳞癌特异性免疫相关基因(305个)。

2)分型:以上述头颈鳞癌特异性免疫相关基因对应的RNA-seq和体细胞突变数据作为分型依据,采用R语言iclusterplus包进行多组学聚类分析,将患者分为三个亚型。

其中,分型的参数设置为:

maxiter(Maximum iteration for the EM algorithm,最大迭代数)=2000

sdev(standard deviation of random walk proposal,随机步长标准差)=0.05

eps(Algorithm convergence criterion,算法收敛准则)=1.0e-4。

分型的代码为:

result2<-iClusterPlus(dt1=rna3,dt2=mut005,

type=c("gaussian","poisson"),

K=2,alpha=c(1,1),lambda=c(0.03,0.03),

n.burnin=100,n.draw=200,maxiter=2000,sdev=0.05,eps=1.0e-4)。

本发明首次运用多组学聚类分析方法,整合RNA-seq和体细胞突变数据,得到了一个具有生物学意义和临床价值的头颈部鳞状细胞癌免疫分型方法。本发明首次发现,免疫激活型患者的生存结果优于中间型和免疫荒漠型。因此,本发明的免疫亚型分类能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。

本发明进一步采用深度学习的方法,基于临床易获取的病理图像数据,构建了一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统,该系统对头颈部鳞状细胞癌免疫亚型的预测准确率高,该免疫亚型预测结果能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。

显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。

以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。

附图说明

图1为实施例1中多组学聚类结果散点图。

图2为HNSCC患者的总体突变谱。

图3为本发明建立头颈部鳞状细胞癌的免疫亚型和建立用于预测头颈部鳞状细胞癌免疫亚型的预测系统的流程示意图。

图4为实施例2中模型预测结果。

具体实施方式

需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。

实施例1建立头颈部鳞状细胞癌的免疫亚型分类方法

1、中间型、免疫激活型和免疫荒漠型的划分

从TCGA数据库下载HNSCC患者的RNA-seq数据、体细胞突变数据、临床随访数据和病理图像数据。共纳入499例HNSCC患者数据进行分析,其中女性132例,男性367例,平均年龄61.072岁,包含499个癌症样本和44个癌旁样本。

免疫相关基因列表来源于Charoentong[Cell Rep,2017.18(1):p.248-262.]的研究,代表肿瘤组织中的免疫细胞群。基于免疫相关RNA-seq和突变数据,应用iClusterplusR软件包对患者进行多组学聚类,如图1所示,将头颈部鳞状细胞癌患者分为了三种免疫亚型:亚型1、亚型2和亚型3。其中,亚型2以记忆B细胞、CD8T细胞、活化CD4T细胞、NK细胞浸润为主;亚型3以肥大细胞和0期巨噬细胞浸润为主,而记忆B细胞、CD8T细胞、活化CD4T细胞、NK细胞浸润低;亚型1以0期和2期巨噬细胞浸润为主,肥大细胞、记忆B细胞、CD4T细胞浸润较免疫激活型低,但高于亚型3。

基于上述特征,本实施例将亚型1命名为中间型,将亚型2命名为免疫激活型,将亚型3命名为免疫荒漠型。

2、三种亚型分型科学性的验证

为了说明本实施例划分的三种亚型的科学性,验证本发明的预测系统在实际应用中的意义,下面分析三种亚型的区别。

①免疫特征

通过GO和KEGG富集分析寻找各亚型间差异富集的显著免疫相关途径,并使用CIBERSORT算法估计22种免疫细胞在肿瘤组织中的相对比例。结果显示:免疫激活型具有较高的免疫浸润,而免疫荒漠型免疫浸润低,中间型免疫特征表现介于二者之间。

②临床特征

分析比较各免疫亚型的年龄、性别、分期、饮酒、吸烟等临床病理特征,单因素和多因素分析(多组学聚类)验证免疫分型的独立预后价值,并评价免疫亚型的化疗疗效等预后特征。下表为499例HNSCC患者不同免疫亚型之间临床病理特征的单因素卡方检验:

临床信息

TCGA队列中499例HNSCC患者的详细临床病理特征见表1。性别(χ

通过log-rank检验的K-M生存曲线评估聚类对预后的影响。本发明使用两种方法(单组学聚类和多组学聚类)分别获得三个免疫亚型,结果显示,与单组学聚类(P=0.0.045)相比,多组学聚类在免疫亚型间的预后差异更显著(P=0.0034)。多组学聚类结果中,免疫激活型患者的整体生存结果优于中间型和免疫荒漠型。免疫荒漠型中,化疗患者预后较差(HR 2.30,95%CI:1.14,4.64)。而在免疫激活型(HR 2.16,95%CI:0.73,6.41)和中间型(HR 0.83,95%CI:0.39,1.77)中,化疗对生存没有显著影响。这些结果提示,本发明建立的免疫亚型分类能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。

③生物学特征

肿瘤内部异质性主要指同一肿瘤体内的肿瘤细胞因细胞系不同而产生的差异,可能表现在组织学、抗原性、免疫、代谢、生长速率、化学药物敏感性、侵袭转移等方面。突变等位基因肿瘤异质性(MATH)评分是肿瘤内部异质性的一种量化形式,如图2所示,对三种分型进行MATH评分,结果显示,中间型的中位MATH评分高于免疫激活型,但显著低于免疫荒漠型。

综上所述,本实施例将头颈部鳞状细胞癌患者分为了三种免疫亚型:中间型,免疫激活型和免疫荒漠型。对其特征进行对比发现,三种分型在免疫浸润程度、临床特征和MATH评分等方面存在显著差异,且从预后的角度来看,免疫激活型患者的生存结果优于中间型和免疫荒漠型。因此,本发明的免疫亚型分类能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。

实施例2建立用于预测头颈部鳞状细胞癌免疫亚型的预测系统

如图3所示,本实施例的目的在于:基于神经网络模型,提供一种利用HNSCC的病理切片数据对头颈部鳞状细胞癌进行分型的预测系统。其中,分型的三种亚型为实施例1所述的中间型、免疫激活型和免疫荒漠型。

首先获取数据,并将数据分为训练集、验证集和测试集:

①获取TCGA数据库(https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga),按照实施例1的方法分出三种免疫亚型的数据集。

②平衡数据集,切割并将原始数据预处理,转化为单个图块的图集用以训练。具体地:

共获取493张切片作为数据集,其中有中间型切片174张,免疫激活型切片135张,免疫荒漠型切片184张。在493张切片中,随机选取345张用于训练模型,称为训练集(trainset)。随机选取49张用于模型训练中的交叉验证,称为验证集(valid set),此集的作用是在训练过程中,每进行一遍训练集的迭代训练(即完成一轮epoch后),对模型效果进行检查,输出对该验证集的测试效果,方便观察模型的训练效果。剩下的99张用于对模型的预测,称为测试集(test set),该集的作用在于模型训练完成后,对模型的效果进行检验。将分类后的切片切割为数个224*224(像素大小)的正方形图块,筛选并删除背景区域大于50%的无效图块。关于图块大小的选取,本实施例对不同切片切成不同大小的图块进行对比后,发现选择224*224的图块作为输入能够获得最佳的预测准确性。

建立用于预测头颈部鳞状细胞癌免疫亚型的预测系统的步骤如下:

(1)预测系统的组成

本实施例的预测系统由输入模块、预测模块和输出模块组成。

其中输入模块用于输入HNSCC的病理切片图像数据,输出模块用于输出预测的头颈部鳞状细胞癌患者的免疫分型的结果:中间型,免疫激活型或免疫荒漠型。

预测模块内置EfficientNets模型,该模型具有如下具体参数:

width_coefficient=1.0,depth_coefficient=1.0,

resolution=224,dropout_rate=0.2;

EfficientNets模型的网络构架为:2D卷积层Conv2D1——批标准化层BN1——限制层(Block层)7个——2D卷积层Conv2D2——批标准化层BN2——全局池化层GAP——损失层(Dropout层)——全连接层(Dense层);

各层的参数如下:

①2D卷积层Conv2D1:

kernel_size=(3,3),strides=2,padding="same",use_bias=False。

②批标准化层BN1:激活函数为swish。

③7个Block层参数如下表所示:

④2D卷积层Conv2D2:

kernel_size=(1,1),strides=1,padding="same",use_bias=False。

⑤批标准化层BN2:激活函数为swish。

⑥全局池化层:Default,为EfficientNets的默认参数。

⑦损失层:dropout_rate=0.2。

⑧全连接层:units=2,activation=tf.keras.activations.softmax。

注:width_coefficient:宽度系数,即通道(channel)的数量,网络中同层卷积层中卷积核的个数;depth_coefficient:深度系数,即网络中卷积层的个数;resolution:切割图片后单个图片(必须为正方形)的宽度,单位为像素;in_channels:输入图像的通道数目;out_channels:卷积之后的通道数目;layers:添加额外卷积层的次数;expansion_factor:将in_channels的大小缩放的倍数;k:卷积核的一维尺寸dropout_rate:随机舍弃的神经元比例;kernel_size:卷积核的二维尺寸;strides:卷积操作中的滑动步长;padding:卷积核边缘的填充方式;use_bias:是否使用偏置向量;swish:激活函数,函数表达式为f(x)=x*sigmoid(βx),其中β是一个常数或可训练的参数;Units:该层的神经元数;Activation:激活函数;tf.keras.activations.softmax:Tensorflow内置的激活函数的一种,函数定义为:在一个数组V中,Vi表示V中的第i个元素,这个元素的Softmax值是:

i是指该数组中的某一个元素,j代表该数组中的每个元素。该公式的数学含义为是该元素的指数,与所有元素指数和的比值。该值的范围在(0,1)中。

此为预训练模型,在此基础上通过数据集的训练,还需训练两个超参数:学习率Learning rate和训练轮数epoch。

(2)训练方法

使用预训练模型,通过调节训练超参数,训练出最佳的用以分类分级状况的模型权重。具体地:

关注的主要超参数为Learning Rate(学习率,指模型的学习进度。过高导致难以收敛,过低导致过拟合)、Epoch(训练轮数,指每个数据用于训练的次数,过低导致预测效果不佳,过高导致过拟合)

Learning Rate分别使用0.0001、0.0005、0.001、0.005、0.01、0.05和0.1,并在效果最好的参数及其邻近的效果较好的参数之间再选取4个参数进行训练和验证。

Epoch与模型精度的关系为逐渐增高,在最高点波动后单调降低的曲线。因此将epoch设为较高值80,每训练完1个epoch后保存模型,最后将80个不同epoch参数的模型进行验证的方法,作出曲线并观察其高点所对应的epoch。

整合训练结果,并用整理后的模型在切片上进行验证。

(3)预测结果

对模型的效果进行整合分析发现,模型在80个epoch时拥有最好的预测效果。达到该效果的超参数为训练轮数=80,学习率=0.007。

通过上述方法建立最终的预测模型后,本实施例的预测系统在所有切片的测试中,在224*224像素的小图块的测试集上的准确率达到了90.3%(95%置信区间:90.1%~90.5%)(图4)。由于本实施例中,每一个切片的原始数据在数据预处理过程中切成了数个224*224像素的小图块,因此对于同一个切片,用本实施例的方法能够得到数个预测结果,以占比最多的分型结果为该切片的最终分型结果,则本实施例对切片进行分型的准确率达到了100%。这说明该模型具有很高的准确率和应用价值。

上述实验结果表明,本发明构建的预测系统能够准确预测头颈部鳞状细胞癌患者的免疫亚型,该免疫亚型预测结果能够用于预测头颈部鳞状细胞癌患者的预后,并有助于为个体化治疗提供参考。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号