首页> 中国专利> 基于RNN从病理图片识别微卫星不稳定性状态的方法

基于RNN从病理图片识别微卫星不稳定性状态的方法

摘要

本发明提供一种基于RNN从病理图片识别微卫星不稳定性状态的方法,首先获得对患者组织样本进行细胞染色后的目标病理切片图;提取组织区域并按照预设分辨率进行分割,得到所有组织区域的小图片;对所有的小图片进行肿瘤区域/正常区域分类;随机选择预设的N张分类为肿瘤区域的小图片并使用staintools库进行染色归一化;将归一化后的小图片输入预设的特征提取模型中,编码为M维特征向量,得到N×M特征矩阵;将N×M特征矩阵输入预先训练好的循环神经网络预测模型,得到目标病理切片图的MSI分数。本发明随机选择N张肿瘤区域的小图片进行特征编码,采用循环神经网络模型进行分类预测,节省计算资源并提高MSI预测的准确性。

著录项

  • 公开/公告号CN114972837A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 常州桐树生物科技有限公司;

    申请/专利号CN202210252119.2

  • 发明设计人 全雪萍;严令华;蔡微菁;习铖杭;

    申请日2022-03-15

  • 分类号G06V10/764(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构上海元好知识产权代理有限公司 31323;上海元好知识产权代理有限公司 31323;

  • 代理人曹媛;张双红

  • 地址 213149 江苏省常州市常州西太湖科技产业园长扬路9号B2栋2楼

  • 入库时间 2023-06-19 16:34:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06V10/764 专利申请号:2022102521192 申请日:20220315

    实质审查的生效

说明书

技术领域

本发明涉及计算机医学图像信息处理技术领域,特别涉及一种基于RNN从病理图片识别微卫星不稳定性状态的方法(a RNN method to predict the MSI status ofstained pathological images,缩写WiseMSI@R)、电子设备及计算机可读存储介质。

背景技术

微卫星不稳定性(Microsatellite Instability,MSI)是指由于错配修复或复制错误等引起的简单重复序列的增加或丢失,导致微卫星的长度发生改变。MSI发生的主要原因是参与配对错误修复的基因功能发生缺陷,因而不能正常的校正复制错误,引起微卫星的DNA发生改变,使其不能正常地发挥调控作用。MSI容易导致细胞增殖及分化异常,甚至促发恶性肿瘤形成。与正常组织相比,在肿瘤中的微卫星更容易导致微卫星长度发生改变。研究表明MSI与结直肠癌、胃癌、子宫内膜癌等肿瘤发生密切相关。其中大约15%的散发性结直肠癌与MSI相关,90%以上的遗传性非息肉病性结直肠癌(HNPCC,也称Lynch综合症)与MSI相关,因此对MSI检测在临床上具有重要意义。MSI根据程度可以被分成3类:微卫星高度不稳定(MSI-H)、微卫星低度不稳定(MSI-L)、微卫星稳定(MSS)。对患者组织样本的病理切片图进行MSI分析后获得MSI分数,并进一步判别MSI类别。

请参考图1,现有技术中一种获取患者组织样本的MSI分数的方法如下:

A.获得病人的病理切片图,去除图片的空白区域,筛选出病理切片图的组织区域。

B.将筛选出的组织区域进行切分,并使用staintools库进行染色归一化,获得所有组织区域的小图片(分辨率为256×256)。

C.使用数据集训练分类模型(ResNet34),将上一步获得的所有小图片先缩小为224×224的大小,随后输入模型进行组织类型的分类,得到每一张小图片的类型。组织类别包含:脂肪(ADI)、背景(BACK)、碎片(DEB)、淋巴细胞(LYM)、粘液(MUC)、平滑肌(MUS)、正常结肠粘膜(NORM)、癌症相关基质(STR)、结直肠腺癌上皮细胞(TUM)。

D.只选择肿瘤类型的区域的坐标标记在原始病理切片图上。

E.将所有标记的区域重新切分,并使用staintools库进行染色归一化,获得分辨率为512×512的小图片(或称为补丁patch)。

F.将上一步获得的所有补丁先缩小为224×224的大小,输入分类模型(MobileNet_v2),得到每一个补丁的MSI分数。

G.平均此病理图片的所有补丁的MSI分数,获得病人的MSI结果。

上述模型使用的ResNet及MobileNet都属于卷积神经网络(CNN),目前已经普遍用应在计算机视觉领域,在ImageNet中的分类准确率也都达到了很好的结果。但是病理切片图不同于普通图片可以直接输入进模型进行相应任务的训练,很多病理切片图的分辨率达到了10000×10000级别,所以上述方法在图片进入模型前需要先切分成小型图片,当病理切片图达到50000×50000级别时,切分出的肿瘤区域小图片数量大约为5000~50000,这样对一张病理切片图进行检测时需要对成千上万张的小图片进行卷积操作,极大的占用计算资源;当病理切片图较小时,切分出的肿瘤区域小图片又通常不足100。这样小图片数量差异较大的病理切片图在分类模型中占用的样本资源差异较大,影响MSI分类模型的准确率。

发明内容

本发明的目的是提供一种基于RNN从病理图片识别微卫星不稳定性状态的方法、电子设备及计算机可读存储介质,随机选择N张肿瘤区域的小图片进行特征编码,采用循环神经网络模型进行分类预测,节省计算资源并提高MSI预测的准确性。

为了实现以上目的,本发明提供了一种基于RNN从病理图片识别微卫星不稳定性状态的方法,包括如下步骤:

S1、获得对患者组织样本进行细胞染色后的目标病理切片图;

S2、对所述目标病理切片图提取组织区域并按照预设分辨率进行分割,得到所有组织区域的小图片;

S3、对所有的小图片进行肿瘤区域/正常区域分类;

S4、随机选择预设的N张分类为肿瘤区域的小图片并使用staintools库进行染色归一化;

S5、将归一化后的小图片输入预设的特征提取模型中,编码为M维特征向量,得到N×M特征矩阵;

S6、将N×M特征矩阵输入预先训练好的预测模型,获得所述预测模型输出的所述目标病理切片图的MSI分数,所述预测模型为循环神经网络模型。

进一步的,在步骤S6中,所述预测模型包括LSTM神经网络;

所述预测模型预测所述目标病理切片图的MSI分数的方法包括:

S61,所述LSTM神经网络将所述N×M特征矩阵变换为低维特征向量;

S62,将得到的低维特征向量经过两层全连接层后映射至类别空间中并softmax激活获得MSI分数。

进一步的,所述M维特征向量为1024维向量,所述低维特征向量为256维向量。

进一步的,所述步骤S62采用如下表达式获得MSI分数:

p=softmax((W

式中,p代表MSI分数,W

进一步的,所述预测模型为GRU网络或双向RNN网络。

进一步的,在步骤S4中,若所述目标病理切片图对应肿瘤区域的小图片不足N张,则用空白小图片补足。

进一步的,所述步骤S5中所述特征提取模型为VGGNet、AlexNet、InceptionNet或ResNet架构的卷积神经网络模型。

进一步的,所述特征提取模型采用ResNet50模型。

进一步的,在步骤S3中,对所有的小图片进行肿瘤区域/正常区域分类的方法包括:

将步骤S2获得的每一小图片输入预先训练好的分类模型,获得所述分类模型输出的每一小图片的类别为肿瘤区域或正常类型;所述分类模型为卷积神经网络模型。

进一步的,所述分类模型采用ResNet18模型。

为实现上述目的,本发明还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线;其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述基于RNN从病理图片识别微卫星不稳定性状态的方法的步骤。

为实现上述目的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述基于RNN从病理图片识别微卫星不稳定性状态的方法的步骤。

与现有技术相比,本发明具有如下优点:

本发明首先将患者组织样本进行细胞染色后获得组织区域图片作为待预测的目标病理切片图,接着将组织区域进行划分得到组织小图片,对小图片进行肿瘤区域/正常区域分类,然后从小图片中随机选择N张分类为肿瘤区域的小图片并使用staintools库进行染色归一化,将N个肿瘤区域小图片输入预设的特征提取模型中,将每一小图片编码为M维的特征向量,得到N×M特征矩阵,最后将N×M特征矩阵输入预先训练好的预测模型,获得所述预测模型输出的所述目标病理切片图的MSI分数。由于本发明获取病理切片图中N个肿瘤区域小图片的特征向量构成特征矩阵,将特征矩阵输入RNN模型进行预测,这样不仅节省了计算资源,并且小幅提高了MSI分类的准确率。

附图说明

为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:

图1为现有技术中的微卫星不稳定性预测方法的示意图;

图2为本发明一实施例提供的基于RNN从病理图片识别微卫星不稳定性状态的方法的流程示意图;

图3为本发明一实施例提供的整体方案流程图;

图4为本发明一实施例提供的小图片的分类模型训练过程图;

图5为本发明一实施例提供的RNN模型的示意图;

图6为本发明一实施例提供的LSTM循环单元的示意图;

图7为本发明一实施例提供的电子设备的结构图。

具体实施方式

以下结合附图和具体实施方式对本发明提出的方案作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂,请参阅附图。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。CNN架构的模型,是使用卷积核进行卷积操作提取特征,随后使用全连接层加激活操作非线性地映射到下一个特征空间,降采样后再次进行卷积操作获得特征图,反复进行如上操作将整个图片的特征映射到卷积核数量的特征空间中,最后进行全连接获得分类结果。此种方法对于一般尺寸的图像(分辨率通常小于1000×1000)效果非常好,但是病理切片图分辨率巨大,导致无法直接将整个病理切片图输入到CNN模型中,需要对切片图进行分割处理,并且影响因子大的区域分布较广并且面积相对于整个切片图非常小,又将导致各个小图片所携带的数据差异巨大,相对于整个病理切片图,使用同样的权重对待所有小图片时会严重影响模型准确率。

本发明的核心思想在于先将病理切片图分割成预设分辨率的无重叠的小图片,并进行肿瘤区域/正常区域分类,再随机选择N张肿瘤区域小图片,使用预训练的特征提取模型将每个RGB格式的肿瘤区域小图片编码为M维度的特征向量,这样可以在低维度的特征空间上训练而不用在超大的像素空间中训练,之后使用循环神经网络(RNN)模型进行分类得到病理切片图的MSI分数。本发明通过筛选出肿瘤区域的小图片,随机挑选出N张小图片获得其所携带的特征,输入至RNN分类模型中计算整个病理切片的分类概率,这样不仅节省了计算资源,并且小幅提高了MSI分类的准确率。

以下结合图2、图3对本发明进行详细描述。本发明提供的一种基于RNN从病理图片识别微卫星不稳定性状态的方法,包括如下步骤:

步骤S1、获得对患者组织样本进行细胞染色后的目标病理切片图。

本实施例中,病理切片图是将取自患者特定部位的组织样本制成病理切片后再进行细胞染色,然后放入显微镜下成像(例如40倍镜)得到的图片。患者可以是待确诊的病人,也可以是已确诊的癌症患者,不限于结直肠癌患者,也可以为胃癌、胰腺癌等癌症患者。细胞染色方法可以选择苏木精—伊红染色法(hemotoxylin eosin,HE)、巴氏染色法、瑞特—吉姆萨染色法等。优选使用HE染色法,该方法染色透明度好,核与胞质对比鲜明、效果稳定。为了获得更好的病理切片图,除了细胞染色以外,还可以对患者组织样本进行其它预处理操作,本发明对此不做限定。此外,也可以对病理切片图进行预处理,例如调整清晰度、对比度增强等。

步骤S2、对所述目标病理切片图提取组织区域并按照预设分辨率进行分割,得到所有组织区域的小图片。

本实施例中,首先在所述目标病理切片图中标注出组织区域,具体标注方法可参考现有技术,然后将标注出的组织区域按照预设分辨率进行分割,得到不重叠的多个小图片(也称为patch),预设分辨率例如为512×512像素,即,将组织区域分割为512×512大小的小图片。

步骤S3、对所有的小图片进行肿瘤区域/正常区域分类。

在前述步骤S2中,从对组织区域分割得到的所有小图片中,可能包含肿瘤区域,也可能不包含肿瘤区域(即全部为正常区域),因此需要从中筛选出包含肿瘤区域的小图片,以便于后续对这些包含肿瘤区域的小图片进行特征提取、以及预测MSI分数。

具体的,一种实现方式是采用CNN模型对各小图片进行肿瘤区域/正常区域分类,即,将步骤S2获得的每一小图片输入预先训练好的分类模型,获得所述分类模型输出的每一小图片的类别为肿瘤区域或正常区域。可以理解的是,所述分类模型判别各小图片为肿瘤区域的概率以及为正常区域的概率,若为肿瘤区域的概率大于为正常区域的概率,则该分类模型将该小图片分类为肿瘤区域。至此,完成肿瘤区域小图片筛选工作。

可选的,所述分类模型可采用ResNet18模型,参考图4所示,所述分类模型的训练过程如下:

a.选择若干张样本病理切片图(40倍镜)提取组织区域并分割为预设大小的小图片,例如,将280张结直肠癌的病理切片图(40倍镜)的组织区域分割为512×512的小图片,总计181328张;

b.病理学家对所有小图片进行肿瘤区域/正常区域的分类;

c.在病理切片的等级将小图片划分为70%的训练集、10%的验证集和20%的测试集;

d.使用ResNet18模型对训练集的肿瘤区域小图片及正常区域小图片进行分类训练(每轮次对每张病理切片随机选择100张肿瘤区域的小图片和100张正常区域的小图片);

e.通过验证集优化模型,达到损失值最小时保存模型权重;

f.当验证集损失值连续预设轮次(例如5轮次)不再下降,且训练轮次大于预设轮次(例如10轮次)时,停止训练;

g.使用测试集统计该模型敏感度(sensitivity)、特异度(specificity)和AUC,最终测试集AUC为98.8%。

可以理解的是,所述分类模型不仅限于采用ResNet18模型,也可以采用其它能够实现分类的模型,本发明对此不作限定。

步骤S4、随机选择预设的N张分类为肿瘤区域的小图片并使用staintools库进行染色归一化。

本实施例中,所述N可取100,当然也可以取其他数量值。并且,对小图片使用staintools库进行染色归一化,以避免各小图片染色不均衡、颜色深浅不一,对后续图像识别、特征提取的准确率造成影响。

此外,若步骤S3对所述目标病理切片图分类出的肿瘤区域的小图片不足N张,则用空白小图片补足。即,若所述目标病理切片图中分类出的肿瘤区域的小图片仅有95张,则用5张空白小图片补足,共得到100张小图片,用于后续特征提取。

步骤S5、将归一化后的小图片输入预设的特征提取模型中,编码为M维特征向量,得到N×M特征矩阵。

所述特征提取模型用于从图片中提取相关特征,其可以为使用ImageNet预训练的ResNet50模型,ImageNet是一个计算机视觉系统识别项目,它的数据集包含超过1400万个图像,其中120万个图像分为1000个类别,预训练模型是在训练结束时结果比较好的一组权重值,研究人员分享出来供其他人使用。

本实施例中,优选将归一化后的每一小图片编码为1024维的特征向量,由此可得N×1024的特征矩阵,这样可以在低维度的特征空间上训练而不用在超大的像素空间中训练,大大减少了计算量。

此外,所述特征提取模型还可以使用CNN的其他模型,比如VGGNet、AlexNet、InceptionNet、ResNet等生成相同(1024维)维度或者不同维度的特征向量。

至此,完成肿瘤区域小图片特征提取工作。

步骤S6、将N×M特征矩阵输入预先训练好的预测模型,获得所述预测模型输出的所述目标病理切片图的MSI分数,所述预测模型为循环神经网络模型。

如图5所示,所述预测模型包括LSTM神经网络和两个全连接层;所述预测模型预测所述目标病理切片图的MSI分数的方法包括:

S51,所述LSTM神经网络将所述N×M特征矩阵变换为低维特征向量;

S52,将得到的低维特征向量经过两层全连接层后映射至类别空间中并softmax激活获得MSI分数。

示例性的,所述M维特征向量可以为1024维向量,所述低维特征向量可以为256维向量。如图5所示,所述LSTM神经网络将N×1024特征矩阵变换为256维向量。

如图6所示,所述LSTM神经网络将所述N×M特征矩阵变换为低维特征向量,所述LSTM神经网络中每一循环单元的公式如下:

i

f

g

o

c

h

f

i

g

o

c

h

本实施例中,所述步骤S52采用如下表达式获得MSI分数:

p=softmax((W

式中,p代表MSI分数,W

所述预测模型除了采用基于LSTM的RNN网络以外,还可以采用GRU网络或双向RNN网络,具体实现方式在此不做赘述。

本实施例中,采用RNN模型对N个肿瘤区域小图片的高维特征向量进行变换得到整个目标病理切片图的低维维特征向量;最后,采用两个全连接层Dense加softmax激活函数,将低维特征向量从256维的特征空间线性变换到2维的特征空间,并通过softmax激活函数获得每个类别的概率值,即得到MSI分数。

获得MSI分数后,即可判断目标病理切片图的MSI类别,例如可预先设置阈值,当MSI分数高于阈值时类别为MSI-H,当MSI分数低于阈值时类别为MSS。阈值的具体数值可根据经验或实际情况进行设定。

至此,完成目标病理切片图的微卫星不稳定性预测。本发明根据所有肿瘤小图片的特征向量组成特征矩阵,输入循环神经网络的预测模型中进行预测,得到MSI分数,这样不仅节省计算资源,并且小幅提高了MSI分类的准确率。

所述预测模型的训练过程如下:

a.采用如步骤S1-S5的方法对若干个样本病理切片图进行处理,获得每个样本病理切片图对应的N×M的特征矩阵,作为样本特征矩阵,这些样本病理图片包括类型为MSS及MSI-H的组织样本的病理切片图,每种类型的样本病理图片例如各有1000个,同时每个样本病理图片还标注有各自的MSI分数,因此可建立每一样本特征矩阵与MSI分数的对应关系;

b.将上述样本特征矩阵以在病理切片的等级划分为训练集(Training set)、验证集(Validation set)和测试集(Test set),例如将所有样本特征矩中的70%划分到训练集、10%划分到验证集、20%划分到测试集;

c.使用如图5的RNN模型对训练集进行分类训练,即,将训练集中的样本特征矩阵作为RNN模型的输入、将MSI分数作为RNN模型的理想输出进行模型训练;

d.通过验证集优化模型,达到损失值最小保存模型权重;

e.当验证集损失值连续预设轮次(例如40轮次)不再下降,且训练轮次大于预设轮次(例如100轮次)时,停止训练;

f.使用测试集统计该模型敏感度(sensitivity)、特异度(specificity)和AUC,最终测试集AUC为95.8%。

综上所述,本发明首先将患者组织样本进行细胞染色后获得组织区域图片作为待预测的目标病理切片图,接着将组织区域进行划分得到组织小图片,对小图片进行肿瘤区域/正常区域分类,然后从小图片中随机选择N张分类为肿瘤区域的小图片并使用staintools库进行染色归一化,将N个肿瘤区域小图片输入预设的特征提取模型中,将每一小图片编码为M维的特征向量,得到N×M特征矩阵,最后将N×M特征矩阵输入预先训练好的预测模型,获得所述预测模型输出的所述目标病理切片图的MSI分数。由于本发明获取病理切片图中N个肿瘤区域小图片的特征向量构成特征矩阵,将特征矩阵输入RNN模型进行预测,这样不仅节省了计算资源,并且小幅提高了MSI分类的准确率。

下表1为使用现有技术的卷积神经网络进行十折交叉运算的结果,平均specificity为0.88324,平均sensitivity为0.89739,平均AUC为0.95212,表2为使用本方法的循环神经网络(LSTM)进行十折交叉运算的结果,平均specificity为0.93503,平均sensitivity为0.88362,平均AUC为0.95828。由此可见,本发明预测方法的准确性明显高于纯基于CNN模型的预测方法。

表1

表2

基于相同的发明构思,根据上述基于RNN从病理图片识别微卫星不稳定性状态的方法实施例,本发明还提供了一种电子设备,如图7所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,

存储器303,用于存放计算机程序;

处理器301,用于执行存储器303上所存放的程序时,实现上述实施例中基于RNN从病理图片识别微卫星不稳定性状态的方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM)。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述实施例中基于RNN从病理图片识别微卫星不稳定性状态的方法的步骤。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中基于RNN从病理图片识别微卫星不稳定性状态的方法的步骤。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于电子设备、计算机可读存储介质及计算机程序产品实施例而言,由于其基本相似于基于RNN从病理图片识别微卫星不稳定性状态的方法实施例,所以描述的比较简单,相关之处参见基于RNN从病理图片识别微卫星不稳定性状态的方法实施例的部分说明即可。

尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号