首页> 中国专利> 用于预测直肠癌患者术后出院准备度的模型

用于预测直肠癌患者术后出院准备度的模型

摘要

本发明涉及一种用于预测直肠癌患者术后出院时间的方法,其特征在于包括:获取待预测的直肠癌患者手术前后相关体征数据;将待预测的直肠癌患者手术前后相关体征数据输入到预先构建完成的基于GA_XGboost的术后出院天数预测模型中,获得预测出院天数;所述基于GA_XGboost的术后出院天数预测模型中应用遗传算法GA对XGboost回归进行超参数的选择。通过构建并训练得到基于GA_Xgboost的模型,验证表明GA_XGboost在MSE和MAE两项指标中的预测精度有明显提高,提供给医生和患者一定的参考和预期,不仅有利于对患者的术后安排和治疗,同时减少了不必要的医疗资源浪费。

著录项

  • 公开/公告号CN114664451A

    专利类型发明专利

  • 公开/公告日2022-06-24

    原文格式PDF

  • 申请/专利权人 浙江省肿瘤医院;

    申请/专利号CN202210542329.5

  • 申请日2022-05-19

  • 分类号G16H50/30;G06N3/12;G06N3/08;

  • 代理机构北京国翰知识产权代理事务所(普通合伙);

  • 代理人涂泉达

  • 地址 310022 浙江省杭州市拱墅区半山东路1号

  • 入库时间 2023-06-19 15:44:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-24

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种用于预测直肠癌患者术后出院准备度的模型。

背景技术

结直肠癌是消化系统常见恶性肿瘤,属于全球范围内男女恶性肿瘤发病率前三,发病率在男性、女性中分列第3位和第2位,死亡病例数在男性、女性中分列第4位和第3位,严重影响人类健康。随着人们生活水平的不断提高以及生活方式尤其是膳食结构的改变,我国结直肠癌的发病率日益增高,已跃居城市恶性肿瘤发病率第2位,死亡率第4位。近年来,随着医疗水平的不断提高,我国结直肠癌患者的总体5年生活率也有了较大的提高,其中结肠癌5年生存率达57.6%,直肠癌5年生存率达56.9%。

患者出院准备度由Fenwick于1979年首次提出,是指医护人员在患者出院之前对患者的生理、心里和社会的健康状况进行综合评估,分析判断患者在离开医院、回归社会方面的康复能力,因此可知出院准备度评估结果可以辅助判断患者是否达到出院的标准,精准的评估预测患者将于何时出院有助于医院更好的管理医疗资源并能更好的了解其峰值容量,同时对于节约医疗资源、降低患者住院费用等方面也有重要意义。然而,现有技术中对结直肠癌患者术后出院准备度鲜有研究。

前述背景技术知识的记载旨在帮助本领域普通技术人员理解与本发明较为接近的现有技术,同时便于对本发明构思及技术方案的理解,应当明确的是,在没有明确的证据表明上述内容在本专利申请的申请日前已公开的情况下,上述背景技术不应当用于评价本申请技术方案的新创性。

发明内容

为解决上述背景技术中提及的至少一种技术问题,本发明的目的旨在提供一种用于预测直肠癌患者术后出院时间的方法,通过构建并训练得到基于GA_XGBoost的模型,最后将待预测的直肠癌患者手术前后相关体征数据作为验证集输入上述模型即可预测合适的出院时间,GA_XGBoost在MSE和MAE两项指标中的预测精度有明显提高,提供给医生和患者一定的参考和预期,不仅有利于对患者的术后安排和治疗,同时减少了不必要的医疗资源浪费。

为了实现上述目的,本发明提供如下技术方案。

用于预测直肠癌患者术后出院准备度的模型,包括预测直肠癌患者出院时间的方法,包括:

获取待预测的直肠癌患者手术前后相关体征数据;

将所述待预测的直肠癌患者手术前后相关体征数据,输入到预先构建完成的基于GA_XGBoost的术后出院天数预测模型中,获得预测出院天数;

所述基于GA_XGBoost的术后出院天数预测模型中应用遗传算法GA对XGBoost回归进行超参数的选择。

所述基于GA_XGBoost的术后出院天数预测模型经过由历史直肠癌患者手术前后的体征数据组成的训练集训练。

所述用于预测直肠癌患者术后出院时间的方法具体包括:

步骤一、采集历史直肠癌患者的手术前后数据作为特征集;

步骤二、对特征集进行清洗;

步骤三、对清洗后的特征集进行特征筛选;

步骤四、建立术后出院天数预测模型,将步骤三得到的特征集输入预测模型进行训练;

步骤五、利用完成训练的预测模型对验证集数据进行预测,得到出院天数。

部分实施方式,步骤一中,所述手术前后数据包括年龄、PS评分、TNM分期、分化程度、身高、体重、BMI、入院空腹血糖、白蛋白、前白蛋白、总蛋白、GOT(丙氨酸)、GPT(天冬氨酸)、L-γ-谷氨酰转移酶、总胆红素、直接胆红素、间接胆红素、肌酐、白细胞、血红蛋白、淋巴细胞计数这些术前必须的体检指标以及手术持续时间、出血量。

部分实施方式,步骤二中,对特征集进行清洗执行下述步骤:去除指标缺失严重的病例,采用

部分实施方式,步骤三中,特征筛选执行下述步骤:利用XGBoost和随机森林的重要性得分以及线性相关程度这三个指标去除一些冗余和无关特征,具体是通过XGBoost和随机森林进行重要性排序,剔除二者之和最小的5个特征。原始数据共有27个维度,其中一定存在冗余以及对模型预测无效的数据,而以往的PCA降维等主流的线性降维对树模型是没有作用的,因此接下来进行特征选择时通过XGBoost和随机森林进行重要性排序,剔除二者之和最小的5个特征,可以显著提高模型预测的准确度。

部分实施方式,步骤四中,术后出院天数预测模型是基于GA_XGBoost的模型。

所述预测模型包括XGBoost回归算法:

其目标函数主要由损失函数和正则函数构成:

其中,

损失函数是:

其中constant为常数;

使用泰勒公式对其展开:

其中,

其中

对上式求导得叶子结点j的最优值和目标函数的最优值:

其中,

XGBoost算法沿用了贪心算法,并且假设树结构为二叉树,令其最终的节点分裂目标函数公式为:

其中,G、H由该节点的所有样本的g、h求和得到,

由此,XGBoost的训练过程如下:

1、每一轮的训练中新增一个初始化的二叉树模型;

2、在开始训练之前,更新梯度统计:

3、根据贪心生成算法和梯度生成本轮训练完整树

3.1、选择最优切分点:

3.2、得到叶子节点的权重数值:

4、将本轮新得到的树模型加权到之前的模型中去:

训练好后,将经过特征工程处理后的验证集数据输入训练好的模型中即可得到预测值。

所述预测模型还包括:GA_XGBoost算法。

通过遗传算法(GA)对XGBoost模型选择超参数,步骤如下:

1、在超参数空间随机生成N个组合作为初始化种群;

2、通过交叉验证方法得到XGBoost的损失函数来计算每个个体适应度;

3、将适应度较高的参数组合保留;

4、对保留的个体参数进行交叉操作,生成新的参数组合,并且对生成的参数组合进行随机变异的操作;

5、淘汰参数组合中适应度较低的个体;

6、重复步骤2到5,直到满足设定的结束条件为止;

7、选择所有参数组合中适应度最高的个体作为模型的超参数。

在训练XGBoost模型时,以往调参常常考虑的是网格法,但网格法寻找最优模型的复杂度是指数级的,训练时间特别长,几乎无法处理含有多个超参数的调优。本发明应用遗传算法(GA)对XGBoost模型选择超参数,可以大大缩小训练时间,并且也能够很好的提升模型准确度,达到目标函数的最小值。

将选择后的数据集作为训练集输入GA_XGBoost进行训练。

选取

和得到叶子节点的权重数值:

其中,G、H由该节点的所有样本的g、h求和得到,

部分实施方式,步骤五中,所述验证集数据是待预测直肠癌患者的术前体检指标和手术持续时间、出血量。

部分实施方式,步骤五中,所述验证集数据与前述所述经过特征筛选的特征集数据对应。

将经过特征工程处理后的验证集数据输入训练好的模型中即可得到预测结果,发现GA_XGBoost在MSE(Mean Squared Error,均方误差)和MAE(Mean Absolute Error,平均绝对误差)两项指标中的预测精度有明显提高,基本满足现实工作中给病人和医生一个有效的预估。

一种用于预测直肠癌患者术后出院时间的系统,包括:

获取模块,其被配置为:获取历史直肠癌患者的手术前后数据作为特征集及待预测直肠癌患者的手术前后数据作为验证集;

预测模块,其被配置为:将特征集数据输入预先构建完成的术后出院天数预测模型进行训练,利用完成训练的预测模型对验证集数据进行预测,得到出院天数。

一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成前述所述模型中限定的方法。

一种机器可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成前述所述模型中限定的方法。

在符合本领域常识的基础上,上述各优选条件,可以相互组合,得到具体实施方式。

本发明涉及到的原料或试剂均为普通市售产品,涉及到的操作如无特殊说明均为本领域常规操作。

本发明的有益效果为:

本发明通过选取具有非线性切分能力以及小样本训练集上具备良好的过拟合控制机制的集成学习算法XGBoost,并以通过遗传算法(GA)对XGBoost模型选择超参数获得基于GA_XGBoost的术后出院天数预测模型,然后以经过特征工程处理的训练集输入GA_XGBoost进行训练,将待预测的直肠癌患者手术前后相关体征数据作为验证集输入上述模型即可预测一些术前进行了相关体检的肠癌患者在术后合适的出院时间,并且验证发现GA_XGBoost在MSE和MAE两项指标中的预测精度有明显提高,基本满足现实工作中给医生和患者一个有效的预估,提供给医生和患者一定的参考和预期,不仅有利于对患者的术后安排和治疗,同时减少了不必要的医疗资源浪费。

本发明为实现上述目的而采用了上述技术方案,弥补了现有技术的不足,设计合理,操作方便。

附图说明

为让本发明的上述和/或其他目的、特征、优点与实例能更明显易懂,所附附图的说明如下:

图1为本发明预测算法的流程图;

图2为GA_XGBoost选定好超参数的数值,仅改动迭代次数对结果的影响图。

具体实施方式

本领域技术人员可以借鉴本文内容,适当替换和/或改动工艺参数实现,然而特别需要指出的是,所有类似的替换和/或改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明所述产品和制备方法已经通过较佳实例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的产品和制备方法进行改动或适当变更与组合,来实现和应用本发明技术。

除非另有定义,本文所使用的技术和科学术语,具有本发明所属领域的普通技术人员通常所理解的相同的含义。本发明使用本文中所描述的方法和材料;但本领域中已知的其他合适的方法和材料也可以被使用。本文中所描述的材料、方法和实例仅是说明性的,并不是用来作为限制。所有出版物、专利申请案、专利案、临时申请案、数据库条目及本文中提及的其它参考文献等,其整体被并入本文中作为参考。若有冲突,以本说明书包括定义为准。

除非具体说明,本文所描述的材料、方法和实例仅是示例性的,而非限制性的。尽管与本文所述的那些方法和材料类似或等同的方法和材料可用于本发明的实施或测试,但本文仍描述了合适的方法和材料。

以下详细描述本发明。

实施例1:

用于预测直肠癌患者术后出院准备度的模型,具体包括预测直肠癌患者术后出院时间的方法,包括下述步骤。

采集院区历史直肠癌患者手术前后的下列体征数据作为已有的病人特征集:年龄、PS评分、TNM分期、分化程度、身高、体重、BMI、入院空腹血糖、白蛋白、前白蛋白、总蛋白、GOT(丙氨酸)、GPT(天冬氨酸)、L-γ-谷氨酰转移酶、总胆红素、直接胆红素、间接胆红素、肌酐、白细胞、血红蛋白、淋巴结总数、阳性淋巴结数、淋巴细胞计数这些术前必须的体检指标以及手术持续时间、出血量。

对前述已有的病人特征集数据进行清洗,去除一些指标缺失严重的病例,采用

对前述经过清洗的27维特征数据进行XGBoost和随机森林的重要性计算和相关性的检验,结果如表1所示,计算得到的数值进行排序,剔除XGBoost和随机森林的重要性计算得分数值之和最小的5个特征,剩余数据作为已有的病人特征集。

表1-特征选择结果

实施例2:

在前述实施例的基础上,构建基于GA_XGBoost的术后出院天数预测模型。

XGBoost算法的目标函数主要由损失函数和正则函数构成:

其中,

损失函数是:

其中constant为常数;

使用泰勒公式对其展开:

其中,

其中

对上式求导得叶子结点j的最优值和目标函数的最优值:

其中,

XGBoost算法沿用了贪心算法,并且假设树结构为二叉树,令其最终的节点分裂目标函数公式为:

其中,G、H由该节点的所有样本的g、h求和得到,

由此,XGBoost的训练过程如下:

1、每一轮的训练中新增一个初始化的二叉树模型;

2、在开始训练之前,更新梯度统计:

3、根据贪心生成算法和梯度生成本轮训练完整树

3.1、选择最优切分点:

3.2、得到叶子节点的权重数值:

4、将本轮新得到的树模型加权到之前的模型中去:

训练好后,将经过特征工程处理后的数据输入训练好的模型中即可得到预测值。

实施例3:

在前述实施例的基础上,构建基于GA_XGBoost的术后出院天数预测模型,并依据其对病人出院时间进行预测,预测算法流程图如图1所示。

在训练XGBoost模型时,主要考虑表2所述的5个超参数,以往调参常常考虑的是网格法,但网格法寻找最优模型的复杂度是指数级的,训练时间特别长,几乎无法处理含有多个超参数的调优。

表2-XGBoost主要超参数

遗传算法(GA)是上世纪J.Holland提出来的一种随机搜索方法,其主要优点是直接对目标对象进行取值判断,不需要其满足求导和函数连续性的假设条件,自适应的寻找全局最优解,降低计算的复杂度,通过遗传算法(GA)对XGBoost模型选择超参数,可以大大缩小训练时间,并且也能够很好的提升模型准确度,达到目标函数的最小值,步骤如下:

1、在超参数空间随机生成N个组合作为初始化种群;

2、通过交叉验证方法得到XGBoost的损失函数来计算每个个体适应度;

3、将适应度较高的参数组合保留;

4、对保留的个体参数进行交叉操作,生成新的参数组合,并且对生成的参数组合进行随机变异的操作;

5、淘汰参数组合中适应度较低的个体;

6、重复2到5,直到满足设定的结束条件为止;

7、选择所有参数组合中适应度最高的个体作为模型的超参数。

将选择后的数据集作为训练集对GA_XGBoost进行训练。

选取

得到每轮训练后树各个节点分裂最优切分点:

和得到叶子节点的权重数值:

最后将验证集输入训练好的模型,得到预测结果如表3所示。

表3-各个回归模型预测结果比较

由表3可以看出,本申请提供的XGBoost模型及GA_XGBoost模型均可对直肠癌患者术后出院准备度进行预测,而且发现GA_XGBoost在MSE和MAE两项指标中的预测精度有所提高,基本满足现实工作中给病人和医生一个有效的预估,利于对患者的术后安排和治疗,同时可减少不必要的住院费用和医疗资源浪费。

实施例4:

在前述实施例的基础上,本实施例提供一种电子设备,包括至少一个存储器、至少一个处理器及存储在存储器上并在处理器上运行的至少一条计算机指令,当所述电子设备运行时,所述处理器执行所述计算机指令,以使得所述电子设备执行前述实施例所述模型中限定的方法。

实施例5:

在前述实施例的基础上,本实施例提供一种机器可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成前述实施例所述模型中限定的方法。

上述实施例中的常规技术为本领域技术人员所知晓的现有技术,故在此不再详细赘述。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管对本发明已作出了详细的说明并引证了一些具体实施例,但是对本领域熟练技术人员来说,只要不离开本发明的精神和范围可作各种变化或修正是显然的。

虽然上述具体实施方式已经显示、描述并指出应用于各种实施方案的新颖特征,但应理解,在不脱离本公开内容的精神的前提下,可对所说明的装置或方法的形式和细节进行各种省略、替换和改变。另外,上述各种特征和方法可彼此独立地使用,或可以各种方式组合。所有可能的组合和子组合均旨在落在本公开内容的范围内。上述许多实施方案包括类似的组分,并且因此,这些类似的组分在不同的实施方案中可互换。虽然已经在某些实施方案和实施例的上下文中公开了本发明,但本领域技术人员应理解,本发明可超出具体公开的实施方案延伸至其它的替代实施方案和/或应用以及其明显的修改和等同物。因此,本发明不旨在受本文优选实施方案的具体公开内容限制。

本发明未尽事宜均为公知技术。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号