首页> 中国专利> 一种COVID-19临床不良预后风险的预测方法及系统

一种COVID-19临床不良预后风险的预测方法及系统

摘要

本发明公开了一种COVID‑19临床不良预后风险的预测方法及系统,该方法包括:采集预设数量OVID‑19患者的样本数据,通过LASSO回归在所述样本数据中初步筛选变量;根据所述筛选变量,建立基于二分类逻辑回归算法的预测模型;所述预测模型包括:多项式模型、完全模型和AIC逐步回归模型;对所述预测模型进行分辨度,校准度,临床价值的综合分析,并根据临床目的选取最佳阈值分析;综合分析下,选择AIC逐步回归模型作为COVID‑19风险预测模型;将待测患者对应的筛选变量作为COVID‑19风险预测模型的输入,输出风险预测结果。该方法可用于早期快速快速评估新冠患者的死亡风险,并据此制定针对性的临床决策。

著录项

  • 公开/公告号CN113160985A

    专利类型发明专利

  • 公开/公告日2021-07-23

    原文格式PDF

  • 申请/专利号CN202110437846.1

  • 申请日2021-04-22

  • 分类号G16H50/30(20180101);G16H50/20(20180101);G16H50/50(20180101);G16H50/70(20180101);G06K9/62(20060101);G06F17/18(20060101);

  • 代理机构11465 北京慕达星云知识产权代理事务所(特殊普通合伙);

  • 代理人符继超

  • 地址 550000 贵州省贵阳市花溪区黄河路67号

  • 入库时间 2023-06-19 11:57:35

说明书

技术领域

本发明属于新冠肺炎疾病预测的技术领域,涉及一种COVID-19临床不良预后风险的预测方法及系统。

背景技术

COVID-19患者的临床表现可是完全无症状的,或表现为严重临床表现而导致死亡。目前所提出的预测模型是一个简单的工具,仅用于预测无症状和有症状的患者,使其能够以高可靠性(AUC:0.92)识别有严重COVID-19病程风险的患者。其基于校准曲线证实了预测模型的良好校准。但是:目前的模型验证仅基于bootstrapping的内部验证,而未进行外部验证。

因此,为了有利于早期发现高危患者,预测COVID-19死亡风险,成为研究热点。

发明内容

鉴于上述问题,本发明提供一种至少解决上述部分技术问题的COVID-19临床不良预后风险的预测方法及系统,该方法可用于早期快速快速评估新冠患者的死亡风险,并据此制定针对性的临床决策。

第一方面,本发明实施例提供一种COVID-19临床不良预后风险的预测方法,包括:

采集预设数量COVID-19患者的样本数据,通过LASSO回归在所述样本数据中初步筛选变量;

根据所述筛选变量,建立基于二分类逻辑回归算法的预测模型;所述预测模型包括:多项式模型、完全模型和AIC逐步回归模型;

对所述预测模型进行分辨度,校准度,临床价值的综合分析,并根据临床目的选取最佳阈值分析;

综合分析下,选择AIC逐步回归模型作为COVID-19风险预测模型;

将待测患者对应的筛选变量作为COVID-19风险预测模型的输入,输出风险预测结果。

在一个实施例中,所述分辨度通过ROC曲线进行判定;

所述校准度通过计算模型的预测概率及实际发生概率,做校准曲线,实现评估模型的可靠性;

所述临床价值通过决策曲线对模型的临床价值进行评估,实现根据其净获益率评估模型的临床价值。

在一个实施例中,所述样本数据,包括:临床资料、健康信息中所含临床信息。

在一个实施例中,所述筛选变量,包括:

年龄,性别,心衰,冠心病,AST/ALT,总蛋白,平均血红蛋白体积,间接胆红素,球蛋白,直接胆红素,降钙素原,血浆D二聚体,活化部分凝血活酶,凝血酶时间,凝血酶原时间,血小板计数和血小板体积分布宽度。

在一个实施例中,所述多项式模型,基于敏感性分析目的,排除非线性关联对模型拟合的影响;表达如下:

Model 0:-4.77669+0.40677*I(血浆D二聚体^1)+4.65709*1((年龄/100)^1)-1.13453*1((淋巴细胞百分比/10)^1)+0.44859*I(AST/ALT^1);

所述完全模型将LASSO筛选出来的所有协变量通过二分类逻辑回归算法构建方程,表达如下:

Model 1:-5.27916+0.04460*年龄+0.35759*(AST/ALT)+0.01557*直接胆红素+0.38560血浆D二聚体+0.04313*凝血酶原时间-0.00438*血小板计数+0.09245*中性细胞数-0.06290*淋巴细胞数-0.08236*淋巴细胞百分率;

基于Model1,通过AIC逐步回归模型采用赤池信息准则进行筛选,并构建精简后的方程,表达如下:

Model2:-3.78823+0.04462*年龄+0.39508*(AST/ALT)+0.424988*血浆DD-0.00378血小板计数-0.11922*淋巴细胞百分率。

第二方面,本发明实施例还提供一种COVID-19风险预测系统,包括:

采集筛选模块,用于采集预设数量COVID-19患者的样本数据,通过LASSO回归在所述样本数据中初步筛选变量;

建立模块,根据所述筛选变量,建立基于逻辑回归算法的预测模型;所述预测模型包括:多项式模型、完全模型和AIC逐步回归模型;

分析选择模块,用于对所述预测模型进行分辨度,校准度,临床价值的综合分析,并根据临床目的选取最佳阈值分析;综合分析下,选择AIC逐步回归模型作为COVID-19风险预测模型;

预测模块,用于将待测患者对应的筛选变量作为COVID-19风险预测模型的输入,输出风险预测结果。

与现有技术相比,本发明公开提供了一种COVID-19临床不良预后风险的预测方法,具有如下优点:

(1)可用于早期快速快速评估新冠患者的死亡风险,并据此制定针对性的临床决策,为新冠肺炎患者的治疗方案做出预期;

(2)相比目前仅基于bootstrapping的内部验证模型,本方法预测准确性高。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例提供的COVID-19临床不良预后风险的预测方法流程图;

图2为本发明实施例提供的COVID-19风险预测方法基于软件形式设计的流程图;

图3为通过计算机模拟重采样后所得到的ROC曲线图;

图4为本发明实施例提供的ROC曲线示意图;

图5为本发明实施例提供的校准曲线示意图;

图6为本发明实施例提供的决策曲线示意图;

图7为本发明实施例提供的COVID-19临床不良预后风险的预测系统的框图;

图8为本发明实施例提供的COVID-19临床不良预后风险的预测系统的输入界面图;

图9为本发明实施例提供的COVID-19临床不良预后风险的预测系统的又一输入界面图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

参见附图1所示,本发明实施例公开了一种COVID-19临床不良预后风险的预测方法,具体包括如下步骤:

S100、采集预设数量COVID-19患者的样本数据,通过LASSO回归在所述样本数据中初步筛选变量;

S200、根据所述筛选变量,建立二分类基于逻辑回归算法的预测模型;所述预测模型包括:多项式模型、完全模型和AIC逐步回归模型;

S300、对所述预测模型进行分辨度,校准度,临床价值的综合分析,并根据临床目的选取最佳阈值分析;综合分析下,选择AIC逐步回归模型作为COVID-19风险预测模型;

S400、将待测患者对应的筛选变量作为COVID-19风险预测模型的输入,输出风险预测结果。

本发明实施例中,采集大量COVID-19患者的临床样本数据,通过LASSO回归基于惩罚函数初步筛选变量,并根据筛选变量,建立基于二分类逻辑回归算法的预测模型。预测模型包括:多项式模型、完全模型和AIC逐步回归模型;综合性对预测模型从分辨度(ROC曲线)、可靠度(校准曲线)及临床价值进行综合评估(决策曲线),并分析最佳阈值分析,最终选择AIC逐步回归模型作为COVID-19风险预测模型;将待测患者对应的筛选变量作为COVID-19风险预测模型的输入,输出风险预测结果。

该方法可用于早期快速快速评估新冠患者的死亡风险,并据此制定针对性的临床决策。该模型所含变量均为临床常规,易获取的常规项目,且经过计算机模拟重采样技术进行校正,临床易推广且适合下级基层医院。

比如参与者从2020年1月7日到2月28日,连续和非选择性地收集了663名COVID-19患者。通过LASSO、binary logistic回归算法建立的基于临床易获取指标(年龄、ALT/AST、淋巴细胞比率,D-D二聚体,血小板)的COVID-19风险预测模型;该模型具有良好的分辨度、可靠度及临床应用价值;通过输入临床指标,获得预测结果,可用于早期快速快速评估新冠患者的死亡风险,并据此制定针对性的临床决策。

其中,该模型的表现形式比如可通过Visual Basic编写的计算器。参照图2所示,通过筛选收集病例,筛选变量,通过LASSO回归基于惩罚函数初步筛选得到初始变量;然后基于初始变量进行ROC曲线分析,获得预测模型,

得到三种类型,通过ROC曲线分析及最佳阈值分析,选择AIC逐步回归模型作为COVID-19风险预测模型,最终通过VisualBasic编写的计算器形成软件,验证其预测功能。可用于早期快速快速评估新冠患者的死亡风险,并据此制定针对性的临床决策。

下面具体对本发明提供的技术方案进行详细描述。

本发明涉及的名词解释:SEX,性别,AGE年龄,hbp,高血压,DM糖尿病,HEARTFAILUE心衰,CAD冠心病,AST谷草转氨酶,ALT谷丙转氨酶。

第一步:通过LASSO回归初步筛选变量

通过现有临床资料、健康信息中所含临床信息,并结合同类研究,建立变量池,作为参与构建诊断模型的暴露变量池。该步骤的目的主要适应低EPV建模,降低过度拟合的风险。

LASSO将回归系数(b)收缩在一定的区域内。LASSO的主要思是构造一个一阶惩罚函数获得一个精炼的模型,通过最确定一些变量的系数为0进行特征筛选。LASSO的惩罚项为:sum(abs(b))<=t。

此模块通过10folds交叉验证(cross-validation)筛选lambda。lambda越大,模型越精简。交叉验证方法是将数据分成10等分,首先对全数据进行拟合,生成lambda序列,然后每次排除1分数据,用余下的9分数据进行验证,计算10次验证得出来的错误(deviance)的平均值与标准差。

LASSO是在RSS(残差平方和)最小化的计算中加入一个范数l

调整参数lambda的确定,通过交叉验证法:对lambda的给定值,进行交叉验证,选取交叉验证误差最小的lambda值。然后按照得到的lambda值,用全部数据重新拟合模型即可。

输出:

LASSO回归:结局指标:死亡

选择lambda=lambda.1se:0.0326(-3.4227)

lambda.1se表示标准差;

变量筛选∶AGE,AST/ALT,直接胆红素,血浆D二聚体,凝血酶原时间,中性粒细胞百分率评分∶0.01723*年龄+0.01723*AST/ALT+0.0928*直接胆红+000142*凝血酶原时间+0.00315*中性粒细胞百分率。

选择lambda=lamnbda.min:0.0035(-5.6555)

lamnbda.min表示最小误差;

筛选变量:年龄,性别,心衰,冠心病,AST/ALT,总蛋白,平均血红蛋白体积,间接胆红素,球蛋白,直接胆红素,降钙素原,血浆D二聚体,活化部分凝血活酶,凝血酶时间,凝血酶原时间,血小板计数,血小板体积分布宽度。上述变量为第一步筛选出的变量,通过LASSO回归基于惩罚函数初步筛选出的变量。

第二步:建立基于逻辑回归算法的预测模型

使用LASSO回归筛选出的变量,进行预测模型构建。鉴于结局变量(死亡/未死亡)为两分类变量,且随访时间过短,不会对结果造成影响,因此,基于binary logistic算法进行建模。共生成3个模型。模型0:多项式模型,该模型旨在基于敏感性分析目的,排除非线性关联对模型拟合的影响。模型1:完全模型,即将LASSO筛选出来的所有协变量放入。模型2:采用赤池信息准则进行筛选,即AIC-stepwise模型(AIC逐步回归模型)。AIC,Akaikeinformation criterion,是衡量统计模型拟合优良性(Goodness offit)的一种标准,又称赤池信息量准则。它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

表1

Model 0:Multiple Fractional Polynomial model from observed data

-4.77669+0.40677*I(X48^1)+4.65709*I((X3/100)^1)-1.13453*I((X24/10)^1)+0.44859*I(X12^1)

表1呈现了分数多项式模型中各个变量的偏相关系数,标准误,比值比,以及比值比的95%可信区间及P值。结果表明这些多项式的参数均结局相关,但在效应值方向上有区别。

Model 0:-4.77669+0.40677*I(血浆D二聚体^1)+4.65709*1((年龄/100)^1)-1.13453*1((淋巴细胞百分比/10)^1)+0.44859*I(AST/ALT^1);

表2

Model 1:Full model from observed data

-5.27916+0.04460*X3+0.35759*X12+0.01557*X43+0.38560*X48+0.04313*X52-0.00438*X28+0.09245*X33-0.06290*X25-0.08236*X24

Model1:-5.27916+0.04460*年龄+0.35759*AST/ALT+0.01557*直接胆红素+0.38560*血浆D二聚体+0.04313*凝血酶原时间-0.00438*血小板计数+0.09245*中性细胞数-0.06290*淋巴细胞数-0.08236*淋巴细胞百分率。

表2是所有LASSO-selected的参数全部进入模型后所呈现的表格;结果表明仅有年龄,血浆D二聚体与死亡呈正相关。其余的参数与结局的关联并无法在该模型中被观察到。

表3:

Model 2:Stepwise(stepAIC)selected model from observed data

-3.78823+0.04462*X3+0.39508*X12+0.42498*X48 -0.00378*X28 -0.11922*X24

Model2:-3.78823+0.04462*年龄+0.39508*ALT/ALS+0.424988*血浆DD-0.00378*血小板计数-0.11922*淋巴细胞百分率。

表3为精简后的模型,通过赤池信息准则对模型进行精简及优化。最终,仅在模型中留下5个变量,分别是年龄(X3),AST/ALT比值(X12),D二聚体(X48),血小板计数(X28)及淋巴细胞百分比(X24)。

第三步:分别对比三个模型的优劣

通过对三个模型的比较,表明:MFP模型(多项式模型),完全模型及AIC-逐步回归模型的ROC曲线下面积均差异不大,且敏感性,特异性,阳性似然比阴性似然比等方面亦无明显区别。鉴于AIC-stepwise模型参数更少,更简单,临床应用更方便,综合权衡下,最终采用Aic-stepwise模型作为最终的应用模型。

表4

1、敏感性:敏感性就是指由金标准确诊有病组内所检测出阳性病例数的比率(%)。即本实验诊断的真阳性率。其敏感性越高,漏诊的机会就越少。

2、特异性:是指由金标准确诊为无病组内所检测出阴性人数的比率(%),即本诊断实验的真阴性率。特异性越高,发生误诊的机会就越少。

3、诊断准确率:是指临床诊断检测出的真阳性和真阴性例数之和,占总检测人数的比例,即称本临床实验诊断的准确性。

4、阳性似然比(positive likelihood ratio):阳性似然比是指临床诊断检测出的真阳性率与假阳性率之间的比值,即阳性似然比=敏感性/(1-特异性)。可用以描述诊断试验阳性时,患病与不患病的机会比。提示正确判断为阳性的可能性是错误判断为阳性的可能性的倍数。阳性似然比数值越大,提示能够确诊患有该病的可能性越大。它不受患病率影响,比起敏感度和特异度更为稳定。

5、阴性似然比(negative liklihoodratio):阴性似然比是指临床实验诊断检测出的假阴性率与真阴性率之比值,此值越小,说明该诊断方法越好。可用以描述诊断试验阴性时,患病与不患病的机会比。阴性似然比提示错误判断为阴性的可能性是正确判断为阴性的可能性的倍数。阴性似然比数值越小,提示能够否定患有该病的可能性越大。

6、Yuden指数:Yuden指数=敏感性+特异性-1

7、ROC曲线:称受试者工作曲线,可以综合考虑一项诊断试验(定量指标)或预测模型(模型的预测值)在所有诊断界值时的灵敏度和特异度。对于每一个诊断界值,都可以得到相应的灵敏度和特异度。ROC曲线是以(1-特异度)为横坐标,以灵敏度为纵坐标绘制而成的曲线,它用线段连接每个诊断界值对应的[(1-特异度),灵敏度]的点。由预测模型计算出来的是一个连续性的对结果Y的预测值。对于这种连续变量,诊断界值可以取任意一个。对有序分类变量,由不同的诊断结果作为诊断界值时,对应于不同的灵敏度和特异度,将每种诊断结果对应的[(1-特异度),灵敏度]的点,标在直角坐标系中,用线段连接各相邻两点,即为有序分类资料的ROC曲线。

8、ROC曲线下面积(AUC):表示所有灵敏度时诊断试验平均特异度,或者所有特异度时诊断试验的平均灵敏度。通常,ROC曲线下面积在0.5-1之间。曲线下从原点到右上角的对角线称为机会线,表示无论取任诊断界值,灵敏度=1-特异度,即真阳性率=假阳性率,意味着无论患者和非患者都有同样的“机会”被诊断为阳性。ROC曲线越接近机会线,即曲线下面积越接近0.5,表明诊断试验区分患者和非患者的能力越弱;越接近1,表明诊断试验的准确度越强。一般认为,0.50-0.70之间,诊断价值较小;0.70-0.90之间,诊断价值中等;>0.90,诊断价值较高。最理想的诊断试验的ROC曲线是从坐标原点出发,沿着Y轴到(0,1)点,再沿着X轴的水平线到(1,1)点。在比较ROC曲线下面积时,还应考虑到实际临床应用情况。比如,某项诊断试验主要用于排除疾病时,则需要较高的特异度,这是我们仅对左侧的ROC曲线(即高特异度的ROC曲线部分)下的面积感兴趣。通过检验AUC是否等于0.5来评价某诊断试验有无诊断价值。

9、诊断界值确定:实际工作中,人们希望找到灵敏度和特异度均接近“1”的点。横轴为(1-特异度),所以横轴原点就是特异度为1的点,因此我们要找的点就是距ROC曲线图中左上角最近的点,也就是(灵敏度+特异度)取最大值的点。如果认为灵敏度的重要性是特异度的a倍,此时可选取(a*灵敏度+1*特异度)取值最大的点。在实际应用中,可以根据不同的研究目的确定阈值,如果诊断试验目的是筛查本病时,宜选在误诊率充许的范围内灵敏度较高的截断点,此时保证了漏诊率低;若试验目的为确诊本病,则宜选在漏诊率充许范围内特异度较高的截断点,此时误诊率低。

第四步:模型的内部验证

选择模型后,根据TRIPOD指南中的TYPE1B建模策略,采用了bootstrapping对AIC-stepwise模型进行内部验证。Bootstrapping-ROC曲线的曲线下面积与AIC-Stepwise模型的曲线下面积差异极小0.92 vs 0.91,bootstrapping内部验证模型表明AIC-stepwise的模型较可靠,其模拟重采样500次的波动范围较小(0.8569—0.9437)。

参照图3所示,该图为通过计算机模拟重采样后所得到的ROC曲线图。研究者通过bootstrapping(500次)计算出ROC曲线的曲线下面积可信区间。结果表明该曲线波动范围较小,结果稳定。

第五步建立模型的评估

分别从模型的分辨度(ROC曲线)、校准度(校准曲线)、临床价值方面(决策曲线)对模型进行评估。

ROC曲线参照图4所示,为不同模型的ROC可信区间。不同模式的线条代表不同模型。鉴于上述模型的ROC曲线下面积相差不大,因此,导致这些线基本重合。

校准曲线参照图5所示,为AIC-stepwise模型的校准曲线。其中,虚线为参照线,其代表预测值和观察值如果完全一致时的理想状态。而实线为观察概率和实际概率的校准曲线。两条线越接近,代表模型可信度越高。

决策曲线参照图6所示,为决策曲线图。其中,较粗虚线和较细虚线为参照线。较粗虚线代表极端情况1:无患者死亡;较细虚线代表极端情况2,即所有患者均死亡;黑色实线为决策曲线,该线离两条参照线越远越好。

其中,ROC曲线可判定模型的分辨度。鉴于本数据集EPV较低,因此,为了避免过度拟合,还使用了bootstrapping进行校正。此外,通过计算模型的预测概率及实际发生概率,做校准曲线,以评估模型的可靠性。最后,通过决策曲线对模型的临床价值进行评估,并根据其净获益率评估模型的临床价值。因为这几个模型相差不是太大,而stepwise是适合用于临床的。即在相差不大的情况下,选取变量最少(最简单)的。

第六步选取stepwise方案的变量及回归方程并设计软件

基于逻辑回归及赤池信息准则,通过R语言(版本号为343)获得最终的stepwise模型。其中,用到的R软件包包括doBy、plotrix、stringi、stringr、survival、rms、nnet、mgcv、MASS,mfp,gbm等。模型中包括的变量为:年龄,AST,ALT,血小板计数,血浆DD,淋巴细胞比例。

第七步:利用visual Basic软件进行小程序设计。

根据回归方程模型,写入下列代码:

Private Sub Command1_Click()

Dim概率As Integer

Dim年龄As Integer

Dim身高As Integer

Dim CA724 As Integer

DimN As Integer

LetN=Log(Val(Text3.Text))/Log(2)

Text4.Text="该名COVID19感染者死亡的概率为"&1/(1+Exp(-(-3.78823+0.04462*Val(Text1.Text)+0.39508*(Val(Text2.Text)/Val(Text3.Text))+0.42498*Val(Text6.Text)-0.00378*Val(Text5.Text)-0.11922*Val(Text7.Text))))*100&"%。"

基于同一发明构思,本发明实施例还提供一种COVID-19临床不良预后风险的预测系统,由于该系统所解决问题的原理与前述方法相似,因此该系统的实施可以参见前述方法的实施,重复之处不再赘述。

本发明实施例提供一种COVID-19临床不良预后风险的预测,参照图7所示,包括:

采集筛选模块61,用于采集预设数量COVID-19患者的样本数据,通过LASSO回归在所述样本数据中初步筛选变量;

建立模块62,根据所述筛选变量,建立基于逻辑回归算法的预测模型;所述预测模型包括:多项式模型、完全模型和AIC逐步回归模型;

分析选择模块63,用于对所述预测模型进行分辨度,校准度,临床价值的综合分析,并根据临床目的选取最佳阈值分析;综合分析下,选择AIC逐步回归模型作为COVID-19风险预测模型;

预测模块64,用于将待测患者对应的筛选变量作为COVID-19风险预测模型的输入,输出风险预测结果。

比如图8所示,为输入界面,通过输入:年龄:32;AST:123;ALT:43;血小板计数:133;血浆D-D:2;淋巴细胞百分率:21;生成的结论为:该名COVID-19感染者死亡的概率为3.27%。临床医生可以通过简单的数据录入可以得到相关风险结论。

比如图9所示,通过输入:年龄:40;AST:300;ALT:30;血小板计数:133;血浆D-D:10;淋巴细胞百分率:42;生成的结论为:该名COVID-19感染者死亡的概率为66.53%。临床医生可以通过简单的数据录入可以得到相关风险结论。通过输入临床指标,获得预测结果,可用于早期快速快速评估新冠患者的死亡风险,并据此制定针对性的临床决策。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号