首页> 中国专利> 风险事件预测方法和系统、风险事件预测系统的生成方法

风险事件预测方法和系统、风险事件预测系统的生成方法

摘要

本公开提供一种风险事件预测方法、风险事件预测系统、风险事件预测系统的生成方法、电子设备、计算机可读存储介质以及计算机程序产品。风险事件预测系统的生成方法,包括:数据预处理步骤,接收预定时间段内与风险事件相关联的多种事件数据,对多种事件数据执行预处理,生成待处理数据;特征数据选择步骤,从待处理数据中选择与风险事件相关性满足预定条件的数据,作为特征数据;以及预测系统训练步骤,利用特征数据作为训练数据,训练并且获得预测系统。生成的预测系统具有高准确率、强鲁棒性并且对于特征依赖性低,从而在缺乏足够的既往风险事件史的情况下,也能实现对于风险事件的首次出现的预测。

著录项

  • 公开/公告号CN112489803A

    专利类型发明专利

  • 公开/公告日2021-03-12

    原文格式PDF

  • 申请/专利权人 阿斯利康投资(中国)有限公司;

    申请/专利号CN202011538358.1

  • 申请日2020-12-23

  • 分类号G16H50/30(20180101);G16H50/80(20180101);G06K9/62(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人张晓明

  • 地址 201203 上海市浦东新区亮景路199号

  • 入库时间 2023-06-19 10:11:51

说明书

技术领域

本公开涉及人工智能领域,更具体地,本公开涉及一种风险事件预测方法、风险事件预测系统、风险事件预测系统的生成方法、电子设备、计算机可读存储介质以及计算机程序产品。

背景技术

预测技术是根据一定事物的运动和变化规律,用学科的方法和手段对事物的发展趋势和未来的状态进行估量,做出定性或者定量的评价。人们希望能够通过科学的预测技术对未来可能发生的风险事件(例如,疾病、自然灾害、意外危险)进行预估,从而能够避免风险事件的出现或者为风险事件的出现做好预案准备。

近年来,随着大数据技术、各种算法以及相关硬件算力的成熟,人工智能技术处于井喷式的发展阶段。人工智能技术在风险事件预测方面能够获得比传统的预测技术更为精准的预测结果。对于疾病这种风险事件的预测由于与人们的健康息息相关,所以已经成为风险事件预测的最重要对象。

例如,对于慢性阻塞性肺疾病(简称为“慢阻肺”,COPD)是一种进行性加重、目前无法治愈的慢性呼吸系统疾病。根据最新流行病学调查,我国慢阻肺疾病患者高达9990万人。慢阻肺疾病分期包括稳定期和急性加重(AECOPD)期,其中AECOPD指慢阻肺症状在短期内急剧恶化,需要额外治疗。AECOPD临床高发并且是导致疾病进展甚至死亡的主要原因之一。研究显示65%患者每年发生大于1次的AECOPD,由于AECOPD住院的患者5年死亡率大于50%。考虑到AECOPD严重威胁患者健康,降低AECOPD风险是慢阻肺管理的一大目标。现行的国内外指南推荐以过去一年内的AECOPD次数(AECOPD史)评估患者未来AECOPD风险的高低,并作为选择治疗药物的一个重要依据。然而,由于1)目前慢阻肺诊断率低(<10%),慢阻肺筛查是病例发现的重要手段,但对于这些通过筛查首次确诊的患者,无法获取AECOPD史;2)慢阻肺患者以老年人为主(平均>60岁),对疾病认知有限,通过临床问诊很难准确获取AECOPD史,导致目前对于AECOPD风险的预测评估模式存在不足。而如果能更早和更准确地识别AECOPD高风险患者并进行个体化治疗,则可以降低未来的AECOPD风险。

因此,希望提供一种风险事件预测方法和系统,其能够基于被预测对象(例如,慢阻肺疾病患者)在预定时间段内与风险事件(例如,AECOPD)相关联的多种事件数据,获取在未来一定时间段内出现风险事件的概率。

发明内容

鉴于上述问题而提出了本公开。本公开提供了一种风险事件预测方法、风险事件预测系统、风险事件预测系统的生成方法、电子设备、计算机可读存储介质以及计算机程序产品。

根据本公开的一个方面,提供了一种风险事件预测系统的生成方法,包括:数据预处理步骤,接收预定时间段内与所述风险事件相关联的多种事件数据,对所述多种事件数据执行预处理,生成待处理数据;特征数据选择步骤,从所述待处理数据中选择与所述风险事件相关性满足预定条件的数据,作为特征数据;以及预测系统训练步骤,利用所述特征数据作为训练数据,训练并且获得所述预测系统。

此外,根据本公开一个方面的风险事件预测系统的生成方法,其中,所述数据预处理步骤包括:对多种事件数据执行数据编码处理、缺失数据处理,以及数据归一化处理。

此外,根据本公开一个方面的风险事件预测系统的生成方法,其中,特征数据选择步骤包括执行方差筛选、卡方检验筛选、随机森林筛选中的一个或多个。

此外,根据本公开一个方面的风险事件预测系统的生成方法,其中,所述预测系统包括多个预测子模型,所述多个预测子模型包括:逻辑回归子模型、朴素贝叶斯子模型、决策树子模型、随机森林子模型、极端梯度提升子模型、轻量级梯度提升机子模型、长短期记忆网络子模型中的一个或多个。

此外,根据本公开一个方面的风险事件预测系统的生成方法,其中,所述预测系统训练步骤还包括融合所述多个预测子模型。

此外,根据本公开一个方面的风险事件预测系统的生成方法,其中,融合所述多个预测子模型包括利用投票融合、混合融合、层叠融合中的一个或多个融合所述多个预测子模型的预测结果。

此外,根据本公开一个方面的风险事件预测系统的生成方法,其中,所述风险事件为患者出现慢性阻塞性肺疾病急性加重,所述多种事件数据为患者相关的身体指标。

根据本公开的另一个方面,提供了一种风险事件预测系统,包括:风险事件接收单元,接收预定时间段内与所述风险事件相关联的多种事件数据作为待预测数据;以及风险事件预测单元,处理所述待预测数据,生成风险事件的出现概率。

此外,根据本公开另一个方面的风险事件预测系统,还包括:数据预处理单元,对所述多种事件数据执行预处理,生成待处理数据;特征数据选择单元,从所述待处理数据中选择与所述风险事件相关性满足预定条件的数据,作为特征数据;以及预测训练单元,利用所述特征数据作为训练数据,训练并且获得所述风险事件预测单元。

此外,根据本公开另一个方面的风险事件预测系统,其中,所述数据预处理单元对多种事件数据执行数据编码处理、缺失数据处理,以及数据归一化处理。

此外,根据本公开另一个方面的风险事件预测系统,其中,所述特征数据选择单元执行方差筛选、卡方检验筛选、随机森林筛选中的一个或多个。

此外,根据本公开另一个方面的风险事件预测系统,其中,所述风险事件预测单元包括多个预测子模型,所述多个预测子模型包括:逻辑回归子模型、朴素贝叶斯子模型、决策树子模型、随机森林子模型、极端梯度提升子模型、轻量级梯度提升机子模型、长短期记忆网络子模型中的一个或多个。

此外,根据本公开另一个方面的风险事件预测系统,其中,所述预测训练单元训练并且获得所述风险事件预测单元还包括融合所述多个预测子模型以获得所述风险事件预测单元。

此外,根据本公开另一个方面的风险事件预测系统,其中,融合所述多个预测子模型包括利用投票融合、混合融合、层叠融合中的一个或多个融合所述多个预测子模型的预测结果。

此外,根据本公开另一个方面的风险事件预测系统,其中,所述风险事件为患者出现慢性阻塞性肺疾病急性加重,所述多种事件数据为患者相关的身体指标。

根据本公开的又一个方面,提供了一种风险事件预测方法,包括:接收预定时间段内与所述风险事件相关联的多种事件数据作为待预测数据;以及利用风险事件预测系统处理所述待预测数据,生成风险事件的出现概率,其中,所述风险事件预测系统为使用如上所述的风险事件预测系统的生成方法所生成的。

根据本公开的再一个方面,提供了一种电子设备,包括:存储器,用于存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,执行如上所述的风险事件预测系统的生成方法或如上所述的风险事件预测方法。

根据本公开的再一个方面,提供了一种计算机可读存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行如上所述的风险事件预测系统的生成方法或如上所述的风险事件预测方法。

根据本公开的再一个方面,提供了一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令由处理器执行时,实现如上所述的风险事件预测系统的生成方法或如上所述的风险事件预测方法。

如以下将详细描述的,根据本公开的风险事件预测方法、风险事件预测系统、风险事件预测系统的生成方法、电子设备、计算机可读存储介质以及计算机程序产品,能够自动从与风险事件相关联的多种事件数据中执行特征筛选,选择与风险事件预测最相关的事件数据作为特征数据,并且融合多种不同的预测子模型,训练并生成具有高准确率、强鲁棒性并且对于特征依赖性低的用于风险事件的预测系统,从而在缺乏足够的既往风险事件史的情况下,也能实现对于风险事件的首次出现的预测。

附图说明

通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1是图示根据本公开实施例的风险事件预测系统的示意图;

图2是图示根据本公开实施例的风险事件预测方法的流程图;

图3是图示根据本公开实施例的风险事件预测系统的生成方法的流程图;

图4是进一步图示根据本公开实施例的风险事件预测系统的生成方法的流程图;

图5是图示根据本公开实施例的风险事件预测系统的决策树子模型的处理示意图;

图6是图示根据本公开实施例的风险事件预测系统的随机森林子模型的处理示意图;

图7是图示根据本公开实施例的风险事件预测系统的长短期记忆网络子模型的网络结构单元的示意图;

图8是图示根据本公开实施例的风险事件预测系统的示意性框图;

图9是图示根据本公开实施例的电子设备的硬件框图;以及

图10是图示根据本公开的实施例的计算机可读存储介质的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。

图1是图示根据本公开实施例的风险事件预测系统的示意图。

如图1所示,根据本公开实施例的风险事件预测系统100至少包括风险事件接收单元101和风险事件预测单元102。容易理解的是,根据本公开实施例的风险事件预测系统100不限于此,而是还可以包括例如用于可视化输出风险事件预测结果的结果输出单元,用于在风险事件预测系统100内部各个组成单元之间执行通信或者在风险事件预测系统100与其他外部系统之间执行通信的通信单元等。

在本公开的实施例中,风险事件接收单元101和风险事件预测单元102以及其他可能的组成单元可以配置为处于同一物理位置,甚至配置为属于同一物理设备。可替代地,风险事件接收单元101和风险事件预测单元102以及其他可能的组成单元可以配置为处于不同位置,并且通过有线或者无线通信网络连接,从而在相互之间传输数据或者命令。

具体地,风险事件接收单元101用于接收预定时间段内与待预测的风险事件相关联的多种事件数据作为待预测数据。在本公开的一个实施例中,所述风险事件接收单元101例如可以通过输入界面接收与待预测的风险事件相关联的多种事件数据的输入。在本公开的另一个实施例中,所述风险事件接收单元101可以通过对于存储有与待预测的风险事件相关联的多种事件数据的数据库的访问,获取预定时间段内与待预测的风险事件相关联的多种事件数据。在本公开的再一个实施例中,所述风险事件接收单元101可以作为数据采集设备获取与待预测的风险事件相关联的多种事件数据。例如,在预测作为风险事件的疾病的出现概率的情况下,所述风险事件接收单元101可以接收输入的待预测患者的相关身体指标;或者所述风险事件接收单元101可以从存储有待预测患者的相关的身体指标的医学数据库访问并且获取待预测患者的相关身体指标;或者所述风险事件接收单元101可以集成有一个或多个身体指标检测设备,从而检测并获取待预测患者的相关身体指标。

风险事件预测单元102用于处理所述待预测数据,生成风险事件的出现概率。在本公开的一个实施例中,风险事件预测单元102可以是配置有预先训练好的风险事件预测模型的服务器、个人计算机、便携式终端设备等电子设备。

如下将详细描述的,根据本公开实施例的风险事件预测系统将对所述多种事件数据执行诸如执行数据编码处理、缺失数据处理,以及数据归一化处理的预处理,生成待处理数据;并且通过执行方差筛选、卡方检验筛选、随机森林筛选中的一个或多个,从所述待处理数据中选择与所述风险事件相关性满足预定条件的数据,作为特征数据;此后通过利用投票融合、混合融合、层叠融合中的一个或多个融合诸如逻辑回归子模型、朴素贝叶斯子模型、决策树子模型、随机森林子模型、极端梯度提升子模型、轻量级梯度提升机子模型、长短期记忆网络子模型的多个预测子模型,从而利用融合所述多个预测子模型的风险事件预测模型处理所述待预测数据,生成风险事件的出现概率。

此外,如上所述的风险事件预测系统中配置的风险事件预测模型预先通过训练过程生成。在训练过程中,同样需要执行对于训练数据的数据预处理以及特征数据选择,从而确定与风险事件预测最相关的事件数据作为特征数据进行融合多种不同的预测子模型的风险事件预测模型的训练。

图2是图示根据本公开实施例的风险事件预测方法的流程图。如图2所示,根据本公开实施例的风险事件预测方法包括如下步骤:

在步骤S201中,接收预定时间段内与所述风险事件相关联的多种事件数据作为待预测数据。此后,处理进到步骤S202。

在步骤S202中,利用风险事件预测系统处理所述待预测数据,生成风险事件的出现概率。

以上,参照图1和图2概述了根据本公开实施例的风险事件预测系统以及风险事件预测方法。以下,参照附图将进一步详细描述根据本公开实施例的风险事件预测系统的生成方法。

图3是图示根据本公开实施例的风险事件预测系统的生成方法的流程图。如图3所示,根据本公开实施例的风险事件预测系统的生成方法包括如下步骤。

在步骤S301中,执行数据预处理步骤,接收预定时间段内与所述风险事件相关联的多种事件数据,对所述多种事件数据执行预处理,生成待处理数据。如下将详细描述的,数据预处理用于将接收的与所述风险事件相关联的多种事件数据执行编码、缺失值填充、数据归一化等处理,从而获得适于风险事件预测模型的结构化数据。此后,处理进到步骤S302。

在步骤S302中,执行特征数据选择步骤,从所述待处理数据中选择与所述风险事件相关性满足预定条件的数据,作为特征数据。如下将详细描述的,在所述待处理数据的类别很多,即结构化数据的维度很高的情况下,需要对所述待处理数据执行降维处理,即通过评估所述待处理数据的特定类别的参数对于预测结果的影响程度或者贡献率,选择出与预测结果的相关性满足预定条件的数据。此后,处理进到步骤S303。

在步骤S303中,执行预测系统训练步骤,利用所述特征数据作为训练数据,训练并且获得所述预测系统。如下将详细描述的,根据本公开实施例的风险事件预测系统将配置有多个预测子模型,包括但不限于逻辑回归子模型、朴素贝叶斯子模型、决策树子模型、随机森林子模型、极端梯度提升子模型、轻量级梯度提升机子模型、长短期记忆网络子模型中的一个或多个。因此,对于多个预测子模型,需要在训练阶段融合所述多个预测子模型。例如,通过投票融合、混合融合、层叠融合中的一个或多个融合所述多个预测子模型的预测结果。

图3概述了根据本公开实施例的风险事件预测系统的生成方法。图4是进一步图示根据本公开实施例的风险事件预测系统的生成方法的流程图。下面,结合风险事件预测系统用于慢阻肺疾病分期的急性加重(AECOPD)期预测的具体场景,进一步详细描述根据本公开实施例的风险事件预测系统的生成方法。

如图4所示,根据本公开实施例的风险事件预测系统的生成方法包括如下步骤。

在步骤S401中,接收预定时间段内与所述风险事件相关联的多种事件数据,对多种事件数据执行数据编码处理、缺失数据处理、以及数据归一化处理,生成待处理数据。

具体地,数据编码处理用于将多种事件数据执行特征数字化处理,从而将类别变量转换为数值变量。例如,在涉及慢阻肺疾病患者的多种事件数据的情况下,将性别参数变量转换为1和0,即男患者对应的参数为1,女患者对应的参数为0。例如,对于多分类变量,可以采用独热编码将其转换为多个独立特征量。例如,对于患者的人种参数,在包括白种人、黑种人和黄种人的情况下,对于白种人患者,其人种特征为[1,0,0],对于黑种人患者,其人种特征为[0,1,0],而对于黄种人患者,其人种特征为[0,0,1]。

进一步地,还需要对多种事件数据执行缺失数据处理,从而移除掉确实的数据。例如,在从医学数据库访问并且获取患者的医疗数据作为多种事件数据的情况下,可能存在医学数据库中特定患者由于没有进行某项检查或者检查结果缺失,那么对于缺失率大于一定阈值(例如,30%)的特征数据可以直接做丢弃处理,以便对后续预测处理引入噪声。

此外,对于不同的特征数据可能设置不同的缺失数据处理流程。例如,对于数值型的特征数据,如果该特征为非重要特征并且其缺失量小于预定阈值,则可以使用众数或者平均数对缺失的内容进行填充,或者在缺失量大于预定阈值,则直接丢弃该特征数据。而如果该特征为重要特征,则可以使用回归或者平均数对缺失的内容进行填充。对于字符串型的特征数据,如果该特征为类别特征,则赋予缺失的标志值,如果该特征为文本特征,则填充缺失的信息值。

此外,还需要对多种事件数据执行数据归一化处理。通过数据归一化处理以便规整数据规模,消除具体数据的数值本身对于后续特征数据选择以及模型预测的影响。在本公开的一个实施例中,可以采用的数据归一化处理为:

其中,x代表当前特征量,x

在步骤S401中执行了数据编码处理、缺失数据处理、以及数据归一化处理,生成待处理数据之后,处理进到步骤S402。

在步骤S402中,执行方差筛选、卡方检验筛选、随机森林筛选中的一个或多个,从在步骤S401中生成的待处理数据中选择与所述风险事件相关性满足预定条件的数据,作为特征数据。

具体地,可以执行方差筛选计算特征数据的方差,预先设置方差阈值,将方差小于所述方差阈值的特征数据移除。此外,可以执行卡方检验,以便移除与目标相对独立的特征数据,并且标记特征数据之间的相关性。进一步地,还可以执行特征数据与目标训练的随机森林,此后通过基尼系数计算特征数据重要性,评估各个特征数据对目标的贡献率,去除相关性较强的两个特征数据中贡献率较低的特征数据,并设定特征重要性阈值,选择其重要性高于特征重要性阈值的特征数据作为最终特征数据。

通过上述特征数据选择步骤,将大大降低待处理数据的特征冗余,缓解后续预测模型过拟合,提高了预测模型的泛化性。

在步骤S402中执行了方差筛选、卡方检验筛选、随机森林筛选中的一个或多个,生成特征数据之后,处理进到步骤S403。

在步骤S403中,利用所述特征数据作为训练数据,利用投票融合、混合融合、层叠融合中的一个或多个融合多个预测子模型的预测结果,训练并且获得所述预测系统。

具体地,根据本公开实施例的所述预测系统配置有逻辑回归子模型、朴素贝叶斯子模型、决策树子模型、随机森林子模型、极端梯度提升子模型、轻量级梯度提升机子模型、长短期记忆网络子模型中的一个或多个。

一)对于逻辑回归子模型

利用逻辑回归子模型预测慢性阻塞性肺疾病患者未来预定时间段内是否会发生慢阻肺急性发作,即执行二分类问题。通过逻辑回归子模型,得到处于0-1之间的连续数字的计算结果,作为发生慢阻肺急性发作的“可能性”(即,概率)。通过设置一个可能性阈值(例如,0.5),则将可能性大于0.5的预测结果确定为该患者未来预定时间段内会发生慢阻肺急性发作,将可能性不大于0.5的预测结果确定为该患者未来预定时间段内不会发生慢阻肺急性发作。

二)朴素贝叶斯子模型

朴素贝叶斯子模型利用下述表达式:

最终求得的p(类别|特征)为分类结果。对于慢性阻塞性肺疾病患者来说,未来预定时间段内可能发生慢阻肺急性发作,则该患者具有年龄大,肺功能差等特征。预测该患者未来预定时间段内是否会发生慢阻肺急性发作,即转为比较p(发生|(年龄大、肺功能差……))与p(不发生|(年龄大、肺功能差……)))的概率,哪一项的概率大,即为预测结果。

三)决策树子模型

决策树子模型采用树形分支结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。决策树的生成分以下两步:

a)节点的分裂:一般当一个节点所代表的属性无法给出判断时,则选择将这一节点分成2个子节点(在不是二叉树的情况下,则分成n个子节点)

b)阈值的确定:选择适当的阈值使得分类错误率最小。

图5是图示根据本公开实施例的风险事件预测系统的决策树子模型的处理示意图。如图5所述,在将决策树子模型用于预测慢性阻塞性肺疾病患者未来预定时间段内是否会发生慢阻肺急性发作的情况下,决策树的根节点为患者特征数据,决策树中的节点可能选择为i)年龄是否大于60、ii)BMI是否大于23等等。沿着决策树从根节点自上到下直到叶子节点,给出预测结果。内部各个节点代表判断的条件,每个节点的条件可以在训练中学习得到。需要理解的是,图5示意性地构建了一棵四层的二叉树,本公开不限于此,而是包括其他可行的决策树结构。

四)随机森林子模型

随机森林子模型利用多重决策树的组合,而不是一棵决策树。具体来说,首先从待预测数据中随机选择k个特征(列),共m个特征(其中k小于等于m)。然后根据这k个特征建立决策树。重复n次,这k个特性经过不同随机组合建立起来n棵决策树。c)对每个决策树都传递随机变量来预测结果,存储所有预测的结果,即从n棵决策树中得到n种结果。计算每个预测目标的得票数再选择模式。也就是说,将得到高票数的预测目标作为随机森林算法的最终预测。随机森林子模型中的决策树的数量越多,其泛化的结果更好。

图6是图示根据本公开实施例的风险事件预测系统的随机森林子模型的处理示意图。

如图6所示可以得到不同的决策树(决策树1、决策树2以及没有示出的决策树n),将这n棵决策树以一定方法进行组合。例如通过投票来组合不同的决策树,投票结果即为最终随机森林模型结果。例如,有7棵决策树组成随机森林,其中5棵决策树认为可疑AE,2棵认为正常,则由于5大于2,那么最终结果即为可疑AE。

五)极端梯度提升子模型

极端梯度提升子模型是由k个基模型组成的一个加法运算式:

其中f

六)轻量级梯度提升机子模型

轻量级梯度提升机子模型同样采用决策树为基础,其分支策略是每次从当前的叶子中找到分裂增益最大的一个叶子进行分裂,如此循环。此外,为了避免生长出的决策树枝叶过多,产生过拟合,轻量级梯度提升机子模型增加了最大深度的限制,限制了决策树的深度,从而在保证高效率的同时防止过拟合。

七)长短期记忆网络子模型

长短期记忆网络子模型是一种特殊的循环神经网络(RNN),其对RNN的神经网络结构进行了优化与调整,使其能够学习到长期依赖关系。图7是图示根据本公开实施例的风险事件预测系统的长短期记忆网络子模型的网络结构单元的示意图。

如图7所示,X

长短期记忆网络子模型额外引入了注意力机制,注意力机制使长短期记忆网络子模型具备“注意力”,可以通过调整权重模型对各项指标的关注度。注意力机制的优势是通过强调重要特征,提高了预测模型的拟合效果及泛化性。此外,注意力机制的引入,为预测模型赋予了可解释性,其注意力权重可以代表预测模型对特征数据的重要性评估。

在根据本公开实施例的风险事件预测系统中,利用投票融合、混合融合、层叠融合中的一个或多个融合上述多个预测子模型的预测结果。

在投票融合处理中,对于多个预测子模型取得的预测结果,进行投票,其中票数最多的预测结果即为最终结果。在本公开的一个实施例中,例如如果采用7个预测子模型,统计其结果,其中大于等于5个预测子模型认为患者会在一年内发生慢性阻塞性肺疾病急性加重,则最终预测患者会在一年内发生慢性阻塞性肺疾病急性加重。

在层叠融合中,对于多个预测子模型分层处理。例如,以二层融合为例,假设对于有3个预测子模型M1、M2、M3,初始训练集为train1,测试集为test1。

首先,对于预测子模型M1,利用train1进行训练,然后对train1和test1进行预测,将预测的train1和test1的结果分别作为P1和T1。同样地,对于预测子模型M2和M3,重复相同的处理,得到P2、T2、P3、T3。分别把P1、P2、P3以及T1、T2、T3合并,得到一个新的训练集和测试集train2和test2。再用第二层的预测子模型M4训练train2,预测test2,从而得到最终的结果。

在混合融合中,不同于层叠融合中的分层融合,而是直接用不相交的数据集用于不同层的训练。仍以二层融合为例,将训练集划分为两部分(d1,d2),测试集为test。对于第一层,用d1训练多个预测子模型,将其对d2和test的预测结果作为第二层的新特征数据。对于第二层,用对d2的新特征数据和标签训练新的分类器,然后把对于test的新特征数据输入作为最终的测试集,对test预测出的结果就是最终的模型融合的预测值。

图8是图示根据本公开实施例的风险事件预测系统的示意性框图。根据本公开实施例的风险事件预测系统800包括风险事件接收单元801、数据预处理单元802、特征数据选择单元803、预测训练单元804和风险事件预测单元805。上述各模块可以分别执行如上参照图1到图7描述的根据本公开的实施例的风险事件预测方法以及风险事件预测系统的生成方法的各个步骤。本领域的技术人员理解:这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现,并且本公开不限于它们的任何一个。

风险事件接收单元801用于接收预定时间段内与待预测的风险事件相关联的多种事件数据作为待预测数据。在本公开的一个实施例中,所述风险事件接收单元801例如可以通过输入界面接收与待预测的风险事件相关联的多种事件数据的输入。在本公开的另一个实施例中,所述风险事件接收单元801可以通过对于存储有与待预测的风险事件相关联的多种事件数据的数据库的访问,获取预定时间段内与待预测的风险事件相关联的多种事件数据。在本公开的再一个实施例中,所述风险事件接收单元801可以作为数据采集设备获取与待预测的风险事件相关联的多种事件数据。例如,在预测作为风险事件的疾病的出现概率的情况下,所述风险事件接收单元801可以接收输入的待预测患者的相关身体指标;或者所述风险事件接收单元801可以从存储有待预测患者的相关的身体指标的医学数据库访问并且获取待预测患者的相关身体指标;或者所述风险事件接收单元801可以集成有一个或多个身体指标检测设备,从而检测并获取待预测患者的相关身体指标。

数据预处理单元802对于风险事件接收单元801接收的预定时间段内与所述风险事件相关联的多种事件数据执行预处理,包括但不限于数据编码处理、缺失数据处理、以及数据归一化处理,从而生成待处理数据。

特征数据选择单元803对数据预处理单元802生成的待处理数据执行方差筛选、卡方检验筛选、随机森林筛选中的一个或多个,选择与所述风险事件相关性满足预定条件的数据,作为特征数据。

预测训练单元804在训练阶段利用所述特征数据作为训练数据,训练并且获得所述风险事件预测单元。

风险事件预测单元805在训练阶段之后的预测阶段处理所述待预测数据,生成风险事件的出现概率。

由于根据本申请的风险事件预测系统800配置有逻辑回归子模型、朴素贝叶斯子模型、决策树子模型、随机森林子模型、极端梯度提升子模型、轻量级梯度提升机子模型、长短期记忆网络子模型中的一个或多个,在预测训练单元804的训练阶段以及风险事件预测单元805的预测阶段利用投票融合、混合融合、层叠融合中的一个或多个融合上述多个预测子模型的预测结果。

图9是图示根据本公开实施例的电子设备的硬件框图。根据本公开实施例的电子设备至少包括处理器;以及存储器,用于存储计算机程序指令。当计算机程序指令由处理器加载并运行时,所述处理器执行如上所述的风险事件预测系统的生成方法或如上所述的风险事件预测方法。

图9所示的电子设备900具体地包括:中央处理单元(CPU)901、图形处理单元(GPU)902和主存储器903。这些单元通过总线904互相连接。中央处理单元(CPU)901和/或图形处理单元(GPU)902可以用作上述处理器,主存储器903可以用作上述存储计算机程序指令的存储器。此外,电子设备900还可以包括通信单元905、存储单元906、输出单元907、输入单元908和外部设备909,这些单元也连接到总线904。

图10是图示根据本公开的实施例的计算机可读存储介质的示意图。如图10所示,根据本公开实施例的计算机可读存储介质1000其上存储有计算机程序指令1001。当所述计算机程序指令1001由处理器运行时,执行如上所述的风险事件预测系统的生成方法或如上所述的风险事件预测方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存、光盘、磁盘等。

以上,参照附图描述了根据本公开的风险事件预测方法、风险事件预测系统、风险事件预测系统的生成方法、电子设备、计算机可读存储介质以及计算机程序产品,能够自动从与风险事件相关联的多种事件数据中执行特征筛选,选择与风险事件预测最相关的事件数据作为特征数据,并且融合多种不同的预测子模型,训练并生成具有高准确率、强鲁棒性并且对于特征依赖性低的用于风险事件的预测系统,从而在缺乏足够的既往风险事件史的情况下,也能实现对于风险事件的首次出现的预测。

本公开的说明书和权利要求书及附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号