首页> 中国专利> 风险等级识别模型训练方法、识别方法、终端及存储介质

风险等级识别模型训练方法、识别方法、终端及存储介质

摘要

本发明涉及人工智能技术领域,提供一种风险等级识别模型训练方法、风险等级识别方法、终端及存储介质,包括:从多个用户的多个一阶特征中筛选出多个目标一阶特征并训练第一风险识别模型;使用第一风险识别模型对根据多个目标一阶特征生成的多个二阶特征进行有效性验证得到多个目标二阶特征;当基于多个目标二阶特征训练第二风险识别模型的测试通过率没有满足预设期望值时,使用多个目标二阶特征生成多个三阶特征并使用第二风险识别模型对多个三阶特征进行有效性验证得到多个目标三阶特征;直至满足预设期望值时,基于多个目标三阶特征训练风险等级识别模型。本发明能够提高风险等级识别模型的识别效率,有效的保证识别出的风险等级的准确率。

著录项

  • 公开/公告号CN112330432A

    专利类型发明专利

  • 公开/公告日2021-02-05

    原文格式PDF

  • 申请/专利权人 中国平安人寿保险股份有限公司;

    申请/专利号CN202011247673.9

  • 发明设计人 卢佳卉;

    申请日2020-11-10

  • 分类号G06Q40/00(20120101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构44334 深圳市赛恩倍吉知识产权代理有限公司;

  • 代理人杨毅玲;刘丽华

  • 地址 518000 广东省深圳市福田区益田路5033号平安金融中心14、15、16、41、44、45、46层

  • 入库时间 2023-06-19 09:49:27

说明书

技术领域

本发明涉及人工智能技术领域,具体涉及一种风险等级识别模型训练方法、风险等级识别方法、终端及存储介质。

背景技术

随着互联网、物联网、传感器等技术的快速发展,催生出了一种新的金融工具-互联网金融服务。互联网金融服务能够为没有抵押品且很可能被传统金融机构拒绝的人群提供了帮助,在金融领域中起着重要作用。对于提供此类金融服务的平台,主要挑战在于对用户进行风险管理和信用评分。

然而,发明人在实现本发明的过程中发现,在对用户进行风险管理时,经常要面对大量原始数据,而传统的风险评分或者信用评分在很大程度上取决于领域专家知识,且一次仅能构建一个特征,特征构建效率极其低下,导致风险评估效率较低;此外,凭直觉和反复试验构建的特征和权重,导致风险识别模型不稳定,进而导致风险识别准确率的可信度较低。

发明内容

鉴于以上内容,有必要提出一种风险等级识别模型训练方法、风险等级识别方法、终端及存储介质,能够提高风险等级识别模型的识别效率,有效的保证识别出的风险等级的准确率。

本发明的第一方面提供一种风险等级识别模型训练方法,所述方法包括:

从多个用户的多个一阶特征中筛选出多个目标一阶特征;

基于所述多个用户的多个目标一阶特征训练第一风险识别模型;

根据每个用户的多个目标一阶特征生成多个二阶特征,并使用所述第一风险识别模型对每个用户的多个二阶特征进行有效性验证得到多个目标二阶特征;

基于所述多个用户的多个目标二阶特征训练第二风险识别模型,并判断所述第二风险识别模型的测试通过率是否满足预设期望值;

当确定所述第二风险识别模型的测试通过率没有满足所述预设期望值时,使用所述多个用户的多个目标二阶特征生成多个三阶特征,并使用所述第二风险识别模型对每个用户的多个三阶特征进行有效性验证得到多个目标三阶特征;

迭代使用所述多个用户的多个目标三阶特征训练第三风险识别模型,直至判断所述第三风险识别模型的测试通过率满足预设期望值时,基于所述多个用户的多个目标三阶特征训练风险等级识别模型。

根据本发明的一个可选的实施例,所述根据每个用户的多个目标一阶特征生成多个二阶特征包括:

使用每个用户的多个目标一阶特征训练第一GBDT模型;

获取所述第一GBDT模型的叶子节点上的特征;

将每个叶子节点上的特征作为一个二阶特征。

根据本发明的一个可选的实施例,所述使用所述第一风险识别模型对每个用户的多个二阶特征进行有效性验证得到多个目标二阶特征包括:

从每个用户的多个目标一阶特征中随机选取部分目标一阶特征作为第一特征集;

将每个用户的多个二阶特征中的任意一个二阶特征加入所述第一特征集中得到第二特征集;

基于所述第二特征集训练子风险识别模型,并测试所述子风险识别模型的测试通过率;

判断所述第一风险识别模型的测试通过率是否小于所述子风险识别模型的测试通过率;

当所述第一风险识别模型的测试通过率小于所述子风险识别模型的测试通过率,确定所述任意一个二阶特征验证有效;

将所有验证有效的二阶特征确定为多个目标二阶特征。

根据本发明的一个可选的实施例,所述判断所述第二风险识别模型的测试通过率是否满足预设期望值包括:

计算所述第二风险识别模型的测试通过率与所述第一风险识别模型的测试通过率之间的差值;

判断所述差值是否小于预设差值阈值;

当确定所述差值小于所述预设差值阈值时,确定所述第二风险识别模型的测试通过率满足了预设期望值;

当确定所述差值大于或者等于所述预设差值阈值时,确定所述第二风险识别模型的测试通过率没有满足预设期望值。

根据本发明的一个可选的实施例,所述基于所述多个用户的多个目标三阶特征训练风险等级识别模型包括:

将每个用户的多个目标一阶特征与对应的多个目标二阶特征及多个目标三阶特征合并为用户特征向量;

对多个用户的用户特征向量进行聚类分析得到多个子集;

计算每一个子集的用户密度值;

将大于或者等于预设密度值阈值的用户密度值对应的子集确定为训练集,将小于所述预设密度值阈值的用户密度值对应的子集确定为测试集;

基于所述训练集训练深度神经网络得到风险等级识别模型;

基于所述测试集测试所述风险等级识别模型的测试通过率,并判断所述测试通过率是否大于预设通过率阈值;

当所述测试通过率大于所述预设通过率阈值时,停止风险等级识别模型的训练过程。

根据本发明的一个可选的实施例,从每个用户的多个一阶特征中筛选出多个目标一阶特征包括:

计算所述多个一阶特征中的任意两个一阶特征之间的相关系数;

选取大于预设系数阈值的相关系数对应的两个一阶特征;

对所选取的一阶特征进行去重处理得到多个目标一阶特征。

本发明的第二方面提供一种风险等级识别方法,所述方法包括:

获取待识别用户的多个目标特征;

调用预先训练好的风险等级识别模型基于所述多个目标特征进行识别得到所述待识别用户的风险等级;

其中,所述风险等级识别模型为采用所述的风险等级识别模型训练方法训练得到。

根据本发明的一个可选的实施例,所述获取待识别用户的多个目标特征包括:

获取训练所述风险等级识别模型的多个目标特征的字段,其中,所述目标特征至少包括目标一阶特征及目标二阶特征;

从所述待识别用户的多个一阶特征中筛选出与所述目标一阶特征的字段对应的目标一阶特征;

根据所述目标二阶特征的字段及筛选出的目标一阶特征生成目标二阶特征;

将筛选出的目标一阶特征及生成的目标二阶特征确定为所述待识别用户的多个目标特征。

本发明的第三方面提供一种终端,所述终端包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现所述的风险等级识别模型训练方法;或者实现所述的风险等级识别方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的风险等级识别模型训练方法;或者实现所述的风险等级识别方法。

综上所述,本发明所述的风险等级识别模型训练方法、风险等级识别方法、终端及存储介质,通过先对初始的一阶特征进行筛选,再进一步组合成高阶特征,再逐级筛选、有效性验证,得到不同阶的特征,实现了对特征的扩展,且保证了特征的多样性。同时,使用小数据集进行验证,并且在生成新指标的过程中不断加入新的特征,保证了特征在数据集上的鲁棒性,能够提高风险等级识别模型的识别效率,避免风险等级识别模型过拟合。应用在实际场景中,能够有效的保证识别出的风险等级的准确率。

附图说明

图1是本发明实施例一提供的风险等级识别模型训练方法的流程图。

图2是本发明实施例二提供的风险等级识别方法的流程图。

图3是本发明实施例三提供的风险等级识别模型训练装置的结构图。

图4是本发明实施例四提供的风险等级识别装置的结构图。

图5是本发明实施例五提供的终端的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

所述的风险等级识别模型训练方法由终端执行,相应地,所述的风险等级识别模型训练装置运行于终端中。所述的风险等级识别方法由终端执行,相应地,所述的风险等级识别装置运行于终端中。

图1是本发明实施例一提供的风险等级识别模型训练方法的流程图。所述风险等级识别模型训练方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

S11,从多个用户的多个一阶特征中筛选出多个目标一阶特征。

其中,所述一阶特征是指用户的原始数据。本实施例中所述的用户是指带有风险等级标签的用户。

在金融领域,所述用户的原始数据可以包括,但不限于:用户的基础数据,核保结论数据,用户的理赔数据。其中,所述基础数据包括:年龄、性别、学历、财富值、工作年限、职业等。所述核保结论数据包括:往期是否有保单被拒保,或者是否延期承保等情况。所述用户的理赔数据包括:历史是否有理赔记录,理赔记录的原因,理赔记录的时间等。其中,所述用户的基础数据可以从企业内部或者互联网上获取,所述核保结论数据可以从核保系统数据库中提取,所述用户的理赔数据可以从理赔系统数据库中提取。

需要说明的是,在获取用户的原始数据时,有些数据可能是离散型的,有些数据可能是连续型的,对于连续型的数据,可以先进行分箱操作,或者其他的离散化处理,使之变为离散型的数据。其中,所述分箱操作可以包括卡方分箱、等距分箱、等频分箱等。

在一个可选的实施例中,从每个用户的多个一阶特征中筛选出多个目标一阶特征包括:

计算所述多个一阶特征中的任意两个一阶特征之间的相关系数;

选取大于预设系数阈值的相关系数对应的两个一阶特征;

对所选取的一阶特征进行去重处理得到多个目标一阶特征。

相关系数越大,表明对应的两个变量之间的相关程度越高;相关系数越小,表明对应的两个变量之间的相关程度越低。由于事先并不清楚哪些特征对模型训练有帮助,哪些特征对模型训练不仅没有帮助,反而降低了模型的训练效率及精度,因此,通过计算每个用户的多个一阶特征中的任意两个一阶特征之间的相关系数,保留相关程度较高的一阶特征,去掉相关程度较低的一阶特征,能够首次从多个初始的一阶特征中筛选出对模型训练有正向作用的多个目标一阶特征。相关程度较低的一阶特征可以认为是噪声数据,通过去掉噪声数据,能够提高后续风险等级识别模型的识别准确率。

S12,基于所述多个用户的多个目标一阶特征训练第一风险识别模型。

将所述多个用户的多个目标一阶特征作为数据集,并将所述数据集划分为训练集和测试集,使用所述训练集训练深度神经网络(例如,卷积神经网络)得到第一风险识别模型,并使用所述测试集测试所述第一风险识别模型的测试通过率。

其中,所述第一风险识别模型的测试通过率的计算过程包括:使用所述第一风险识别模型对所述测试集进行测试得到测试值;计算与对应的真实值相同的测试值占所述测试集的比例;确定所述比例为所述第一风险识别模型的测试通过率。

示例性的,假设所述测试集为100个,其中有90个测试值与真实值相同,则与对应的真实值相同的测试值占所述测试集的比例为90%,所述第一风险识别模型的测试通过率为90%。

S13,根据每个用户的多个目标一阶特征生成多个二阶特征,并使用所述第一风险识别模型对每个用户的多个二阶特征进行有效性验证得到多个目标二阶特征。

在核保场景中,投保人、被保人以及相关业务员的一阶特征略显单调,可以将每个用户的多个目标一阶特征中的任意两个目标一阶特征进行两两组合,从而衍生出多个二阶特征,增加了样本数据的多样性。示例性的,假设两个目标一阶特征分别为:业务员被保人人均出险年龄45岁及被保人年龄45岁,进行组合后得到一个二阶特征为:比业务员被保人人均年龄45岁*被保人年龄45岁。

在一个可选的实施例中,所述根据每个用户的多个目标一阶特征生成多个二阶特征包括:

使用每个用户的多个目标一阶特征训练第一GBDT模型;

获取所述第一GBDT模型的叶子节点上的特征;

将每个叶子节点上的特征作为一个二阶特征。

其中,梯度提升迭代决策树(GradientBoostingDecisionTree,GBDT)是采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。GBDT模型训练结束时,其每个叶子结点都代表着某个样本在这颗树上的预测值。

由于在核保场景中,即使从多个用户的一阶特征中筛选出了对模型训练有效的多个目标一阶特征,但是通常情况下,多个目标一阶特征的数据量也是相当大的,每个用户的目标一阶特征的数据量可高达1千。对于如此庞大的数据,通过两两组合的方式生成二阶特征,效率将会十分低下,导致二阶特征生成较慢。本实施例将多个目标一阶特征用来训练第一GBDT模型后,获取第一GBDT模型所有叶子节点上的特征,作为二阶特征,生成的二阶特征相比目标一阶特征对模型训练更加有效。基于二阶特征训练模型,能够提高训练模型的样本数据的数量与质量,从而提高训练风险等级识别模型的效率及准确率。

在一个可选的实施例中,所述使用所述第一风险识别模型对每个用户的多个二阶特征进行有效性验证得到多个目标二阶特征包括:

从每个用户的多个目标一阶特征中随机选取部分目标一阶特征作为第一特征集;

将每个用户的多个二阶特征中的任意一个二阶特征加入所述第一特征集中得到第二特征集;

基于所述第二特征集训练子风险识别模型,并测试所述子风险识别模型的测试通过率;

判断所述第一风险识别模型的测试通过率是否小于所述子风险识别模型的测试通过率;

当所述第一风险识别模型的测试通过率小于所述子风险识别模型的测试通过率,确定所述任意一个二阶特征验证有效;

将所有验证有效的二阶特征确定为多个目标二阶特征。

示例性的,假设每个用户的多个二阶特征为A、B、C,则先将所有用户的二阶特征A加入第一特征集中得到第二特征集,基于所述第二特征集训练子风险识别模型,并基于测试集测试所述子风险识别模型的测试通过率。如果所述第一风险识别模型的测试通过率小于所述子风险识别模型的测试通过率,表明二阶特征A对模型训练是有效的。如果所述第一风险识别模型的测试通过率大于或者等于所述子风险识别模型的测试通过率,表明二阶特征A对模型训练是无效的。

同理,将所有用户的二阶特征B加入第一特征集中得到第二特征集,基于所述第二特征集训练子风险识别模型,并基于测试集测试所述子风险识别模型的测试通过率。如果所述第一风险识别模型的测试通过率小于所述子风险识别模型的测试通过率,表明二阶特征B对模型训练是有效的。如果所述第一风险识别模型的测试通过率大于或者等于所述子风险识别模型的测试通过率,表明二阶特征B对模型训练是无效的。

需要说明的是,所述第一特征集是指从用于训练所述第一风险识别模型的训练集中随机选取的部分目标一阶特征,将每个用户的多个二阶特征中的每个二阶特征加入所述第一特征集中得到的第二特征集,仍然作为用于训练子风险识别模型的训练集,且用于测试第一风险识别模型的测试集与用于测试子风险识别模型的测试集是相同的。由于采用相同的测试集测试第一风险识别模型的测试通过率及测试子风险识别模型的测试通过率,因而,第一风险识别模型的测试通过率与测试子风险识别模型的测试通过率具有可比较的意义。

S14,基于所述多个用户的多个目标二阶特征训练第二风险识别模型,并判断所述第二风险识别模型的测试通过率是否满足预设期望值。

在从每个用户的多个二阶特征中筛选出了多个目标二阶特征之后,将每个用户的多个目标一阶特征及对应的多个目标二阶特征作为该用户的用户特征,基于每个用户的用户特征训练第二风险识别模型,并测试所述第二风险识别模型的测试通过率。

在一个可选的实施例中,所述判断所述第二风险识别模型的测试通过率是否满足预设期望值包括:

计算所述第二风险识别模型的测试通过率与所述第一风险识别模型的测试通过率之间的差值;

判断所述差值是否小于预设差值阈值;

当确定所述差值小于所述预设差值阈值时,确定所述第二风险识别模型的测试通过率满足了预设期望值;

当确定所述差值大于或者等于所述预设差值阈值时,确定所述第二风险识别模型的测试通过率没有满足预设期望值。

由于在多个目标一阶特征的基础上增加了多个目标二阶特征,训练出的第二风险识别模型的识别效率很大程度上会优于第一风险识别模型,但并意味着增加多个目标二阶特征之后,第二风险识别模型的识别效率一定会大幅提高。通过比较二者测试通过率之间的差值确定是否满足预设期望值,以此确定是否继续生成更高阶的特征。

S15,当确定所述第二风险识别模型的测试通过率没有满足所述预设期望值时,使用所述多个用户的多个目标二阶特征生成多个三阶特征,并使用所述第二风险识别模型对每个用户的多个三阶特征进行有效性验证得到多个目标三阶特征。

在确定所述第二风险识别模型的测试通过率没有满足预设期望值时,可以使用每个用户的多个目标二阶特征训练第二GBDT模型,并获取所述第二GBDT模型的叶子节点上的特征,将每个叶子节点上的特征作为一个三阶特征。还可以将每个用户的多个目标二阶特征中的任意两个目标二阶特征进行两两组合生成多个三阶特征。

使用所述第二风险识别模型对每个用户的多个三阶特征进行有效性验证得到多个目标三阶特征的过程与使用所述第一风险识别模型对每个用户的多个二阶特征进行筛选得到多个目标二阶特征的过程相同,本发明在此不再详细阐述。

S16,迭代使用所述多个用户的多个目标三阶特征训练第三风险识别模型,直至判断所述第三风险识别模型的测试通过率满足预设期望值时,基于所述多个用户的多个目标三阶特征训练风险等级识别模型。

当第三风险识别模型的测试通过率与第二风险识别模型的测试通过率之间的差值小于所述预设差值阈值时,表明所述第三风险识别模型的测试通过率满足了所述预设期望值,则停止生成四阶特征。当第三风险识别模型的测试通过率与第二风险识别模型的测试通过率之间的差值大于或者等于所述预设差值阈值时,表明所述第三风险识别模型的测试通过率没有满足预设期望值,则需要根据使用所述多个用户的多个目标三阶特征生成多个四阶特征,并使用所述第三风险识别模型对每个用户的多个四阶特征进行筛选得到多个目标四阶特征;以此类推;直至基于更高阶的特征训练得到的风险识别模型的测试通过率满足预设期望值时,停止生成更高阶的特征。

在一个可选的实施例中,所述基于所述多个用户的多个目标三阶特征训练风险等级识别模型包括:

将每个用户的多个目标一阶特征与对应的多个目标二阶特征及多个目标三阶特征合并为用户特征向量;

对多个用户的用户特征向量进行聚类分析得到多个子集;

计算每一个子集的用户密度值;

将大于或者等于预设密度值阈值的用户密度值对应的子集确定为训练集,将小于所述预设密度值阈值的用户密度值对应的子集确定为测试集;

基于所述训练集训练深度神经网络得到风险等级识别模型;

基于所述测试集测试所述风险等级识别模型的测试通过率,并判断所述测试通过率是否大于预设通过率阈值;

当所述测试通过率大于所述预设通过率阈值时,停止风险等级识别模型的训练过程。

其中,可以采用K-means算法对多个用户的用户特征向量进行聚类分析得到多个子集。计算每个子集中用户特征向量的数量得到该子集的用户密度值,用户密度值越大,表明该子集中用户特征向量的数量越多,用户密度值越小,表明该子集中用户特征向量的数量越少。同一个子集中的用户特征向量之间具有较大的相关性,不同子集中的用户特征向量之间具有较小的相关性。

该可选的实施例中,多个目标一阶特征、多个目标二阶特征及多个目标三阶特征均是筛选出的对于模型训练有帮助的特征,将这些特征作为用户的用户特征向量训练风险等级识别模型,能够提高风险等级识别模型的识别效率;且将用户特征向量的数量大的子集作为训练集训练风险等级识别模型,能够进一步提高风险等级识别模型的识别效率;且不同阶的特征融合在一起,增加了训练风险等级识别模型的数据的多样性,避免风险等级识别模型过拟合。

综上所述,多阶特征的枚举组合往往会生成指数级的特征,如果直接将高阶特征输入模型中进行训练,并不能得到好的效果,甚至会造成模型效果的下降。同时,普通的指标筛选方式可能耗时长,生成组合特征中的冗余特征会占用资源,并添加不必要的学习难度。因此,本发明通过先对初始的一阶特征进行筛选,再进一步组合成高阶特征,再逐级筛选、有效性验证,得到不同阶的特征,实现了对特征的扩展,且保证了特征的多样性。同时,使用小数据集进行验证,并且在生成新指标的过程中不断加入新的特征,保证了特征在数据集上的鲁棒性,能够提高风险等级识别模型的识别效率,避免风险等级识别模型过拟合。应用在实际场景中,能够有效的保证识别出的风险等级的准确率。

需要强调的是,为进一步保证上述风险等级识别模型的私密性和安全性,上述风险等级识别模型可存储于区块链的节点中。

图2是本发明实施例二提供的风险等级识别方法的流程图。所述风险等级识别方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

S21,获取待识别用户的多个目标特征。

实际使用时,如需识别某个用户为高风险用户还是低风险用户,则先获取与所述待识别用户相关的多个目标特征。

在一个可选的实施例中,所述获取待识别用户的多个目标特征包括:

获取训练所述风险等级识别模型的多个目标特征的字段,其中,所述目标特征至少包括目标一阶特征及目标二阶特征;

从所述待识别用户的多个一阶特征中筛选出与所述目标一阶特征的字段对应的目标一阶特征;

根据所述目标二阶特征的字段及筛选出的目标一阶特征生成目标二阶特征;

将筛选出的目标一阶特征及生成的目标二阶特征确定为所述待识别用户的多个目标特征。

可以从预设数据库中获取训练所述风险等级识别模型的多个目标特征的字段,所述预设数据库中预先存储了多个带有风险等级标签的用户的多个一阶特征,其中,每个一阶特征对应有一个字段,字段用以表示特征属性的不同,例如,字段为性别,特征为女或者男。

所述目标特征还可以包括目标一阶特征、目标二阶特征及目标三阶特征。获取所述多个目标一阶特征的第一字段、所述多个目标二阶特征的第二字段及所述多个目标三阶特征的第三字段;根据所述第一字段、所述第二字段及所述第三字段获取目标用户的多个目标特征。示例性的,假设多个目标一阶特征的第一字段为K1、所述多个目标二阶特征的第二字段为K2*K4及所述多个目标三阶特征的第三字段为K3*K6*K9,则从目标用户的多个一阶特征中选取出字段K1、K2、K3、K4、K6、K9对应的特征,再将字段K2和字段K4对应的特征进行组合,将字段K3、字段K6和字段K9对应的特征进行组合,最后将字段K1对应的特征及组合的特征作为目标用户的多个目标特征输入至所述风险等级识别模型中进行识别。

S22,调用预先训练好的风险等级识别模型基于所述多个目标特征进行识别得到所述待识别用户的风险等级。

其中,所述风险等级识别模型为采用实施例一所述的风险等级识别模型训练方法训练得到。其中,所述风险等级包括高风险和低风险。

由于风险等级识别模型的训练数据是来自于多个目标一阶特征、多个目标二阶特征及多个目标三阶特征,根据所述多个目标一阶特征、多个目标二阶特征及多个目标三阶特征的字段获取目标用户的多个目标特征,能够满足风险等级识别模型的入参需求,从而有效的识别出所述待识别用户的风险等级。

本发明所述的风险等级识别方法,可应用于金融领域。本发明所述的风险等级识别方法还可以应用于智慧政务中,推动智慧城市的建设。

图3是本发明实施例三提供的风险等级识别模型训练装置的结构图。

在一些实施例中,所述风险等级识别模型训练装置30可以包括多个由计算机程序段所组成的功能模块。所述风险等级识别模型训练装置30中的各个程序段的计算机程序可以存储于终端的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)风险等级识别模型训练的功能。

本实施例中,所述风险等级识别模型训练装置30根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:特征筛选模块301、第一训练模块302、第一验证模块303、测试判断模块304、第二验证模块305、第三训练模块306。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述特征筛选模块301,用于从多个用户的多个一阶特征中筛选出多个目标一阶特征。

其中,所述一阶特征是指用户的原始数据。本实施例中所述的用户是指带有风险等级标签的用户。

在金融领域,所述用户的原始数据可以包括,但不限于:用户的基础数据,核保结论数据,用户的理赔数据。其中,所述基础数据包括:年龄、性别、学历、财富值、工作年限、职业等。所述核保结论数据包括往期是否有保单被拒保,或者是否延期承保等情况。所述用户的理赔数据包括历史是否有理赔记录,理赔记录的原因,理赔记录的时间等。其中,所述用户的基础数据可以从企业内部或者互联网上获取,所述核保结论数据可以从核保系统数据库中提取,所述用户的理赔数据可以从理赔系统数据库中提取。

需要说明的是,在获取用户的原始数据时,有些数据可能是离散型的,有些数据可能是连续型的,对于连续型的数据,可以先进行分箱操作,或者其他的离散化处理,使之变为离散型的数据。其中,所述分箱操作可以包括卡方分箱、等距分箱、等频分箱等。

在一个可选的实施例中,所述特征筛选模块301从每个用户的多个一阶特征中筛选出多个目标一阶特征包括:

计算所述多个一阶特征中的任意两个一阶特征之间的相关系数;

选取大于预设系数阈值的相关系数对应的两个一阶特征;

对所选取的一阶特征进行去重处理得到多个目标一阶特征。

相关系数越大,表明对应的两个变量之间的相关程度越高;相关系数越小,表明对应的两个变量之间的相关程度越低。由于事先并不清楚哪些特征对模型训练有帮助,哪些特征对模型训练不仅没有帮助,反而降低了模型的训练效率及精度,因此,通过计算每个用户的多个一阶特征中的任意两个一阶特征之间的相关系数,保留相关程度较高的一阶特征,去掉相关程度较低的一阶特征,能够首次从多个初始的一阶特征中筛选出对模型训练有正向作用的多个目标一阶特征。相关程度较低的一阶特征可以认为是噪声数据,通过去掉噪声数据,能够提高后续风险等级识别模型的识别准确率。

所述第一训练模块302,用于基于所述多个用户的多个目标一阶特征训练第一风险识别模型。

将所述多个用户的多个目标一阶特征作为数据集,并将所述数据集划分为训练集和测试集,使用所述训练集训练深度神经网络(例如,卷积神经网络)得到第一风险识别模型,并使用所述测试集测试所述第一风险识别模型的测试通过率。

其中,所述第一风险识别模型的测试通过率的计算过程包括:使用所述第一风险识别模型对所述测试集进行测试得到测试值;计算与对应的真实值相同的测试值占所述测试集的比例;确定所述比例为所述第一风险识别模型的测试通过率。

示例性的,假设所述测试集为100个,其中有90个测试值与真实值相同,则与对应的真实值相同的测试值占所述测试集的比例为90%,所述第一风险识别模型的测试通过率为90%。

所述第一验证模块303,用于根据每个用户的多个目标一阶特征生成多个二阶特征,并使用所述第一风险识别模型对每个用户的多个二阶特征进行有效性验证得到多个目标二阶特征。

在核保场景中,投保人、被保人以及相关业务员的一阶特征略显单调,可以将每个用户的多个目标一阶特征中的任意两个目标一阶特征进行两两组合,从而衍生出多个二阶特征,增加了样本数据的多样性。示例性的,假设两个目标一阶特征分别为:业务员被保人人均出险年龄45岁及被保人年龄45岁,进行组合后得到一个二阶特征为:比业务员被保人人均年龄45岁*被保人年龄45岁。

在一个可选的实施例中,所述第一验证模块303根据每个用户的多个目标一阶特征生成多个二阶特征包括:

使用每个用户的多个目标一阶特征训练第一GBDT模型;

获取所述第一GBDT模型的叶子节点上的特征;

将每个叶子节点上的特征作为一个二阶特征。

其中,梯度提升迭代决策树(GradientBoostingDecisionTree,GBDT)是采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。GBDT模型训练结束时,其每个叶子结点都代表着某个样本在这颗树上的预测值。

由于在核保场景中,即使从多个用户的一阶特征中筛选出了对模型训练有效的多个目标一阶特征,但是通常情况下,多个目标一阶特征的数据量也是相当大的,每个用户的目标一阶特征的数据量可高达1千。对于如此庞大的数据,通过两两组合的方式生成二阶特征,效率将会十分低下,导致二阶特征生成较慢。本实施例将多个目标一阶特征用来训练第一GBDT模型后,获取第一GBDT模型所有叶子节点上的特征,作为二阶特征,生成的二阶特征相比目标一阶特征对模型训练更加有效。基于二阶特征训练模型,能够提高训练模型的样本数据的数量与质量,从而提高训练风险识别模型的效率及准确率。

在一个可选的实施例中,所述第一验证模块303使用所述第一风险识别模型对每个用户的多个二阶特征进行有效性验证得到多个目标二阶特征包括:

从每个用户的多个目标一阶特征中随机选取部分目标一阶特征作为第一特征集;

将每个用户的多个二阶特征中的任意一个二阶特征加入所述第一特征集中得到第二特征集;

基于所述第二特征集训练子风险识别模型,并测试所述子风险识别模型的测试通过率;

判断所述第一风险识别模型的测试通过率是否小于所述子风险识别模型的测试通过率;

当所述第一风险识别模型的测试通过率小于所述子风险识别模型的测试通过率,确定所述任意一个二阶特征验证有效;

将所有验证有效的二阶特征确定为多个目标二阶特征。

示例性的,假设每个用户的多个二阶特征为A、B、C,则先将所有用户的二阶特征A加入第一特征集中得到第二特征集,基于所述第二特征集训练子风险识别模型,并基于测试集测试所述子风险识别模型的测试通过率。如果所述第一风险识别模型的测试通过率小于所述子风险识别模型的测试通过率,表明二阶特征A对模型训练是有效的。如果所述第一风险识别模型的测试通过率大于或者等于所述子风险识别模型的测试通过率,表明二阶特征A对模型训练是无效的。

同理,将所有用户的二阶特征B加入第一特征集中得到第二特征集,基于所述第二特征集训练子风险识别模型,并基于测试集测试所述子风险识别模型的测试通过率。如果所述第一风险识别模型的测试通过率小于所述子风险识别模型的测试通过率,表明二阶特征B对模型训练是有效的。如果所述第一风险识别模型的测试通过率大于或者等于所述子风险识别模型的测试通过率,表明二阶特征B对模型训练是无效的。

需要说明的是,所述第一特征集是指从用于训练所述第一风险识别模型的训练集中随机选取的部分目标一阶特征,将每个用户的多个二阶特征中的每个二阶特征加入所述第一特征集中得到的第二特征集,仍然作为用于训练子风险识别模型的训练集,且用于测试第一风险识别模型的测试集与用于测试子风险识别模型的测试集是相同的。由于采用相同的测试集测试第一风险识别模型的测试通过率及测试子风险识别模型的测试通过率,因而,第一风险识别模型的测试通过率与测试子风险识别模型的测试通过率具有可比较的意义。

所述第一判断模块304,用于基于所述多个用户的多个目标二阶特征训练第二风险识别模型,并判断所述第二风险识别模型的测试通过率是否满足预设期望值。

在从每个用户的多个二阶特征中筛选出了多个目标二阶特征之后,将每个用户的多个目标一阶特征及对应的多个目标二阶特征作为该用户的用户特征,基于每个用户的用户特征训练第二风险识别模型,并测试所述第二风险识别模型的测试通过率。

在一个可选的实施例中,所述测试判断模块304判断所述第二风险识别模型的测试通过率是否满足预设期望值包括:

计算所述第二风险识别模型的测试通过率与所述第一风险识别模型的测试通过率之间的差值;

判断所述差值是否小于预设差值阈值;

当确定所述差值小于所述预设差值阈值时,确定所述第二风险识别模型的测试通过率满足了预设期望值;

当确定所述差值大于或者等于所述预设差值阈值时,确定所述第二风险识别模型的测试通过率没有满足预设期望值。

由于在多个目标一阶特征的基础上增加了多个目标二阶特征,训练出的第二风险识别模型的识别效率很大程度上会优于第一风险识别模型,但并意味着增加多个目标二阶特征之后,第二风险识别模型的识别效率一定会大幅提高。通过比较二者测试通过率之间的差值确定是否满足预设期望值,以此确定是否继续生成更高阶的特征。

所述第二验证模块305,用于当确定所述第二风险识别模型的测试通过率没有满足所述预设期望值时,使用所述多个用户的多个目标二阶特征生成多个三阶特征,并使用所述第二风险识别模型对每个用户的多个三阶特征进行有效性验证得到多个目标三阶特征。

在确定所述第二风险识别模型的测试通过率没有满足预设期望值时,可以使用每个用户的多个目标二阶特征训练第二GBDT模型,并获取所述第二GBDT模型的叶子节点上的特征,将每个叶子节点上的特征作为一个三阶特征。还可以将每个用户的多个目标二阶特征中的任意两个目标二阶特征进行两两组合生成多个三阶特征。

使用所述第二风险识别模型对每个用户的多个三阶特征进行有效性验证得到多个目标三阶特征的过程与使用所述第一风险识别模型对每个用户的多个二阶特征进行筛选得到多个目标二阶特征的过程相同,本发明在此不再详细阐述。

所述第三训练模块306,用于迭代使用所述多个用户的多个目标三阶特征训练第三风险识别模型,直至判断所述第三风险识别模型的测试通过率满足预设期望值时,基于所述多个用户的多个目标三阶特征训练风险等级识别模型。

当第三风险识别模型的测试通过率与第二风险识别模型的测试通过率之间的差值小于所述预设差值阈值时,表明所述第三风险识别模型的测试通过率满足了所述预设期望值,则停止生成四阶特征。当第三风险识别模型的测试通过率与第二风险识别模型的测试通过率之间的差值大于或者等于所述预设差值阈值时,表明所述第三风险识别模型的测试通过率没有满足预设期望值,则需要根据使用所述多个用户的多个目标三阶特征生成多个四阶特征,并使用所述第三风险识别模型对每个用户的多个四阶特征进行筛选得到多个目标四阶特征;以此类推;直至基于更高阶的特征训练得到的风险识别模型的测试通过率满足预设期望值时,停止生成更高阶的特征。

在一个可选的实施例中,所述基于所述多个用户的多个目标三阶特征训练风险等级识别模型包括:

将每个用户的多个目标一阶特征与对应的多个目标二阶特征及多个目标三阶特征合并为用户特征向量;

对多个用户的用户特征向量进行聚类分析得到多个子集;

计算每一个子集的用户密度值;

将大于或者等于预设密度值阈值的用户密度值对应的子集确定为训练集,将小于所述预设密度值阈值的用户密度值对应的子集确定为测试集;

基于所述训练集训练深度神经网络得到风险等级识别模型;

基于所述测试集测试所述风险等级识别模型的测试通过率,并判断所述测试通过率是否大于预设通过率阈值;

当所述测试通过率大于所述预设通过率阈值时,停止风险等级识别模型的训练过程。

其中,可以采用K-means算法对多个用户的用户特征向量进行聚类分析得到多个子集。计算每个子集中用户特征向量的数量得到该子集的用户密度值,用户密度值越大,表明该子集中用户特征向量的数量越多,用户密度值越小,表明该子集中用户特征向量的数量越少。同一个子集中的用户特征向量之间具有较大的相关性,不同子集中的用户特征向量之间具有较小的相关性。

该可选的实施例中,多个目标一阶特征、多个目标二阶特征及多个目标三阶特征均是筛选出的对于模型训练有帮助的特征,将这些特征作为用户的用户特征向量训练风险等级识别模型,能够提高风险等级识别模型的识别效率;且将用户特征向量的数量大的子集作为训练集训练风险等级识别模型,能够进一步提高风险等级识别模型的识别效率;且不同阶的特征融合在一起,增加了训练风险等级识别模型的数据的多样性,避免风险等级识别模型过拟合。

综上所述,多阶特征的枚举组合往往会生成指数级的特征,如果直接将高阶特征输入模型中进行训练,并不能得到好的效果,甚至会造成模型效果的下降。同时,普通的指标筛选方式可能耗时长,生成组合特征中的冗余特征会占用资源,并添加不必要的学习难度。因此,本发明通过先对初始的一阶特征进行筛选,再进一步组合成高阶特征,再逐级筛选、有效性验证,得到不同阶的特征,实现了对特征的扩展,且保证了特征的多样性。同时,使用小数据集进行验证,并且在生成新指标的过程中不断加入新的特征,保证了特征在数据集上的鲁棒性,能够提高风险等级识别模型的识别效率,避免风险等级识别模型过拟合。应用在实际场景中,能够有效的保证识别出的风险等级的准确率。

需要强调的是,为进一步保证上述风险等级识别模型的私密性和安全性,上述风险等级识别模型可存储于区块链的节点中。

图4是本发明实施例四提供的风险等级识别装置的结构图。

在一些实施例中,所述风险等级识别装置40可以包括多个由计算机程序段所组成的功能模块。所述风险等级识别装置40中的各个程序段的计算机程序可以存储于终端的存储器中,并由至少一个处理器所执行,以执行(详见图2描述)风险等级识别的功能。

本实施例中,所述风险等级识别装置40根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:特征获取模块401、风险识别模块402。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述特征获取模块401,用于获取待识别用户的多个目标特征。

实际使用时,如需识别某个用户为高风险用户还是低风险用户,则先获取与所述待识别用户相关的多个目标特征。

在一个可选的实施例中,所述特征获取模块401获取待识别用户的多个目标特征包括:

获取训练所述风险等级识别模型的多个目标特征的字段,其中,所述目标特征至少包括目标一阶特征及目标二阶特征;

从所述待识别用户的多个一阶特征中筛选出与所述目标一阶特征的字段对应的目标一阶特征;

根据所述目标二阶特征的字段及筛选出的目标一阶特征生成目标二阶特征;

将筛选出的目标一阶特征及生成的目标二阶特征确定为所述待识别用户的多个目标特征。

可以从预设数据库中获取训练所述风险等级识别模型的多个目标特征的字段,所述预设数据库中预先存储了多个带有风险等级标签的用户的多个一阶特征,其中,每个一阶特征对应有一个字段,字段用以表示特征属性的不同,例如,字段为性别,特征为女或者男。

所述目标特征还可以包括目标一阶特征、目标二阶特征及目标三阶特征。获取所述多个目标一阶特征的第一字段、所述多个目标二阶特征的第二字段及所述多个目标三阶特征的第三字段;根据所述第一字段、所述第二字段及所述第三字段获取目标用户的多个目标特征。示例性的,假设多个目标一阶特征的第一字段为K1、所述多个目标二阶特征的第二字段为K2*K4及所述多个目标三阶特征的第三字段为K3*K6*K9,则从目标用户的多个一阶特征中选取出字段K1、K2、K3、K4、K6、K9对应的特征,再将字段K2和字段K4对应的特征进行组合,将字段K3、字段K6和字段K9对应的特征进行组合,最后将字段K1对应的特征及组合的特征作为目标用户的多个目标特征输入至所述风险等级识别模型中进行识别。

所述风险识别模块402,用于调用预先训练好的风险等级识别模型基于所述多个目标特征进行识别得到所述待识别用户的风险等级。

其中,所述风险等级识别模型为采用实施例一所述的风险等级识别模型训练方法训练得到。其中,所述风险等级包括高风险和低风险。

由于风险等级识别模型的训练数据是来自于多个目标一阶特征、多个目标二阶特征及多个目标三阶特征,根据所述多个目标一阶特征、多个目标二阶特征及多个目标三阶特征的字段获取目标用户的多个目标特征,能够满足风险等级识别模型的入参需求,从而有效的识别出所述待识别用户的风险等级。

本发明所述的风险等级识别装置,可应用于金融领域。本发明所述的风险等级识别装置还可以应用于智慧政务中,推动智慧城市的建设。

参阅图5所示,为本发明实施例五提供的终端的结构示意图。在本发明较佳实施例中,所述终端5包括存储器51、至少一个处理器52、至少一条通信总线53及收发器54。

本领域技术人员应该了解,图5示出的终端的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述终端5还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述终端5是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的计算机设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述终端5还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述终端5仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器51中存储有计算机程序,所述计算机程序被所述至少一个处理器52执行时实现如所述的风险等级识别模型训练方法中的全部或者部分步骤,或者实现如所述的风险等级识别方法中的全部或者部分步骤。所述存储器51包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中,所述至少一个处理器52是所述终端5的控制核心(ControlUnit),利用各种接口和线路连接整个终端5的各个部件,通过运行或执行存储在所述存储器51内的程序或者模块,以及调用存储在所述存储器51内的数据,以执行终端5的各种功能和处理数据。例如,所述至少一个处理器52执行所述存储器中存储的计算机程序时实现本发明实施例中所述的风险等级识别模型训练方法的全部或者部分步骤及/或所述的风险等级识别方法的全部或者部分步骤;或者实现风险等级识别模型训练装置的全部或者部分功能及/或实现风险等级识别装置的全部或者部分功能。所述至少一个处理器52可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中,所述至少一条通信总线53被设置为实现所述存储器51以及所述至少一个处理器52等之间的连接通信。

尽管未示出,所述终端5还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器52逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端5还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号