公开/公告号CN112215696A
专利类型发明专利
公开/公告日2021-01-12
原文格式PDF
申请/专利号CN202011039030.5
申请日2020-09-28
分类号G06Q40/02(20120101);G06Q50/00(20120101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构32369 无锡永乐唯勤专利代理事务所(普通合伙);
代理人孙际德
地址 100000 北京市海淀区颐和园路5号
入库时间 2023-06-19 09:32:16
技术领域
本发明涉及金融征信领域,尤其是一种基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质。
背景技术
大数据和云计算等信息技术的飞速发展为金触行业开展征信业务提供了海量数据与先进技术,其中基于互联网大数据的个人征信业务具有巨大的发展潜力。
利用强大的机器学习分类模型,现有的个人信用评分系统已经可以做到对个人信用的评估。但这些系统普遍存在一类备受关注的问题,那就是无法对评估的结果做出有价值的逻辑解释,因此也无法给予征信主体改进信用评分的有效可行的建议。
归因分析技术是用以挖掘和识别征信金融领域所发生信用事件诱发因素的有效途径,目前该技术已经被应用至个人信用评估中以尝试对评估的结果做出有价值的逻辑解释。
然而,目前存在的主要问题上,评分系统的核心评分模型是基于某一固定时段的历史征信数据训练得到的。然而,征信主体的属性是会随着时间的推移发生变化的,甚至会出现某些新的对评估结果产生重大影响的新属性。使用这样的评分模型甚至有可能无法得到客观、有效的评估结果,更不用说能够对评估的结果做出有价值的逻辑解释。
发明内容
为了解决上述技术问题中的至少一个,本发明第一方面提供了一种基于时序归因分析的个人信用评估与解释方法,其具体技术方案如下:
一种基于时序归因分析的个人信用评估与解释方法,其包括:
构建信用评分模型并初始化模型参数,所述信用评分模型为有权重评分模型或无权重评分模型;
利用若干组带有时间标签的历史征信数据集对所述信用评分模型进行分别训练以获得若干个训练好的带有时间标签的历史信用评分模型,其中:各所述历史征信数据集均包括多条历史征信数据,位于相同组的历史征信数据具有相同的时间标签,位于不同组的历史征信数据具有不同的时间标签,所述时间标签表征其所属的历史征信数据的数据产生时间;
根据所述信用评分模型的类别,基于所述若干带有时间标签的历史信用评分模型或所述若干组带有时间标签的历史征信数据集预测获取到若干带有时间标签的未来信用评分模型,其中,各所述未来信用评分模型的时间标签均不相同;
将待评估征信数据输入至选定的具有时间标签的历史信用评分模型或未来信用评分模型中,以获得所述待评估征信数据对应的征信主体在所述时间标签对应的时间点的征信评估结果;
对所述征信评估结果进行解释。
本发明第二方面提供了一种基于时序归因分析的个人信用评估与解释装置,其包括:
模型初始化模块,用于构建信用评分模型并初始化模型参数,所述信用评分模型为有权重评分模型或无权重评分模型;
历史信用评分模型获取模块,用于利用若干组带有时间标签的历史征信数据集对所述信用评分模型进行分别训练以获得若干个训练好的带有时间标签的历史信用评分模型,其中:各所述历史征信数据集均包括多条历史征信数据,位于相同组的历史征信数据具有相同的时间标签,位于不同组的历史征信数据具有不同的时间标签,所述时间标签表征其所属的历史征信数据的数据产生时间;
未来信用评分模型获取模块,用于根据所述信用评分模型的类别,基于所述若干带有时间标签的历史信用评分模型或所述若干组带有时间标签的历史征信数据集预测获取到若干带有时间标签的未来信用评分模型,其中,各所述未来信用评分模型的时间标签均不相同;
信用评估模块,用于将待评估征信数据输入至选定的具有时间标签的历史信用评分模型或未来信用评分模型中,以获得所述待评估征信数据对应的征信主体在所述时间标签对应的时间点的征信评估结果;
解释模块,用于对所述征信评估结果进行解释。
本发明第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面所述的基于时序归因分析的个人信用评估与解释方法。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本发明第一方面所述的基于时序归因分析的个人信用评估与解释方法。
与现有技术中的信用评分模型相比,本发明具有如下显著优点:
针对多个历史点及多个未来时间点构建出随时间推移的一系列信用评分模型。选择合适的信用评分模型即能够实现对征信主体在某一特定时间点的信用情况的评估,从而显著提升评估效果,并保证了评估结果的可解释性,从而给如何提升个人信用得分提供有价值的参考。
附图说明
图1为本发明实施例中的基于时序归因分析的个人信用评估与解释方法的流程示意图;
图2为本发明实施例中的基于时序归因分析的个人信用评估与解释方法的流程示意图;
图3为本发明实施例中的基于时序归因分析的个人信用评估与解释方法的流程示意图;
图4为本发明实施例中的基于时序归因分析的个人信用评估与解释方法的流程示意图;
图5为本发明实施例中的基于时序归因分析的个人信用评估与解释方法的流程示意图;
图6为本发明实施例中的基于时序归因分析的个人信用评估与解释装置的结构示意图;
图7为本发明实施例中的电子设备的结构示意图;
图8为本发明实施例中的一个征信主体的征信数据的数据结构图;
图9为本发明实施例中获取历史评分模型和未来评分模型的逻辑示意图;
图10为本发明实施例中属性“负债比”的线性回归模型的示意图;
图11为本发明实施例中的评估结果解释过程的流程图;
图12为本发明实施例中通过对征信数据的各属性的属性值进行扰动获得若干近似样本数据的方法逻辑图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
虽然本发明提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本发明实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行。
现有的征信评分系统的核心评分模型是基于某一固定时段的历史征信数据训练得到的。然而,征信主体的属性是会随着时间的推移发生变化的,甚至会出现某些新的对评估结果产生重大影响的新属性。使用现有的评分模型甚至有可能无法得到客观、有效的评估结果,更不用说能够对评估的结果做出有价值的逻辑解释。
鉴于现有的征信评分模型存在的上述缺陷,本发明提供了一种基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质,其针对多个历史时间点及多个未来时间点构建出随时间推移的一系列信用评分模型。选择合适的信用评分模型即能够实现对征信主体在过去、现在或未来某一特定时间点的信用情况的评估,从而显著提升评估效果,并保证了评估结果的可解释性。
在对本发明实施例进行介绍之前,对下述专业术语进行说明:
当然,在进行模型训练或进行信用评估时,需要对征信数据进行必要的预处理,如将其转换为向量形式。
评分模型可表示为Score=F(x),其中:x为征信主体的征信数据的属性向量,F为选定的评分模型,Score为评分模型最终获取的信用得分。
如果,评分模型F可以表示为如下形式;
F(x)=α
其中:x
则该评分模型F被定义为权重评分模型。
否则,该评分模型F被定义为无权重评分模型。
权重评分模型可以选择逻辑回归模型。逻辑回归作为最简单的分类算法,一直是工业界主流的分类算法,其具有简单稳定、可解释性强、易于检测和部署等优势。
无权重评分模型则可选择梯度提升决策树(GBDT)、深度神经网络等算法模型。其中:梯度提升决策树(GBDT)属于集成算法中的一种,基础学习器采用分类回归树,该算法的优点在于:具有突出的分类效果,且可以在训练过程中国实现特征筛选。深度神经网络可以理解为包括多个隐藏层的神经网络,其通过激活函数和反向传播等技术,可以通过庞大的参数在极高的维度做调整,从而可以充分地识别出复杂的分类界限,达到良好的分类效果。
如图1所示,本发明实施例提供的基于时序归因分析的个人信用评估与解释方法包括如下步骤:
S100、构建信用评分模型并初始化模型参数,信用评分模型为有权重评分模型或无权重评分模型。
S200、利用若干组带有时间标签的历史征信数据集对信用评分模型进行分别训练以获得若干个训练好的带有时间标签的历史信用评分模型。其中:各历史征信数据集均包括多条历史征信数据,位于相同组的历史征信数据具有相同的时间标签,位于不同组的历史征信数据具有不同的时间标签,时间标签表征其所属的历史征信数据的数据产生时间。
时间标签的跨度(颗粒度)可以是年、季、月,甚至是天,一般来说,时间标签的跨度越短(颗粒度越细),所采集到的具有相同的时间标签的历史征信数据集中的数据分布越均匀,所训练出的历史信用评分模型的评分效果越好。
实际应用中,可以根据具体需要选择时间标签的跨度。如图9实施例中,时间标签为年,当前年份为2020年,对过去三年的征信数据进行采集、取样,得到三组历史征信数据集,分别2017年征信数据集、2018年征信数据集和2019年征信数据集。例如,2017年征信数据集中的所有征信数据均产生于2017年,每条征信数据均表征一个征信主体在2017年的信用情况。
将三组历史征信数据集分别作为训练样本分别对信用评分模型进行训练,即能对应获得三个历史信用评分模型,分别为2017年历史信用评分模型、2018年历史信用评分模型和2019年历史评估模型。当然,实际应用中,可以采集更多年份的征信数据,训练出更多的历史信用评分模型。
具体的:
步骤S200的具体实施过程如下:
采取经典的梯度下降思想即可迭代求解逻辑回归表达式,通常训练速度十分快速。逻辑回归得到的结果可以十分方便地转换为标准的评分卡模式,即最终得到总信用评分可拆分得到对应各个属性的维度信用得分:
(1)在进行模型求解时,先使用变量分箱的方法对变量进行分段;
(2)再使用WOE编码将分箱后的离散变量编码为连续变量;
(3)之后再进行模型的求解训练。
最终的结果可表示如下,
F(x)=A-B(α
其中A、B为常量,则可以看出各个属性对应的信用评分分值为-Bθ
步骤S200的具体实施过程如下:
利用历史征信数据,采用多轮迭代的方式,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练,最终将每轮训练得到的弱分类器加权求和得到一个总分类器。
S300、根据信用评分模型的类别,基于若干带有时间标签的历史信用评分模型或若干组带有时间标签的历史征信数据集预测获取到若干带有时间标签的未来信用评分模型,其中,各未来信用评分模型的时间标签均不相同。
具体的:
则如图2所示的,步骤S300的具体实施过程如下:
S301、按属性对各历史信用评分模型的各属性权重进行分类汇总,以获取到若干带有时间标签的属性权重集。
仍以图8实施例中的征信数据为例。经过步骤S200训练出了m个历史信用评分模型,如图9中,训练出三个历史模型。当然,实际实施例中,需要训练粗更多的历史信用评分模型。
时间标签为j的历史信用评分模型可以表示为:
F(x
其中:j为时间标签,x
则,对应于第i个属性的属性权重集为:(α
S302、以各属性权重集作为训练数据集,训练得到若干与若干属性权重集一一对应的线性回归模型。
即对应于第i个属性,对属性权重集(α
图10示出了以属性“负债比”为例训练出的线性回归模型。
S303、使用训练好的若干所述线性回归模型,分别预测出各属性在未来若干时间点的带有时间标签的属性权重。
训练出各属性对应的属性权重回归模型后,即能实现对未来某时间点的各属性的属性权重的预测,从而得到各属性在未来若干时间点的带有时间标签的属性权重。
S304、基于预测到的各属性在未来若干时间点的带有时间标签的属性权重构建出若干带有时间标签的未来信用评分模型。
由于信用评分模型采用的是无权重评分模型,为了获得能够对征信主体在未来时间点的信用进行有效评估的评分模型。可以充分利用征信主体的历史征信数据,从历史征信数据中学习数据随时间的变化趋势,从而预测出一系列与将来时间点对应的征信数据。具体的:
则如图4所示的,步骤S300的具体实施过程如下:
S301’、获取各历史征信数据集的概率分布及概率分布的参数值,概率分布为高斯分布。
S302’、使用核函数运算将各所述历史征信数据集的概率分布变换至再生核希伯特空间,得到若干与各所述历史征信数据集一一对应的带有时间标签的历史向量。
S303’、以若干历史向量作为训练数据集,训练得到向量回归模型;
S304’、使用训练好的向量回归模型,预测获取若干带有时间标签的预测向量。
S305’、使用核函数运算将若干预测向量逆变换至概率分布空间,从而获取到若干组带有时间标签的预测征信数据集;
S306’、利用若干组带有时间标签的预测征信数据集对信用评分模型进行分别训练以获得若干个训练好的带有时间标签的未来信用评分模型。
继续参考图9所示,执行完步骤S300后,获得三个带有时间标签的未来信用评分模型,分别为2020年未来信用评分模型、2021年未来信用评分模型和2022年未来信用评分模型。
S400、将待评估征信数据输入至选定的具有时间标签的历史信用评分模型或未来信用评分模型中,以获得所述待评估征信数据对应的征信主体在所述时间标签对应的时间点的征信评估结果。
如图9所示,当前时间为2020年,如果想对征信主体在2018年的征信情况进行评估时,将征信主体的征信数据输入至2018年历史信用评分模型即可获得该征信主体在2018年的征信评估结果。而如果想对征信主体在2022年的征信情况进行评估时,将征信主体的征信数据输入至2022年未来信用评分模型即可获得该征信主体在2022年的征信评估结果。
S500、对征信评估结果进行解释。
如图3所示,S500的具体实施过程如下:
S501、从征信评估结果中获取到各属性的权重并计算出总权重。
S502、计算各属性的权重占总权重的权重占比。
S503、按权重占比对各属性进行重要性排序。
S504、将排序后的属性均匀划分为若干区间。
对于有权重评分模型,权重越高,可以解释为对应的属性对评估结果的影响自然越大,也就是说该属性对征信主体的信用度的影响越大。因此,征信主体可以重点关注排在最前面的区间内的各属性,通过对这些属性的属性值进行改善,从而改善征信主体的信用得分。
由于某些属性的权重可能会出现极端情况,从而导致属性的排序结果并不能客观、真实地反映属性的重要性。
鉴于此,可选的,还可以考虑各属性的历史得分情况。
如图3所示,可选的,S500还包括:
S505、从历史征信数据中统计出各属性的得分分布。
具体地,对于某一属性,可以统计出各个分数段的征信主体的人数比例,此处所指的人数比例应该按照分数由低至高依次叠加,实际含义为得分大于等于某一分数段的人数。
S506、统计出各属性的得分占比。
具体地,对于某一个属性,可以得到征信主体的得分所在的分数段,进而由该分数段人数比例可知该征信主体的该属性的得分比例情况;
S507、基于各属性的得分占比对各所述区间内的属性进行重新排序。
对于同一区间的属性按照得分比例再次进行排序,得分比例越低则排序越高,将最终的排序结果呈现给用户,权重比例、得分比例也会一并展示。
征信主体可以结合权重比例、得分比例对属性对评估结果的重要度进行权衡、选择,以改善其信用度。
由于信用评分模型采用的是无权重评分模型,为了对评估结果做出解释,需要结合信用评分模型和征信主体的属性数据进行训练以得到局部的有权重评分模型。具体的,可以采用局部可解释诊断算法(LIME)获得局部的有权重评分模型,局部可解释诊断算法(LIME)理论上能够实现对任何无权重评分模型的评估结果进行解释。
如图5和图11所示,采用局部可解释诊断算法对征信评估结果进行解释具体包括:
S501’、对待评估征信数据的属性进行搅动获取到由若干与待评估征信数据相近的样本数据构成的近似样本集。
仍以图8实施例中的征信数据为例。如图12所示,通过对征信数据的各属性的属性值(如图中的收入、负债比)进行扰动,即可获得若干与待评估征信数据相近的样本数据,最终构成近似样本集。
S502’、经近似样本集输入至产生评估结果的历史信用评分模型或未来信用评分模型中,得到样本评估结果集。
S503’、基于近似样本集和样本评估结果集训练得到局部有权重评分模型。
S504’、基于局部有权重评分模型的属性权重即能实现对评估结果的解释。
可见,本发明个人信用评估方法的针对多个历史时间点及多个未来时间点构建出随时间推移的一系列信用评分模型。选择合适的信用评分模型即能够实现对征信主体在某一特定时间点的信用情况的评估,从而显著提升评估模型的评估效果,并保证了评估结果的可解释性。
如图6所示,本实施例中的基于时序归因分析的个人信用评估装置包括模型初始化模块10、历史信用评分模型获取模块20、未来信用评分模型获取模块30、信用评估模块40及解释模块50。其中:
模型初始化模块10,用于构建信用评分模型并初始化模型参数,所述信用评分模型为有权重评分模型或无权重评分模型。
历史信用评分模型获取模块20,用于利用若干组带有时间标签的历史征信数据集对所述信用评分模型进行分别训练以获得若干个训练好的带有时间标签的历史信用评分模型,其中:各所述历史征信数据集均包括多条历史征信数据,位于相同组的历史征信数据具有相同的时间标签,位于不同组的历史征信数据具有不同的时间标签,所述时间标签表征其所属的历史征信数据的数据产生时间。
未来信用评分模型获取模块30,用于根据所述信用评分模型的类别,基于所述若干带有时间标签的历史信用评分模型或所述若干组带有时间标签的历史征信数据集预测获取到若干带有时间标签的未来信用评分模型,其中,各所述未来信用评分模型的时间标签均不相同;
信用评估模块40,用于将待评估征信数据输入至选定的具有时间标签的历史信用评分模型或未来信用评分模型中,以获得所述待评估征信数据对应的征信主体在相应的所述时间标签对应的时间点的征信评估结果;
解释模块50,用于对所述征信评估结果进行解释。
由于本实施例中的个人信用评估装置的各功能模块的处理过程与前述实施例一中的个人信用评估方法的处理过程一致,因此本实施例不再对个人信用评估装置的各功能模块的处理过程进行重复描述,可以参考实施例一的相关描述。
电子设备实施例
图7为本申请实施例提供的电子设备的结构示意图,如图7所示,该电子设备包括处理器61和存储器63,处理器61和存储器63相连,如通过总线63相连。
处理器61可以是CPU,通用处理器、DSP,ASIC,FPGA或者其他可编程器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器61也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,DSP和微处理器的组合等。
总线62可以包括一通路,在上述组件之间传送信息。总线62可以是PCI总线或EISA总线等。总线62可以分为地址总线、数据总线、控制总线等。为了便于表示,图中仅以一条粗线表示,但是并不表示仅有一根总线或一种类型的总线。
存储器63可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可以储存信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储、磁盘存储介质或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器63用于存储本申请方案的应用程序代码,并由处理器61来控制执行。处理器61用于执行存储器63中存储的应用程序代码,以实现实施例一的个人信用评估方法。
本申请实施例最后还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一中的个人信用评估方法。
上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普通技术人员应该理解,实施例中的描述仅仅是示例性的,在不偏离本发明的真实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所要求保护的范围是由所述的权利要求书进行限定的,而不是由实施例中的上述描述来限定的。
机译: 基于语音的个人信用评估方法和设备,终端和存储介质
机译: 评估程序,其存储介质,时序评估设备,时序评估系统
机译: 基于SNS的个人信用贷款信用评估方法及装置