首页> 中国专利> 客户流失预警模型的建立方法、装置、终端设备及介质

客户流失预警模型的建立方法、装置、终端设备及介质

摘要

本申请适用于机器学习技术领域,提供了客户流失预警模型的建立方法、装置、终端设备及介质,所述方法包括:获取训练样本集,所述训练样本集包括多个客户数据;从所述训练样本集中提取多个属性,并根据所述多个属性和所述训练样本集建立决策树;根据所述多个属性的权重,对所述决策树进行修剪,将修剪完成后的决策树中的所述属性作为客户流失的影响指标;根据所述影响指标和修剪后的所述决策树,对预先设置的神经网络模型进行训练,得到所述客户流失预警模型。通过上述方法建立的客户流失预警模型,具有较高的预判准确性和较强的稳健性。

著录项

  • 公开/公告号CN113034264A

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 深圳大学;

    申请/专利号CN202010920139.3

  • 申请日2020-09-04

  • 分类号G06Q40/02(20120101);G06Q30/02(20120101);G06N3/08(20060101);

  • 代理机构44414 深圳中一联合知识产权代理有限公司;

  • 代理人任敏

  • 地址 518000 广东省深圳市南山区南海大道3688号深圳大学

  • 入库时间 2023-06-19 11:35:49

说明书

技术领域

本申请属于机器学习技术领域,尤其涉及客户流失预警模型的建立方法、装置、终端设备及介质。

背景技术

对金融机构而言,客户是非常重要的资源。以银行为例,随着网上银行、手机银行以及大量互联网金融产品的出现,使金融业务的地区差异化逐渐减少,客户对金融服务与金融产品的选择也日趋多样化和自由化,客户对某单一银行机构的依赖性和忠诚度也在降低。如何准确地预测客户流失风险,对银行而言就显得十分重要。

目前,在预测客户流失风险时,通常采用Back Propagation(BP)神经网络算法,测算准确度比较低,且算法容易因为过度训练而导致稳定性不强。

发明内容

本申请实施例提供了客户流失预警模型的建立方法、装置、终端设备及介质,可以提高客户流失预警模型判断的准确性,增强客户流失预警模型的稳健性。

第一方面,本申请实施例提供了一种客户流失预警模型的建立方法,包括:

获取训练样本集,所述训练样本集包括多个客户数据;

从所述训练样本集中提取多个属性,并根据所述多个属性和所述训练样本集建立决策树;

根据所述多个属性的权重,对所述决策树进行修剪,将修剪完成后的决策树中的所述属性作为客户流失的影响指标;

根据所述影响指标和修剪后的所述决策树,对预先设置的神经网络模型进行训练,得到所述客户流失预警模型。

第二方面,本申请实施例提供了一种客户流失预警模型的建立装置,包括:

训练样本集获取模块,用于获取训练样本集,所述训练样本集包括多个客户数据;

决策树建立模块,用于从所述训练样本集中提取多个属性,并根据所述多个属性和所述训练样本集建立决策树;

影响指标确定模块,用于根据所述多个属性的权重,对所述决策树进行修剪,将修剪完成后的决策树中的所述属性作为客户流失的影响指标;

客户流失预警模型确定模块,用于根据所述影响指标和修剪后的所述决策树,对预先设置的神经网络模型进行训练,得到所述客户流失预警模型。

第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的方法。

第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的方法。

本申请实施例与现有技术相比存在的有益效果是:在本申请实施例中,可以预先对数据进行处理,获得训练样本集;然后从训练样本集中获取多个属性,基于训练样本集和多个属性,建立决策树;对决策树进行修剪,将修剪完成后的决策树中剩余的属性作为客户流失的影响指标;根据影响指标和修剪后的决策树,对预先设置的神经网络模型进行训练,得到客户流失预警模型。在本申请中,采用了决策树筛选出影响客户流失的影响指标后,再利用神经网络模型进行机器学习,得到客户流失预警模型。采用两种算法相结合的方式,避免了单一模型的局限性,保障了客户流失预警模型的训练的速度和质量,提高了客户流失预警模型的判断精确性和稳健性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的一种客户流失预警模型的建立方法的流程示意图;

图2是本申请实施例一提供的一种数据预处理的流程示意图;

图3是本申请实施例一提供的决策树的建立过程的示意图;

图4是本申请实施例一提供的神经网络算法训练过程的示意图;

图5是本申请实施例二提供的一种客户流失预警模型的建立方法的流程示意图;

图6是本申请实施例三提供的一种客户流失预警模型的建立装置的结构示意图;

图7是本申请实施例四提供的一种终端设备的结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

图1是本申请实施例一提供的一种客户流失预警模型的建立方法的流程示意图,如图1所示,所述方法包括:

S101,获取训练样本集,所述训练样本集包括多个客户数据;

本实施例的执行主体为终端设备,具体可以为计算机等能够进行数据处理和机器学习的计算设备。

上述客户数据可以从银行数据库中获取,首先根据银行特点以及客户的动态,可以对银行客户流失进行定义,比如当经过预设时间段内没有登录过理财APP或者进行没有转账操作等时,可以认为客户流失风险比较大。具体地图2是本申请实施例一提供的一种数据预处理的流程示意图,参见图2,可以由管理人员预先收集银行数据库中大量的客户数据,作为数据集,然后进行数据清洗、数据集成和数据选择,最终将获得的数据作为训练样本集输入到模型中。其中,数据清洗包括填补遗漏的数据值、平滑有噪声数据、识别或除去异常值等;数据集成是指将来自多个数据源数据合并到一起存放在一致的数据存储中;数据选择是选择银行客户流失的影响指标作为输入变量,最终确定建模数据。

另外,在模型训练过程中,需要训练样本集和验证样本集,因此可以将处理后的数据按照2:1的比例划分训练样本集和验证样本集。

S102,从所述训练样本集中提取多个属性,并根据所述多个属性和所述训练样本集建立决策树;

具体地,上述多个属性可以包括但不限于个人拥有金融产品数、电子银行交易笔数、月度存款均值、金融账户变化、财务交易变化、近三月贷款余额、自助设备交易笔数、月度柜面服务次数、对口客户经理回访次数、银行APP访问次数、银行APP功能点击次数等。

决策树模型是一种比较直观的用于分析不确定性事件的概率模型,可以对对象进行分类和预测,属于数据挖掘技术中常用的一种方法。决策树的运行机制为自上向下递归,在其内部节点对属性进行比较和识别,根据不同的属性类别判断下一节点的分支,最终在决策树叶节点完成最终比较,获得结果。决策树具有易于理解和实现、数据准备简单、运行时间短,分析人员可全程观测模型的运行等优点。在本实施例中,采用决策树对数据进行分类,从而筛选出影响客户流失的指标体系。

图3是本申请实施例一提供的决策树的建立过程的示意图,参照图3,建立决策树的过程可以包括:通过特征选择、节点分裂和决策树修剪,对训练样本集进行分类,输出影响客户流失的指标体系。

具体地,本实施例中可以采用C5.0决策树算法建立决策树。确定样本数据后,开始决策树算法筛选指标。首先本实施例数据集为不平衡数据集,为减小流失客户与非流失客户之间的比例差距,提高模型精确度,通过随机欠抽样法,减少多数样本数量,按照2:1比例划分训练样本集和验证样本集。

根据C5.0决策树采用“增益比率”作为当前节点的分裂属性的特点,计算银行客户流失影响指标各节点的增益比率。设S是银行某时间跨度内个体客户数据的训练样本集,由s个样本组成,包括m个不同的类别x

计算影响指标D的信息增益Gain(S,D)表示为:

Gain(S,D)=I(s

其中:

式(2)为数据集S关于影响指标D的熵,样本在影响性D上取值分布越均匀,分裂信息项的值越大。增益比率表示为:

选择增益比率最大的影响指标进行分裂,最佳分裂指标确定后,确定一个最佳分割点,确定方法为按照k个取值将样本集分成k组,组成决策树的k个分枝。上述过程反复进行,不断对样本进行分组,直到当整个决策树的各个分枝再继续分组下去不再有意义时便停止分组,生成一棵完整的决策树。

S103,根据所述多个属性的权重,对所述决策树进行修剪,将修剪完成后的决策树中的所述属性作为客户流失的影响指标;

根据Boosting算法,对决策树进行迭代,赋予各指标属性新的权重值,具体步骤为:设T是决策树的迭代次数,一共进行T次训练样本过程,由第t次训练样本生成的分类模型是C

定义一个0-1函数:

具体训练过程:

①确定要进行初始化的权重值:假定待生成的分类模型的数量为T,令t=1,

②计算

③向各个初始样本定义单一的权重初始值

④计算第t个子决策树模型对训练样本的错误比

⑤若ε

⑥计算β

⑦对样本的权重值赋值:

⑧若t=T,结束整个训练过程,否则,令t=t+1转到步骤②,完成下一次的样本训练。

各个赋值的权重为

具体地,对生成的决策树进行修枝剪叶,即为对影响银行客户流失的指标进行筛选,剪掉对分类精度贡献不大的冗余节点,剩下与银行客户流失关系密切的指标,具体步骤为:将决策树C

其中n(t)为某个节点t的全部样本个数,e(t)为节点t不包含节点t所标识的样本个数,r(t)为节点t样本的错误率,CF为置信范围[L

计算决策树C

E(t)=n(t)×U

设E

E1最小,不剪枝;E2最小,剪掉此子树并以叶子节点取代;E3最小,通过嫁接将子树C

在本步骤中,对决策树进行计算和迭代,然后将权重大的属性留下,作为下一步神经网络评判客户是否为流失客户的影响指标。

S104,根据所述影响指标和修剪后的所述决策树,对预先设置的神经网络模型进行训练,得到所述客户流失预警模型。

图4是本申请实施例一提供的神经网络算法训练过程的示意图,参照图4,采用上述决策树的输出结果作为BP神经网络的输入数据,将由决策树筛选后的影响指标作为BP神经网络的输入向量个数,输入向量记为p,隐藏层神经元s个,激活函数为S,输出层内神经元设为1个,输出为A,用于预测稳定客户和预警客户,期望值为T。

隐藏层中第i个神经元的输出表达式为:

输出层第k个神经元的输出表达式为:

计算误差,误差函数表达式为:

其中t

计算输出层的权值变化,表达式为:

其中δ

其中,η

计算隐藏层的权值变化,表达式为:

其中δ

检查BP神经网络总误差是否达到精度要求E

在本实施例中,利用决策树算法筛选影响银行客户流失的众多指标,构建客户流失影响指标的优化体系。然后采用BP神经网络对优化的影响指标体系进行学习和训练,最后对客户进行分类,判别稳定客户和输出客户。相比于传统的BP神经网络算法,决策树混合BP神经网络算法,剔除影响小的指标,同时建立银行客户流失预警模型的指标体系,分析人员在决策树计算过程可全程观测模型的运行,提高了预警模型的效率和精度,便于决策人员稳定客户,对预警客户调整服务方案,根据数据特点,改善营销战略。

图5是本申请实施例二提供的一种客户流失预警模型的建立方法的流程示意图,如图5所示,首先结合市场的不确定性以及经济周期的波动,基于客户数据分析,确定客户流失的时间跨度,对银行客户流失进行相应的计算并定义。其次对银行的客户数据进行相应的准备工作,导入数据后对数据进行预处理,包括对数据的清洗,清洗后对属性相同的数据进行集成,并对数据进行初步分类,选择作为下一步进入模型的输入数据,然后采用决策树算法对数据进行分类并筛选出影响银行客户流失的指标体系;将影响银行客户流失的指标体系输入到神经网络模型中进行函数计算和误差计算,当误差值满足要求时,输出判断结果。进一步地,银行可以根据预警结果进行原因分析和评估从而调整客户服务方案。

本实施例中,收集银行客户(主要为个人客户)多维信息、数据预处理、利用决策树模型筛选客户预警指标,构建客户流失预警模型的指标体系,将筛选后的指标作为输入层数据,建立神经网络模型进行学习训练,判断误差函数,反复调整神经元权重,减少误差,直至满足误差范围停止训练,最终判断并输出稳定客户和预警客户,从而便于决策者分析评估原因,改进策略,调整客户服务方案。相对于决策树算法,本实施例中的客户流失模型的预测精度较高;相对于BP神经网络算法,本实施例中的客户流失预警模型的稳定性更强。本实施例中,针对单模型预测效果不理想的缺点,利用不同模型之间的优势、避免劣势,构建银行客户流失预警模型,实现优势互补,提高了预警模型对客户行为预判的精确度和稳健性。

图6是本申请实施例三提供的一种客户流失预警模型的建立装置的结构示意图,如图6所示,所述装置包括:

训练样本集获取模块61,用于获取训练样本集,所述训练样本集包括多个客户数据;

决策树建立模块62,用于从所述训练样本集中提取多个属性,并根据所述多个属性和所述训练样本集建立决策树;

影响指标确定模块63,用于对所述决策树进行修剪,将修剪完成后的决策树中的所述属性作为客户流失的影响指标;

客户流失预警模型确定模块64,用于根据所述影响指标和修剪后的所述决策树,对预先设置的神经网络模型进行训练,得到所述客户流失预警模型。

上述决策树建立模块62包括:

分类子模块,用于根据所述多个属性,将所述训练样本集划分为多个类别;

增益比率计算子模块,用于分别计算每个属性相对于所述多个类别的增益比率;

分裂属性计算子模块,用于以所述增益比率最高的类别对应的属性,作为待建立的决策树中各个节点的分裂属性;

分裂子模块,用于根据所述分裂属性,对所述各个节点进行分裂,得到所述决策树。

上述分裂子模块包括:

子节点建立单元,用于根据所述分裂属性对应的多个属性值,为所述各个节点建立多个与所述多个属性值对应的子节点,得到所述决策树。

上述影响指标确定模块63包括:

迭代子模块,用于采用所述训练样本集中的多个训练样本和预设的迭代算法,依次对所述决策树进行迭代;

修剪子模块,用于在每次迭代完成后,根据所述决策树中各个子节点的样本分类错误数量对所述决策树进行修剪。

上述客户流失预警模型确定模块64包括:

设置子模块,用于将所述影响指标的个数作为所述神经网络模型的输入数据的维数;将所述神经网络模型输出层的神经元设置为1;

训练子模块,用于将所述修剪后的决策树中包含的数据,作为所述神经网络模型的输入数据,对所述神经网络模型进行训练,得到所述客户流失预警模型。

上述客户流失预警模型确定模块64还包括:

误差值计算子模块,用于计算所述神经网络模型每一次训练后的误差值;

判断子模块,用于当所述神经网络模型的误差值小于预设的精度值时,将所述神经网络模型作为所述客户流失预警模型。

图7为本申请实施例四提供的一种终端设备的结构示意图。如图7所示,该实施例的终端设备7包括:至少一个处理器70(图7中仅示出一个)处理器、存储器71以及存储在所述存储器71中并可在所述至少一个处理器70上运行的计算机程序72,所述处理器70执行所述计算机程序72时实现上述任意各个方法实施例中的步骤。

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的举例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。

所称处理器70可以是中央处理单元(CentralProcessingUnit,CPU),该处理器70还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71在一些实施例中可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71在另一些实施例中也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号