首页> 中国专利> 基于深度森林模型的交易行为识别方法及装置、电子设备

基于深度森林模型的交易行为识别方法及装置、电子设备

摘要

本发明公开了一种基于深度森林模型的交易行为识别方法及装置、电子设备,涉及金融科技领域,其中,该识别方法包括:获取目标信用卡的实时交易行为数据;对实时交易行为数据进行预处理,得到特征向量集合;将特征向量集合输入至交易行为识别模型中,输出识别结果,其中,交易行为识别模型是基于深度森林模型预先训练得到的模型;在识别结果指示使用目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易。本发明解决了相关技术中通过人工识别非法资金套取行为的方法缺乏时效性,无法及时识别并终止非法的实时交易行为的技术问题。

著录项

  • 公开/公告号CN116485536A

    专利类型发明专利

  • 公开/公告日2023-07-25

    原文格式PDF

  • 申请/专利权人 中国工商银行股份有限公司;

    申请/专利号CN202310417150.1

  • 发明设计人 朱深才;庄沃霖;李艺枫;陈凌潇;

    申请日2023-04-18

  • 分类号G06Q40/04(2012.01);G06Q20/40(2012.01);G06F18/214(2023.01);G06N20/00(2019.01);

  • 代理机构北京康信知识产权代理有限责任公司 11240;

  • 代理人余刚

  • 地址 100140 北京市西城区复兴门内大街55号

  • 入库时间 2024-01-17 01:17:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-11

    实质审查的生效 IPC(主分类):G06Q40/04 专利申请号:2023104171501 申请日:20230418

    实质审查的生效

  • 2023-07-25

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及金融科技领域及其他相关技术领域,具体而言,涉及一种基于深度森林模型的交易行为识别方法及装置、电子设备。

背景技术

近年来,信用卡产业实现了跨越式的发展。信用卡的普及在提振国民消费,改善居民生活质量的同时,也引发了不少问题,其中,针对信用卡进行非法资金套取问题十分突出,信用卡持卡人通过非正常手段,将信用额度内的资金以现金的形式套取出来,同时又不支付提现费用,非法资金套取属于违法行为,不仅会增加持卡人债务压力,加剧金融机构信贷坏账风险,而且容易导致信息泄露,进而衍生出各类金融风险,带来严重的经济损失,已成为威胁金融市场稳定的重要因素之一。

相关技术中,金融机构通过发布信用卡积分累计规则来限制交易方式和交易商户,以积分奖励的形式鼓励用户在可信及安全的场景中使用信用卡,取消部分第三支付机构受理的交易积分奖励,同时调整发卡策略来缓解相关用卡风险,且在识别非法资金套取行为时,通过人工识别的方法,对信用卡的多次交易行为进行比较和识别,这种识别方法耗费人力且耗时较长,缺乏时效性,无法及时识别并终止非法的实时交易行为。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于深度森林模型的交易行为识别方法及装置、电子设备,以至少解决相关技术中通过人工识别非法资金套取行为的方法缺乏时效性,无法及时识别并终止非法的实时交易行为的技术问题。

根据本发明实施例的一个方面,提供了一种基于深度森林模型的交易行为识别方法,包括:获取目标信用卡的实时交易行为数据,其中,所述实时交易行为数据至少包括:与所述目标信用卡关联的用户数据、交易商家数据、实时交易数据;对所述实时交易行为数据进行预处理,得到特征向量集合;将所述特征向量集合输入至交易行为识别模型中,输出识别结果,其中,所述交易行为识别模型是基于深度森林模型预先训练得到的模型;在所述识别结果指示使用所述目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易。

可选地,对所述实时交易行为数据进行预处理,得到特征向量集合的步骤,包括:提取所述实时交易行为数据中的交易行为关键词,得到行为关键词集合;由所述行为关键词集合中每个所述交易行为关键词索引交易特征数据,得到交易特征数据集合;将所述交易特征数据集合中的每个交易特征数据转化为特征向量,得到所述特征向量集合。

可选地,所述交易行为识别模型通过以下步骤训练得到,包括:获取历史交易行为数据集合,其中,所述历史交易行为数据集合中每条历史交易行为数据至少包括:历史交易商家数据、历史交易用户数据、历史交易数据、历史行为数据,所述历史行为数据包括:历史行为属性,所述历史行为属性用于指示历史交易是否为所述非法资金套取行为;基于所述历史交易行为数据集合确定历史特征向量集合;基于预设比例将所述历史特征向量集合划分为训练集和测试集;采用所述训练集对初始决策树模型进行迭代训练,构建所述深度森林模型;采用所述测试集对所述深度森林模型进行性能测试,在所述深度森林模型通过所述性能测试的情况下,确定模型训练完成,得到所述交易行为识别模型。

可选地,在采用所述训练集对初始决策树模型进行迭代训练,构建所述深度森林模型之前,还包括:采用预设采样步长的滑动窗口对所述训练集中的历史特征向量进行采样,得到N个子扫描样本,其中,N为大于等于1的正整数;基于随机森林算法将所述N个子扫描样本输入至所述初始决策树模型,得到第一概率特征向量;基于完全随机森林算法将所述N个子扫描样本输入至所述初始决策树模型,得到第二概率特征向量;将所述第一概率特征向量和所述第二概率特征向量进行拼接,得到概率特征向量。

可选地,在将所述第一概率特征向量和所述第二概率特征向量进行拼接,得到概率特征向量之后,采用所述训练集对初始决策树模型进行迭代训练,构建所述深度森林模型的步骤包括:步骤一,将所述概率特征向量输入到级联森林模型的第I层,输出增强概率特征向量,其中,所述级联森林模型由预设数量的随机森林模型和完全随机森林模型组成,级联森林模型包含M个层级,M为大于1的正整数,I为数值1;步骤二,将第I层输出的所述增强概率特征向量与输入的所述概率特征向量进行拼接,并将拼接后的概率特征向量输入至第I+1层;重复执行步骤二,直至输入至所述级联森林模型的第M层,得到所述深度森林模型。

可选地,采用所述测试集对所述深度森林模型进行性能测试,在所述深度森林模型通过所述性能测试的情况下,确定模型训练完成,得到所述交易行为识别模型的步骤,包括:将所述测试集输入到训练完成的所述深度森林模型,得到混淆矩阵,其中,所述混淆矩阵包括:识别正确的非法资金套取行为样本数、识别错误的非法资金套取行为样本数、识别正确的正常交易行为样本数、识别错误的正常交易行为样本数;基于所述混淆矩阵计算准确率和综合指标值,其中,所述综合指标值是精确率和召回率的调和值,所述精确率表示所述识别正确的非法资金套取行为样本数与所述识别正确的非法资金套取行为样本数和所述识别错误的非法资金套取行为样本数之和的比值,所述召回率表示所述识别正确的非法资金套取行为样本数与所述识别正确的非法资金套取行为样本数和所述识别错误的正常交易行为样本数之和的比值;在所述准确率大于等于预设准确率阈值,且所述综合指标值大于等于预设指标阈值的情况下,确定所述深度森林模型通过所述性能测试,得到所述交易行为识别模型。

可选地,在所述识别结果指示使用所述目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易之后,包括:将所述识别结果发送至与所述目标信用卡关联的用户终端;接收所述用户终端的申诉信息;基于所述申诉信息对使用所述目标信用卡的交易行为重新识别,并校正所述识别结果。

根据本发明实施例的另一方面,还提供了一种基于深度森林模型的交易行为识别装置,包括:获取单元,用于获取目标信用卡的实时交易行为数据,其中,所述实时交易行为数据至少包括:与所述目标信用卡关联的用户数据、交易商家数据、实时交易数据;处理单元,用于对所述实时交易行为数据进行预处理,得到特征向量集合;输出单元,用于将所述特征向量集合输入至交易行为识别模型中,输出识别结果,其中,所述交易行为识别模型是基于深度森林模型预先训练得到的模型;中断单元,用于在所述识别结果指示使用所述目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易。

可选地,所述处理单元包括:第一提取模块,用于提取所述实时交易行为数据中的交易行为关键词,得到行为关键词集合;第一索引模块,用于由所述行为关键词集合中每个所述交易行为关键词索引交易特征数据,得到交易特征数据集合;第一转化模块,用于将所述交易特征数据集合中的每个交易特征数据转化为特征向量,得到所述特征向量集合。

可选地,所述基于深度森林模型的交易行为识别装置还包括:第一获取模块,用于获取历史交易行为数据集合,其中,所述历史交易行为数据集合中每条历史交易行为数据至少包括:历史交易商家数据、历史交易用户数据、历史交易数据、历史行为数据,所述历史行为数据包括:历史行为属性,所述历史行为属性用于指示历史交易是否为所述非法资金套取行为;第一确定模块,用于基于所述历史交易行为数据集合确定历史特征向量集合;第一划分模块,用于基于预设比例将所述历史特征向量集合划分为训练集和测试集;第一训练模块,用于采用所述训练集对初始决策树模型进行迭代训练,构建所述深度森林模型;第一测试模块,用于采用所述测试集对所述深度森林模型进行性能测试,在所述深度森林模型通过所述性能测试的情况下,确定模型训练完成,得到所述交易行为识别模型。

可选地,所述基于深度森林模型的交易行为识别装置还包括:第一采样模块,用于采用预设采样步长的滑动窗口对所述训练集中的历史特征向量进行采样,得到N个子扫描样本,其中,N为大于等于1的正整数;第一输入模块,用于基于随机森林算法将所述N个子扫描样本输入至所述初始决策树模型,得到第一概率特征向量;第二输入模块,用于基于完全随机森林算法将所述N个子扫描样本输入至所述初始决策树模型,得到第二概率特征向量;第一拼接模块,用于将所述第一概率特征向量和所述第二概率特征向量进行拼接,得到概率特征向量。

可选地,所述训练模块包括:第一输入子模块,用于步骤一,将所述概率特征向量输入到级联森林模型的第I层,输出增强概率特征向量,其中,所述级联森林模型由预设数量的随机森林模型和完全随机森林模型组成,级联森林模型包含M个层级,M为大于1的正整数,I为数值1;第二输入子模块,用于步骤二,将第I层输出的所述增强概率特征向量与输入的所述概率特征向量进行拼接,并将拼接后的概率特征向量输入至第I+1层;第三输入子模块,用于重复执行步骤二,直至输入至所述级联森林模型的第M层,得到所述深度森林模型。

可选地,所述性能测试模块包括:第四输入子模块,用于将所述测试集输入到训练完成的所述深度森林模型,得到混淆矩阵,其中,所述混淆矩阵包括:识别正确的非法资金套取行为样本数、识别错误的非法资金套取行为样本数、识别正确的正常交易行为样本数、识别错误的正常交易行为样本数;第一计算子模块,用于基于所述混淆矩阵计算准确率和综合指标值,其中,所述综合指标值是精确率和召回率的调和值,所述精确率表示所述识别正确的非法资金套取行为样本数与所述识别正确的非法资金套取行为样本数和所述识别错误的非法资金套取行为样本数之和的比值,所述召回率表示所述识别正确的非法资金套取行为样本数与所述识别正确的非法资金套取行为样本数和所述识别错误的正常交易行为样本数之和的比值;第一确定子模块,用于在所述准确率大于等于预设准确率阈值,且所述综合指标值大于等于预设指标阈值的情况下,确定所述深度森林模型通过所述性能测试,得到所述交易行为识别模型。

可选地,所述基于深度森林模型的交易行为识别装置还包括:第一发送模块,用于将所述识别结果发送至与所述目标信用卡关联的用户终端;第一接收模块,用于接收所述用户终端的申诉信息;第一识别模块,用于基于所述申诉信息对使用所述目标信用卡的交易行为重新识别,并校正所述识别结果。

根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项基于深度森林模型的交易行为识别方法。

根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项基于深度森林模型的交易行为识别方法。

在本公开中,先获取目标信用卡的实时交易行为数据,再对实时交易行为数据进行预处理,得到特征向量集合;然后将特征向量集合输入至交易行为识别模型中,输出识别结果,其中,交易行为识别模型是基于深度森林模型预先训练得到的模型,最后在识别结果指示使用目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易。

在本公开中,在识别实时信用卡交易行为时,采集实时交易数据并输入到预先构建好的交易行为识别模型,通过模型自动识别当前交易行为是否正常且合法,并对非法资金套取行为及时进行制止,本发明通过提前构建好的模型进行自动识别,无需人工识别处理,节省了人力资源,同时对实时交易行为进行识别,提升了时效性,进而解决了相关技术中通过人工识别非法资金套取行为的方法缺乏时效性,无法及时识别并终止非法的实时交易行为的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种可选的基于深度森林模型的交易行为识别方法的流程图;

图2是根据本发明实施例的一种可选的基于深度森林模型的交易行为识别系统的架构图;

图3是根据本发明实施例的一种可选的基于深度森林模型的交易行为识别装置的示意图;

图4是根据本发明实施例的一种基于深度森林模型的交易行为识别方法的电子设备(或移动设备)的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:

深度森林模型,是一个基于决策树森林的方法,是基于集成模型的深度模型,可以在除了大规模图像数据之外的任务中获得和深度神经网络相似的表现。

随机森林模型,由多棵树构成,每棵树通过随机选取Sqrt(特征总数)个特征,然后通过Gini指数来筛选分裂节点。

完全随机森林模型,由多棵树组成,每棵树包含所有的特征,并且随机选择一个特征作为分裂树的分裂节点,一直分裂到每个叶子节点只包含一个类别或者不多于10个样本结束。

Gini指数就是一种对“贡献“的衡量指标,Gini指数越小,贡献越大。

需要说明的是,本公开中的基于深度森林模型的交易行为识别方法及其装置可用于金融科技领域在对信用卡交易行为进行识别的情况下,也可用于除金融科技领域之外的任意领域在对交易行为进行识别的情况下,本公开中对基于深度森林模型的交易行为识别方法及其装置的应用领域不做限定。

需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。

本发明下述各实施例可应用于各种交易识别系统/应用/设备中,本发明基于深度森林模型构建交易行为识别模型,通过采集实时的交易行为数据对实时交易行为进行识别,对于属于非法资金套取行为的交易及时进行中断操作,提升了交易识别的时效性。

下面结合各个实施例来详细说明本发明。

实施例一

根据本发明实施例,提供了一种基于深度森林模型的交易行为识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的基于深度森林模型的交易行为识别方法的流程图,如图1所示,该方法包括如下步骤:

步骤S101,获取目标信用卡的实时交易行为数据,其中,实时交易行为数据至少包括:与目标信用卡关联的用户数据、交易商家数据、实时交易数据;

步骤S102,对实时交易行为数据进行预处理,得到特征向量集合;

步骤S103,将特征向量集合输入至交易行为识别模型中,输出识别结果,其中,交易行为识别模型是基于深度森林模型预先训练得到的模型;

步骤S104,在识别结果指示使用目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易。

通过上述步骤,先获取目标信用卡的实时交易行为数据,再对实时交易行为数据进行预处理,得到特征向量集合;然后将特征向量集合输入至交易行为识别模型中,输出识别结果,其中,交易行为识别模型是基于深度森林模型预先训练得到的模型,最后在识别结果指示使用目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易。

本实施例中,在识别实时信用卡交易行为时,采集实时交易数据并输入到预先构建好的交易行为识别模型,通过模型自动识别当前交易行为是否正常且合法,并对非法资金套取行为及时进行制止,本发明通过提前构建好的模型进行自动识别,无需人工识别处理,节省了人力资源,同时对实时交易行为进行识别,提升了时效性,进而解决了相关技术中通过人工识别非法资金套取行为的方法缺乏时效性,无法及时识别并终止非法的实时交易行为的技术问题。

下面结合上述各步骤对本发明实施例进行详细说明。

需要说明的是,本发明实施例通过预先构建好的交易行为识别模型对当前交易行为进行识别,对非法资金套取行为进行自动检测识别,并对非法交易行为进行中断,在交易行为识别之前,需要先训练交易行为识别模型。

可选地,交易行为识别模型通过以下步骤训练得到,包括:获取历史交易行为数据集合,其中,历史交易行为数据集合中每条历史交易行为数据至少包括:历史交易商家数据、历史交易用户数据、历史交易数据、历史行为数据,历史行为数据包括:历史行为属性,历史行为属性用于指示历史交易是否为非法资金套取行为;基于历史交易行为数据集合确定历史特征向量集合;基于预设比例将历史特征向量集合划分为训练集和测试集;采用训练集对初始决策树模型进行迭代训练,构建深度森林模型;采用测试集对深度森林模型进行性能测试,在深度森林模型通过性能测试的情况下,确定模型训练完成,得到交易行为识别模型。

需要说明的是,在构建交易行为识别模型时,需要获取大量的历史数据,通过技术数据携带的信息对初始模型进行迭代训练,从而得到可以进行交易行为识别的模型,在进行模型训练前,需要先获取模型的输入参数。

首先根据采集的历史交易行为数据提取交易关键词,获取相关特征数据,包括但不限于:卖家特征,描述卖家的身份信息、买家特征,描述买家的身份信息(例如性别、年龄、职业等信息)、交易特征,描述准确的交易信息(如交易时间、交易金融等)、历史特征,描述了买卖双方的信息(如历史交易金额等统计数据),以及历史交易行为数据,历史交易行为数据是用于描述交易行为的属性的,即该次交易行为属于正常交易行为还是非法资金套取行为。

需要说明的是,在构建交易行为识别模型时,需要将输入参数分为训练集和测试集,其中,训练集占较大比例,用于对初始模型进行迭代训练,使得模型具备交易行为识别能力,测试集占较小比例,用于在模型训练好之后对该模型进行测试,验证模型的实用性。

可选地,在采用训练集对初始决策树模型进行迭代训练,构建深度森林模型之前,还包括:采用预设采样步长的滑动窗口对训练集中的历史特征向量进行采样,得到N个子扫描样本,其中,N为大于等于1的正整数;基于随机森林算法将N个子扫描样本输入至初始决策树模型,得到第一概率特征向量;基于完全随机森林算法将N个子扫描样本输入至初始决策树模型,得到第二概率特征向量;将第一概率特征向量和第二概率特征向量进行拼接,得到概率特征向量。

需要说明的是,本发明实施例基于深度森林模型对特征向量进行数据训练,输出可以识别信用卡非法资金套取行为的模型,数据训练过程包括两个步骤,分别为多粒度扫描和级联森林的迭代,从而得到深度森林模型。

首先,多粒度扫描采用滑动窗口对特征向量进行采样,滑动窗口设置了预设步长(本发明实施例对滑动窗口的预设步长不做限定,可以根据实际采样需求自行设定),采样后得到的子扫描样本,分别通过随机森林算法和完全随机森林算法进行特征筛选,并将经过两个不同的算法产生的概率特征向量进行拼接,从而得到级联森林的初始输入参数。

具体的,以目标信用卡交易行为一维时序数据为例,假设输入有400个原始特征,首先利用滑动窗口对特征向量进行采样,令采样步长为1,每次滑动产生一个100维的特征向量,总共产生301个这样的特征向量,作为扫描子样本。然后分别用随机森林和完全随机森林扫描这些子样本,由于任务目标属于二元分类问题,所以每个扫描样本经过随机森林和完全随机森林后能够生成2维概率特征向量,而301个扫描子样本共可以产生602维概率特征向量,最后将这602维概率特征向量拼接后作为级联随机森林的初始输入参数。

需要说明的是,在得到子扫描样本后,需要通过随机森林和完全随机森林进行特征筛选,其中,完全随机森林的划分策略是完全随机且自动划分的,而随机森林需要对特征重要度进行评估,以Gini指数为划分策略,筛选出对样本数据集纯度贡献最大的特征集,假设当前子扫描样本有J个特征——X1,X2,···,Xj,类别数为2,决策树模型每次生成节点都要从当前样本的特征集里随机不重复的选择J个特征组成子特征集,依据令Gini值更小的目标区划分特征集,生成新节点,从而完成特征的筛选。

需要说明的是,特征向量通过基于随机森林算法的决策树模型和基于完全随机森林算法的决策树模型之后,得到一个多维的概率特征向量,并将该概率特征向量作为级联森林模型的第一层的输入参数来构建深度森林模型。

本发明实施例中,使用多粒度扫描可在提取样本特征的同时,最大程度上发现样本特征顺序和识别精度之间的联系。

可选地,在将第一概率特征向量和第二概率特征向量进行拼接,得到概率特征向量之后,采用训练集对初始决策树模型进行迭代训练,构建深度森林模型的步骤包括:步骤一,将概率特征向量输入到级联森林模型的第I层,输出增强概率特征向量,其中,级联森林模型由预设数量的随机森林模型和完全随机森林模型组成,级联森林模型包含M个层级,M为大于1的正整数,I为数值1;步骤二,将第I层输出的增强概率特征向量与输入的概率特征向量进行拼接,并将拼接后的概率特征向量输入至第I+1层;重复执行步骤二,直至输入至级联森林模型的第M层,得到深度森林模型。

需要说明的是,深度森林模型是在级联森林的基础上构建的,需要说明的是,级联森林包含多个层级,每个层级由多个随机森林模型和完全随机森林模型构成,每层输入的参数都不相同,通过层层新联,最后得到深度森林模型。

级联森林中的第一层输入为多粒度扫描阶段得到的概率特征向量,经过多个的随机森林的处理,该层生成的增强概率特征向量与上一层输入的概率特征向量进行拼接,作为下一层的输入,并重复该过程,直至输入到最后一层。

可选地,在将概率特征向量输入到级联森林中某一层后,需要将输入的特征向量分为K组子集数据,将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,从而进行交叉验证,K-1组子集数据作为训练集得到K-1个类向量,然后对其进行平均以生成最终类向量作为级联森林输出的增强概率特征向量。

可选地,采用测试集对深度森林模型进行性能测试,在深度森林模型通过性能测试的情况下,确定模型训练完成,得到交易行为识别模型的步骤,包括:将测试集输入到训练完成的深度森林模型,得到混淆矩阵,其中,混淆矩阵包括:识别正确的非法资金套取行为样本数、识别错误的非法资金套取行为样本数、识别正确的正常交易行为样本数、识别错误的正常交易行为样本数;基于混淆矩阵计算准确率和综合指标值,其中,综合指标值是精确率和召回率的调和值,精确率表示识别正确的非法资金套取行为样本数与识别正确的非法资金套取行为样本数和识别错误的非法资金套取行为样本数之和的比值,召回率表示识别正确的非法资金套取行为样本数与识别正确的非法资金套取行为样本数和识别错误的正常交易行为样本数之和的比值;在准确率大于等于预设准确率阈值,且综合指标值大于等于预设指标阈值的情况下,确定深度森林模型通过性能测试,得到交易行为识别模型。

需要说明的是,在训练好深度森林模型后,采用预先划分好的测试集对构建好的模型进行性能测试,将测试集的历史特征向量集合输入到深度森林模型中,输出识别结果,并将识别结果与测试集中的结果进行比较,从而得到混淆矩阵,混淆矩阵包括:

TP:识别正确的非法资金套取行为样本数;

FN:识别错误的非法资金套取行为样本数;

FP:识别正确的正常交易行为样本数;

TN:识别错误的正常交易行为样本数;

对模型的性能测试是基于混淆矩阵计算两项指标得到的,包括准确率和综合指标值,其中准确率的计算公式为:

Accuracy=(TP+TN)/(TP+TN+FP+FN);

综合指标值是是精确率(Precision)和召回率(Recall)的调和值,综合指标值计算公式为:

F1=(2×Precision×Recall)/(Precision+Recall);

而精确率为识别正确的非法资金套取行为样本数占所有被识别为非法资金套取行为样本数的比例。

Precision=TP/(TP+FP);

召回率是识别正确的非法资金套取行为样本数占所有实际非法资金套取行为样本数的比例。

Recall=TP/(TP+FN)

F1值更接近于两个数中数值较小的值,因此当精确率和召回率接近时,F1值最大。

当准确率大于等于预设准确率阈值且综合指标值大于等于预设指标阈值时,确定该深度森林模型通过性能测试,得到可以识别非法资金套取行为的识别模型。

步骤S101,获取目标信用卡的实时交易行为数据,其中,实时交易行为数据至少包括:与目标信用卡关联的用户数据、交易商家数据、实时交易数据。

需要说明的是,本发明实施例的实施主体为交易行为识别系统,交易行为识别系统与金融机构服务器和用户终端以及商家终端连接,可以基于目标信用卡的信用卡信息获取对应的用户数据、交易商家数据以及实时的交易数据。

步骤S102,对实时交易行为数据进行预处理,得到特征向量集合。

可选地,对实时交易行为数据进行预处理,得到特征向量集合的步骤,包括:提取实时交易行为数据中的交易行为关键词,得到行为关键词集合;由行为关键词集合中每个交易行为关键词索引交易特征数据,得到交易特征数据集合;将交易特征数据集合中的每个交易特征数据转化为特征向量,得到特征向量集合。

需要说明的是,在对实时交易行为进行识别前,需要获取输入到交易识别模型中的输入参数,将一维时序数据转化为特征向量。

步骤S103,将特征向量集合输入至交易行为识别模型中,输出识别结果,其中,交易行为识别模型是基于深度森林模型预先训练得到的模型。

步骤S104,在识别结果指示使用目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易。

需要说明的是,经过模型自动识别的识别结果,可以获知当前正在进行的交易行为是否为非法资金套取行为,若属于非法资金套取行为,则及时终止当前交易,从而减少金融风险,避免资金损失。

可选地,在识别结果指示使用目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易之后,包括:将识别结果发送至与目标信用卡关联的用户终端;接收用户终端的申诉信息;基于申诉信息对使用目标信用卡的交易行为重新识别,并校正识别结果。

需要说明的是,本发明实施例将属于非法资金套取行为的识别结果发送到与目标信用卡关联的用户终端,并为本次中断的交易行为设定一个申诉期,在此期间通过人工判别数据,申诉期后,模型判别结果将并入到交易行为数据中,充当之后的训练数据。

需要说明的是,由于非法资金套取策略会随时间变化而发生变化,所以需定期对模型进行测试和更新,使用数据库中的最新的交易行为数据对模型进行再训练,以使模型能有更好的适应能力,实现系统的持续有效性。

下面结合另一种可选的具体实施方式进行详细说明。

图2是根据本发明实施例的一种可选的基于深度森林模型的交易行为识别系统的架构图,如图2所示,该交易行为识别系统包括:数据获取模块201,数据预处理模块202,交易识别模型训练模块203,交易行为识别模块204,交易执行模块205,数据库模块206,其中,

数据获取模块201用于获取与信用卡关联的实时交易行为数据和历史交易行为数据,历史交易行为数据用于训练深度森林模型。

交易行为数据包括但不限于:与信用卡关联的用户数据、交易商家数据以及交易具体数据(例如交易金额、交易时间),历史交易行为数据还包括:交易行为数据,交易行为数据用于指示每一项交易是否属于非法资金套取行为。

数据预处理模块202用于对获取到的数据进行预处理,包括关键词提取,特征数据获取以及特征向量的转化,从而得到作为输入参数的特征向量。

交易识别模型训练模块203包括深度森林模型训练模块和模型性能测试模块,深度森林模型训练模块包括:多粒度扫描模块和级联森林训练模块。

交易行为识别模块204用于将采集到的实时交易行为数据输入到交易识别模型对当前交易行为进行识别。

交易执行模块205用于接收交易行为识别模块204的识别结果,如果属于信用卡非法资金套取行为,则中断本次交易,将中断报告发送给交易双方;否则继续执行正常交易。

数据库模块206一方面用于存储经过数据预处理模块202处理过交易行为数据,二是存储判别结果数据,该模块的交易行为数据可作为后续模型训练的训练数据。

基于上述交易行为识别系统对实时交易行为进行识别的步骤包括:

步骤一,数据获取模块获取实时交易行为数据;

步骤二,将实时交易行为数据进行预处理得到特征向量;

步骤三,将特征向量输入到交易行为识别模型,输出识别结果;

交易行为识别模型是基于深度森林模型进行构建的,首先根据采集的历史交易行为数据提取交易关键词,获取相关特征数据,包括但不限于:卖家特征,描述卖家的身份信息、买家特征,描述买家的身份信息(例如性别、年龄、职业等信息)、交易特征,描述准确的交易信息(如交易时间、交易金融等)、历史特征,描述了买卖双方的信息(如历史交易金额等统计数据),以及历史交易行为数据,历史交易行为数据是用于描述交易行为的属性的,即该次交易行为属于正常交易行为还是非法资金套取行为。

在构建交易行为识别模型时,需要将输入参数分为训练集和测试集,其中,训练集占较大比例,用于对初始模型进行迭代训练,使得模型具备交易行为识别能力,测试集占较小比例,用于在模型训练好之后对该模型进行测试,验证模型的实用性。

本发明实施例基于深度森林模型对特征向量进行数据训练,输出可以识别信用卡非法资金套取行为的模型,数据训练过程包括两个步骤,分别为多粒度扫描和级联森林的迭代,从而得到深度森林模型。

首先,多粒度扫描采用滑动窗口对特征向量进行采样,滑动窗口设置了预设步长(本发明实施例对滑动窗口的预设步长不做限定,可以根据实际采样需求自行设定),采样后得到的子扫描样本,分别通过随机森林算法和完全随机森林算法进行特征筛选,并将经过两个不同的算法产生的概率特征向量进行拼接,从而得到级联森林的初始输入参数。

具体的,以目标信用卡交易行为一维时序数据为例,假设输入有400个原始特征,首先利用滑动窗口对特征向量进行采样,令采样步长为1,每次滑动产生一个100维的特征向量,总共产生301个这样的特征向量,作为扫描子样本。然后分别用随机森林和完全随机森林扫描这些子样本,由于任务目标属于二元分类问题,所以每个扫描样本经过随机森林和完全随机森林后能够生成2维概率特征向量,而301个扫描子样本共可以产生602维概率特征向量,最后将这602维概率特征向量拼接后作为级联随机森林的初始输入参数。

在得到子扫描样本后,需要通过随机森林和完全随机森林进行特征筛选,其中,完全随机森林的划分策略是完全随机且自动划分的,而随机森林需要对特征重要度进行评估,以Gini指数为划分策略,筛选出对样本数据集纯度贡献最大的特征集,假设当前子扫描样本有J个特征——X1,X2,···,Xj,类别数为2,决策树模型每次生成节点都要从当前样本的特征集里随机不重复的选择J个特征组成子特征集,依据令Gini值更小的目标区划分特征集,生成新节点,从而完成特征的筛选。

特征向量通过基于随机森林算法的决策树模型和基于完全随机森林算法的决策树模型之后,得到一个多维的概率特征向量,并将该概率特征向量作为级联森林模型的第一层的输入参数来构建深度森林模型。

深度森林模型是在级联森林的基础上构建的,需要说明的是,级联森林包含多个层级,每个层级由多个随机森林模型和完全随机森林模型构成,每层输入的参数都不相同,通过层层新联,最后得到深度森林模型。

级联森林中的第一层输入为多粒度扫描阶段得到的概率特征向量,经过多个的随机森林的处理,该层生成的增强概率特征向量与上一层输入的概率特征向量进行拼接,作为下一层的输入,并重复该过程,直至输入到最后一层。

在训练好深度森林模型后,采用预先划分好的测试集对构建好的模型进行性能测试,将测试集的历史特征向量集合输入到深度森林模型中,输出识别结果,并将识别结果与测试集中的结果进行比较,从而得到混淆矩阵,混淆矩阵包括:

TP:识别正确的非法资金套取行为样本数;

FN:识别错误的非法资金套取行为样本数;

FP:识别正确的正常交易行为样本数;

TN:识别错误的正常交易行为样本数;

对模型的性能测试是基于混淆矩阵计算两项指标得到的,包括准确率和综合指标值,其中准确率的计算公式为:

Accuracy=(TP+TN)/(TP+TN+FP+FN);

综合指标值是是精确率(Precision)和召回率(Recall)的调和值,综合指标值计算公式为:

F1=(2×Precision×Recall)/(Precision+Recall);

而精确率为识别正确的非法资金套取行为样本数占所有被识别为非法资金套取行为样本数的比例。

Precision=TP/(TP+FP);

召回率是识别正确的非法资金套取行为样本数占所有实际非法资金套取行为样本数的比例。

Recall=TP/(TP+FN)

F1值更接近于两个数中数值较小的值,因此当精确率和召回率接近时,F1值最大。

当准确率大于等于预设准确率阈值且综合指标值大于等于预设指标阈值时,确定该深度森林模型通过性能测试,得到可以识别非法资金套取行为的识别模型。

步骤四,基于识别结果,对本次交易进行处理,若交易结果显示本次交易属于非法资金套取行为,则中断交易,回收交易记录及关联信息存入数据库模块206,并向交易双方发送中断报告,以便误判时用户进行申诉;若交易结果显示本次交易属于正常交易行为,则继续交易;

步骤五,设定一个申诉期,在此期间根据用户的申诉情况通过人工校正识别数据,申诉期过后,模型识别结果为并入到交易行为数据中,充当之后的训练数据。

由于非法资金套取策略会随时间变化而发生变化,所以需定期对模型进行测试和更新,使用数据库中的最新的交易行为数据对模型进行再训练,以使模型能有更好的适应能力,实现系统的持续有效性。

通过上述实施例,基于深度森林模型构建交易行为识别模型,通过采集实时的交易行为数据对实时交易行为进行识别,对于属于非法资金套取行为的交易及时进行中断操作,提升了交易识别的时效性。

下面结合另一实施例进行详细说明。

实施例二

本实施例中提供的一种基于深度森林模型的交易行为识别装置装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。

图3是根据本发明实施例的一种可选的基于深度森林模型的交易行为识别装置的示意图,如图3所示,该交易行为识别装置包括:获取单元31、处理单元32、输出单元33、中断单元34,其中,

获取单元31,用于获取目标信用卡的实时交易行为数据,其中,实时交易行为数据至少包括:与目标信用卡关联的用户数据、交易商家数据、实时交易数据;

处理单元32,用于对实时交易行为数据进行预处理,得到特征向量集合;

输出单元33,用于将特征向量集合输入至交易行为识别模型中,输出识别结果,其中,交易行为识别模型是基于深度森林模型预先训练得到的模型;

中断单元34,用于在识别结果指示使用目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易。

上述交易行为识别装置,通过获取单元31获取目标信用卡的实时交易行为数据,其中,实时交易行为数据至少包括:与目标信用卡关联的用户数据、交易商家数据、实时交易数据;通过处理单元32对实时交易行为数据进行预处理,得到特征向量集合;通过输出单元33将特征向量集合输入至交易行为识别模型中,输出识别结果,其中,交易行为识别模型是基于深度森林模型预先训练得到的模型;通过中断单元34在识别结果指示使用目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易。

本实施例中,在识别实时信用卡交易行为时,采集实时交易数据并输入到预先构建好的交易行为识别模型,通过模型自动识别当前交易行为是否正常且合法,并对非法资金套取行为及时进行制止,本发明通过提前构建好的模型进行自动识别,无需人工识别处理,节省了人力资源,同时对实时交易行为进行识别,提升了时效性,进而解决了相关技术中通过人工识别非法资金套取行为的方法缺乏时效性,无法及时识别并终止非法的实时交易行为的技术问题。

可选地,处理单元32包括:第一提取模块,用于提取实时交易行为数据中的交易行为关键词,得到行为关键词集合;第一索引模块,用于由行为关键词集合中每个交易行为关键词索引交易特征数据,得到交易特征数据集合;第一转化模块,用于将交易特征数据集合中的每个交易特征数据转化为特征向量,得到特征向量集合。

可选地,基于深度森林模型的交易行为识别装置还包括:第一获取模块,用于获取历史交易行为数据集合,其中,历史交易行为数据集合中每条历史交易行为数据至少包括:历史交易商家数据、历史交易用户数据、历史交易数据、历史行为数据,历史行为数据包括:历史行为属性,历史行为属性用于指示历史交易是否为非法资金套取行为;第一确定模块,用于基于历史交易行为数据集合确定历史特征向量集合;第一划分模块,用于基于预设比例将历史特征向量集合划分为训练集和测试集;第一训练模块,用于采用训练集对初始决策树模型进行迭代训练,构建深度森林模型;第一测试模块,用于采用测试集对深度森林模型进行性能测试,在深度森林模型通过性能测试的情况下,确定模型训练完成,得到交易行为识别模型。

可选地,基于深度森林模型的交易行为识别装置还包括:第一采样模块,用于采用预设采样步长的滑动窗口对训练集中的历史特征向量进行采样,得到N个子扫描样本,其中,N为大于等于1的正整数;第一输入模块,用于基于随机森林算法将N个子扫描样本输入至初始决策树模型,得到第一概率特征向量;第二输入模块,用于基于完全随机森林算法将N个子扫描样本输入至初始决策树模型,得到第二概率特征向量;第一拼接模块,用于将第一概率特征向量和第二概率特征向量进行拼接,得到概率特征向量。

可选地,训练模块包括:第一输入子模块,用于步骤一,将概率特征向量输入到级联森林模型的第I层,输出增强概率特征向量,其中,级联森林模型由预设数量的随机森林模型和完全随机森林模型组成,级联森林模型包含M个层级,M为大于1的正整数,I为数值1;第二输入子模块,用于步骤二,将第I层输出的增强概率特征向量与输入的概率特征向量进行拼接,并将拼接后的概率特征向量输入至第I+1层;第三输入子模块,用于重复执行步骤二,直至输入至级联森林模型的第M层,得到深度森林模型。

可选地,性能测试模块包括:第四输入子模块,用于将测试集输入到训练完成的深度森林模型,得到混淆矩阵,其中,混淆矩阵包括:识别正确的非法资金套取行为样本数、识别错误的非法资金套取行为样本数、识别正确的正常交易行为样本数、识别错误的正常交易行为样本数;第一计算子模块,用于基于混淆矩阵计算准确率和综合指标值,其中,综合指标值是精确率和召回率的调和值,精确率表示识别正确的非法资金套取行为样本数与识别正确的非法资金套取行为样本数和识别错误的非法资金套取行为样本数之和的比值,召回率表示识别正确的非法资金套取行为样本数与识别正确的非法资金套取行为样本数和识别错误的正常交易行为样本数之和的比值;第一确定子模块,用于在准确率大于等于预设准确率阈值,且综合指标值大于等于预设指标阈值的情况下,确定深度森林模型通过性能测试,得到交易行为识别模型。

可选地,基于深度森林模型的交易行为识别装置还包括:第一发送模块,用于将识别结果发送至与目标信用卡关联的用户终端;第一接收模块,用于接收用户终端的申诉信息;第一识别模块,用于基于申诉信息对使用目标信用卡的交易行为重新识别,并校正识别结果。

上述的交易行为识别装置还可以包括处理器和存储器,上述获取单元31、处理单元32、输出单元33、中断单元34等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来将对实时交易行为进行识别。

上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标信用卡的实时交易行为数据,其中,实时交易行为数据至少包括:与目标信用卡关联的用户数据、交易商家数据、实时交易数据;对实时交易行为数据进行预处理,得到特征向量集合;将特征向量集合输入至交易行为识别模型中,输出识别结果,其中,交易行为识别模型是基于深度森林模型预先训练得到的模型;在识别结果指示使用目标信用卡的交易行为属于非法资金套取行为的情况下,中断实时信用卡交易。

根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项基于深度森林模型的交易行为识别方法。

根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项基于深度森林模型的交易行为识别方法。

图4是根据本发明实施例的一种基于深度森林模型的交易行为识别方法的电子设备(或移动设备)的硬件结构框图。如图4所示,电子设备可以包括一个或多个(图4中采用402a、402b,……,402n来示出)处理器402(处理器402可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器404。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号