首页> 中国专利> 一种基于模糊C-均值的互联网金融平台申请欺诈行为检测方法

一种基于模糊C-均值的互联网金融平台申请欺诈行为检测方法

摘要

本发明公开了一种基于模糊C‑均值算法的互联网金融平台欺诈行为检测方法,通过对采集互联网平台客户账户注册时的信息获取实时测点数据进行Z‑score归一化和降维标准处理,划分训练集和验证集,初始化模糊C‑均值的参数,采用模糊聚类有效性函数自动优选初始聚类数,由目标函数得到模糊C‑均值聚类模型,并根据训练集确定分类决策规则,将验证集进行分类并与用户的申请行为和贷后表现优化模型,将优化后的模糊C‑均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请;本发明实现预警结果准确率高,欺诈识别能力强,降低了金融欺诈风险。

著录项

  • 公开/公告号CN112560921A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利权人 百维金科(上海)信息科技有限公司;

    申请/专利号CN202011434807.8

  • 发明设计人 江远强;

    申请日2020-12-10

  • 分类号G06K9/62(20060101);G06Q20/40(20120101);

  • 代理机构

  • 代理人

  • 地址 201913 上海市崇明区长兴镇潘园公路1800号3号楼22264室(上海泰和经济发展区)

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明属于互联网金融平台行业的风控技术领域,具体利用模糊C-均值算法提供一种检测互联网金融平台申请是否存在欺诈行为的方法。

背景技术

在互联网金融平台反欺诈中,传统的反欺诈检测方法主要是依赖先验知识制定的基于预先定义的反欺诈规则和有监督的机器学习算法,所检测的数据级别通常是原始属性或是细粒度级别的数据。而在当今大数据时代,金融风险维度通常是成百上千个且异常复杂,很难从单个或几个属性的制定有效反欺诈规则,而有监督的机器学习又需要积累大量表现样本来训练模型,不能及时识别出新型欺诈类型。针对这种问题,基于海量数据构建正常行为模型的异常检测技术被广泛采用。虽然目前针对于异常检测的方法有很多,但是各种方法多数并不能获得全局最优解,且误报率仍然有待于改善。

模糊C-均值(Fuzzy C-Means,FCM)算法是一种基于划分的模糊聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。它通过优化目标函数得到每个样本点对所有类中心的隶属度,以极小化所有数据点与各聚类中心的欧式距离及模糊隶属度的加权和为目标,不断修正聚类中心和分类矩阵到符合终止准则,将具有类似特征的数据样本聚为一类。模糊C-均值聚类算法由于速度快、思想简单,得到广泛的使用,且非常适用于互金平台异常行为检测识别。

但传统的模糊C-均值算法应用时存在两个缺陷:一是初始聚类数c值只能依靠经验人为选取,不能自动优选初始聚类数;二是模糊C-均值算法对于样本中的孤立点、噪音数据比较敏感,易陷入局部最优,导致分类出现偏差,进而影响其异常检测的准确率和稳定性。

发明内容

为了解决上述技术问题,本发明中披露了一种基于模糊C-均值算法的互联网金融平台申请欺诈行为检测方法,本发明的技术方案是这样实施的:

一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,包括以下步骤:

步骤1:数据采集,从互联网平台后端采集客户账户注册时的个人基本信息及历史行为数据,以及监测软件中获取实时测点数据;

步骤2:对采集的数据Z-score归一化和主成分分析降维,划分训练集和验证集;

步骤3:初始化模糊C-均值的参数,采用模糊聚类有效性函数确定聚类数;

步骤4:根据初始隶属度计算聚类中心,并更新隶属度,根据目标函数收敛得到模糊C-均值聚类模型;

步骤5:根据训练集确定分类决策规则,将验证集进行分类结合用户的申请行为和贷后表现优化模型;

步骤6:异常在线检测,将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。

进一步地,所述步骤1中,账户个人基本信息及注册申请节点数据,个人基本信息包括:性别、年龄、居住情况、婚姻状态、工作状态,注册申请数据包括账户注册手机号、绑定银行卡号、GPS位置、申请贷款类型、贷款年限、还款计划,用户操作行为数据包括操作行为和设备信息,其中操作行为埋点数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时;设备信息包括:手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,并对账户信贷、消费、提现行为数据中提取进行数字化处理。

进一步地,所述的步骤2中,由于模糊C-均值聚类算法对孤立点、噪音数据比较敏感,因此需要对原始数据集标准化处理,包括Z-score标准化和主成分分析法(PrincipalComponentAnalysis,PCA)降维,Z-score标准化可以统一量纲,主成分分析法可处理样本中的孤立点、噪音数据,消除特征间的自关联性,降维也可以降低计算量,便于处理高维数据,方法如下:

步骤2-1:将采集的n个样本的特征数据构成空间特征数据集X

可知x

步骤2-2:计算每个申请行为样本各个特征的均值和标准差:

步骤2-3:利用Z-score归一化得到标准化矩阵Z=(z

步骤2-4:求解相关系数矩阵R=(r

步骤2-5:求解特征值及特征向量:由特征方程|λE-R|=0(其中E为单位向量)求出相关系数矩阵R的特征值由大到小排序λ

步骤2-6:降维:按累计方差贡献率

由原始数据X

进一步地,所述的步骤3包括以下步骤:

步骤3-1:模糊C-均值的参数初始化,设定聚类数

步骤3-2:初始化一个隶属度隶属度:对给定数据集X的聚类就是要产生X的c个模糊子类X

u

即隶属度矩阵U使用[0,1]之间的随机数来进行初始化,U=(u

其中,i=1,2,…,n为样本个数,j=1,2,…,c是聚类数;

步骤3-3:使用模糊聚类有效性函数确定聚类数c,模糊聚类有效性函数如下:

得到聚类中心矩阵V={v

步骤3-4,使用模糊聚类有效性函数确定聚类数c,计算公式如下:

其中,i=1,2,…,n为样本个数,j=1,2,…,c是聚类数,m是模糊因子,u

V

根据函数V

(1)经过学者研究,经验性给定聚类数c的范围是

(2)取

(3)比较各V

进一步地,所述的步骤4包括以下步骤:

步骤4-1:根据步骤3-3聚类中心求出新的隶属度矩阵U,隶属度公式如下:

由更新的隶属度矩阵U

其中,c表示通过模糊聚类有效性函数确定聚类数,m是模糊因子(一般情况下m取值为2),d

步骤4-2:如果|J

模糊C-均值聚类算法的整体步骤如下:首先需要确定聚类数目c、模糊指数m和收敛精度ε的值,初始迭代次数t=0。根据约束条件随机初始化一个隶属度矩阵,计算此时的聚类中心,由此得到目标函数J

进一步地,所述的步骤5中,当训练集聚类簇完成后,可将所有的聚类按其中包含的实例数量大小进行排序,根据训练集或实际业务的欺诈率设定阈值,确定分类决策规则,对于大于的聚类簇即认为是正常行为,否则即为异常。

然后将上述训练集训练的模糊C-均值模型在验证集分类,计算验证集属于正常或异常的概率,结合用户的申请行为和贷后表现作为分类标签和模糊C-均值模型的分类结果进行比对,判定分类的准确性,也通过选用其他距离度量方式,如曼哈顿距离,或根据其他实际业务确定的分类决策规则,进一步调整优化模型。

进一步地,所述步骤6中,将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,通过训练好的模糊C-均值聚类模板库匹配出在线申请样本属于异常的概率,若达到异常申请状态的阈值,对疑似异常状态的申请发出系统预警,进行人工审批或直接拒绝申请。

与现有技术相比,本发明具有以下有益的技术效果:

(1)对原始数据通主成分分析处理去除了孤立点、噪音数据影响,应用模糊聚类有效性函数自动优选初始聚类数c,根据经验法确定模糊指数m=2和收敛精度ε为隶属度矩阵U范数值的1%,减少了人为主观因素,提高了模糊C-均值算法的异常检测准确率和稳定性;

(2)基于构建好的模糊C-均值计算匹配度进行申请行为异常检测,对实时进军申请行为数据计算已有模糊模型的匹配度,降低了数据处理过程中的计算量,能够自动快速且有效地实现互联网金融平台申请行为监测,保证互联网金融平台申请行为检测设别实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,包括以下步骤:

步骤1:数据采集,从互联网平台后端采集客户账户注册时的个人基本信息及历史行为数据,以及监测软件中获取实时测点数据;

步骤2:对采集的数据Z-score归一化和主成分分析降维,划分训练集和验证集;

步骤3:初始化模糊C-均值的参数,采用模糊聚类有效性函数确定聚类数;

步骤4:根据初始隶属度计算聚类中心,并更新隶属度,根据目标函数收敛得到模糊C-均值聚类模型;

步骤5:根据训练集确定分类决策规则,将验证集进行分类结合用户的申请行为和贷后表现优化模型;

步骤6:异常在线检测,将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。

在一种优选的实施方式中,结合图1所示,步骤2中所述的归一化处理是采用Z-score标准化,统一了量纲,使数据满足标准的高斯分布分布,避免了放大某些数量级较大的值的影响,从而使分类结果更加准确。

在一种优选的实施方式中,结合图1所示,步骤3和4采用欧式距离作为距离度量方式计算第i个样本与它的第j个聚类中心的欧式距离的公式如下:

作为模型优化,也可以采用曼哈顿距离

为实现上述发明目的,本申请一方面提供了一种基于模糊C-均值算法的互联网金融平台欺诈行为在线检测自动识别模型,所述自动识别模型包括以下几个模块:

数据采集模块:从互联网金融平台后端采集客户账户注册时的个人基本信息及历史行为数据,以及监测软件中获取实时测点数据;

数据预处理模块:对样本数据采用Z-score归一化和主成分分析降维,提取倒谱特征作为特征参数;

训练模块,用于利用特征参数来训练模糊聚类模板库;

模型部署及在线检测:将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,通过模糊聚类模板库匹配出待检测申请行为分类的最优模板,对疑似异常状态的申请发出系统预警,进行人工审批流程或拒绝申请。

需要指出的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号