首页> 中国专利> 基于图特征的企业间隐性关联关系挖掘方法、设备及介质

基于图特征的企业间隐性关联关系挖掘方法、设备及介质

摘要

本发明涉及一种基于图特征的企业间隐性关联关系挖掘方法、设备及介质,其中方法包括:1:针对数据库中现存数据进行超级节点识别及剔除操作后生成关联关系图;2:进一步提取生成股权树,针对所有股权树通过进一步处理得到股权树对以及股权树对根节点的对应数据信息;步骤3:构建分别采用股权树对和股权树根节点两个维度的特征变量体系;步骤4:针对特征变量体系中的所有股权树指标进行指标聚合及模型宽表整合操作后得到用于模型训练的最终数据;步骤5:利用最终数据对LightGBM算法模型训练,并利用训练完毕的LightGBM算法模型对实际数据进行企业间隐性关联关系挖掘。本发明有效提高对企业客户间关系的洞察能力,为风险相关决策提供有力参考。

著录项

  • 公开/公告号CN112417176A

    专利类型发明专利

  • 公开/公告日2021-02-26

    原文格式PDF

  • 申请/专利权人 交通银行股份有限公司;

    申请/专利号CN202011430159.9

  • 发明设计人 仇钧;姚利虎;韩静;李志刚;

    申请日2020-12-09

  • 分类号G06F16/36(20190101);G06F16/901(20190101);G06F16/908(20190101);G06Q40/02(20120101);

  • 代理机构31225 上海科盛知识产权代理有限公司;

  • 代理人孙永申

  • 地址 200120 上海市浦东新区自由贸易试验区银城中路188号

  • 入库时间 2023-06-19 10:02:03

说明书

技术领域

本发明涉及金融科技技术领域,尤其是涉及一种基于图特征的企业间隐性关联关系挖掘方法、设备及介质。

背景技术

当前,我国经济处于转型发展、深度调整和周期换挡期,各种经济发展中的矛盾日益凸显。在这种情况下,集团企业抱团取暖具有一定优势,但也存在一损俱损的问题。相较于单一企业,企业集团的各种关系更加错综复杂,在跨地区、跨行业、多元化经营模式下,内部组织结构交错,通过关联企业间的互相担保、多头申请贷款,银企、银银之间信息严重不对称。银行为达到规模效应,对企业集团,尤其是上市的企业集团争相授信,导致企业集团从银行获得的授信额度远大于其可能承担的最大负债水平。集团下属的单家企业发生信用风险极易引发“多米诺骨牌效应”,形成连锁反应,甚至导致系统性风险。从表面上看,单一银行对独立子公司的授信是合理的,但多家银行对整个集团形成的授信集合未必合理。近年来,因集团企业破产,银行遭受巨大损失的案例屡见不鲜。

《公司法》第二百一十六条:关联关系,是指公司控股股东、实际控制人、董事、监事、高级管理人员与其直接或者间接控制的企业之间的关系,以及可能导致公司利益转移的其他关系。但是,国家控股的企业之间不仅因为同受国家控股而具有关联关系。

由此可见,公司法意义上的关联关系,强调的是“控制”,强调的是“公司控股股东、实际控制人、董事、监事、高级管理人员与其直接或者间接控制的企业之间的关系”,强调的是同一控制人对不同企业的控制。

但不论是监管的集团关联授信还是《公司法》,都对关联方并未作出非常具体的明确界定。在相关的政府规范性文件中,监管指出隐性关系是企业之间一种表面上不显露关联关系而实际上隐含有投资关系或在经营决策、资金调度、生产经营存在控制或影响关系的关联方式。

根据上述监管给定的隐性关联关系定义,本发明综合考虑机器学习模型适用场景,将用于建模的隐性关联关系定义为“隐性控制关系”,该关系具有以下特征:

1、银行无法通过企业公开股权数据获取到的控制关系;

2、通过与第三方签订协议,从而达到对某企业的单独或共同控制关系。

隐性控制关系技术领域内的现有技术方案之一是由银行各经营单位根据集团总部对其成员单位的控制力、集团的经营和财务特点、合并报表取得情况以及与银行合作紧密程度的差异等对企业集团授信管理,将企业集团分为“总对总”、“自上而下”和“自下而上”等不同类型来核定授信方案,再通过定量测算,最终确定是否将新增企业纳入授信集团树。

上述方案中主要依赖于银行工作人员对企业的授信审查报告,包括从公开的工商信息、供应链上下游关系、当地贸易背景及企业经营财报等多个维度,用人工经验分析企业是否与行内已授信客户存在潜在关联关系。一方面需要消耗巨大的人力成本;另一方面单家银行难以获得企业集团在多个地区、多家银行、多个子公司之间的真实经营状况,容易导致对关键关联关系的遗漏错判,从而产生应纳未纳或应建未建等漏出问题。

隐性控制关系技术领域内的现有技术方案之二是利用近年来较为广泛使用的商业软件如天眼查、企查查等工具,对企业进行股权穿透,通过商业图数据库及公开工商数据,向上穿透股东公司,向下穿透子公司,实现可视化展示披露至自然人、法人层级的企业全部合伙人情况。

上述方案中的股权穿透技术主要缺点有三:

1)、应用的关联关系类型较为单一,主要以股权及任职关系为主,并没有充分利用资金、贸易、担保、抵质押等其他关系类型;

2)、对于股权和任职关系,一方面企业可以选择不公开披露股权信息,另一方面通过复杂的股权架构(比如境外注册公司),可以绕过国内的工商信息登记流程,达到隐藏真实控制关系的目的;

3)、现有的股权穿透技术并没有充分利用企业关联关系网络本身的图特征与图模式,通过隐空间的特征来挖掘出企业间的潜在关联。

企业间的隐性关联关系探查目前多依赖于上述方案一中有经验的授信审查人员人工梳理和排查,费时费力而不能及时更新。虽然市场上出现了上述方案二中的股权关系可视化工具,但数据源过于单一,且未能充分利用关联关系网络本身的图特征与图模式,导致隐性关系挖掘不充分。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于图特征的企业间隐性关联关系挖掘方法、设备及介质。

本发明的目的可以通过以下技术方案来实现:

一种基于图特征的企业间隐性关联关系挖掘方法,该方法包括以下步骤:

步骤1:针对数据库中现存数据进行超级节点识别及剔除操作后生成关联关系图;

步骤2:基于现存数据和关联关系图进一步提取生成股权树,针对所有股权树通过进一步处理得到股权树对以及股权树对根节点的对应数据信息;

步骤3:基于关联关系图、股权树对以及股权树对根节点的对应数据信息,结合Y变量标识规则构建分别采用股权树对和股权树根节点两个维度的特征变量体系;

步骤4:针对股权树对和股权树根节点两个维度的特征变量体系中的所有股权树指标进行指标聚合及模型宽表整合操作后得到用于模型训练的最终数据;

步骤5:利用最终数据对LightGBM算法模型训练,得到训练完毕的LightGBM算法模型,即隐性关联关系挖掘模型,并利用其对实际数据进行企业间隐性关联关系挖掘。

进一步地,所述的步骤1具体包括:针对数据库中现存数据根据中心度、入度、出度、页面排名、紧密中心度指标结果进行初步划分识别得到超级节点,进行剔除操作后生成关联关系图,所述数据库为TigerGraph数据库。

进一步地,所述的步骤2包括以下分步骤:

步骤201:针对现存数据提取时点末全量法人有贷户数据,基于有贷户数据通过股权穿透规则进一步生成股权树;

步骤202:基于股权树对应数据整合去重,并限定股权树层级;

步骤203:基于关联关系图获取连通分量,并生成每个步骤1中节点的连通分量编号;

步骤204:剔除股权树对应数据中的根节点同层非根节点的节点数据、超节点数据、连通分量编号为空的节点数据;

步骤205:基于步骤204,剔除只包含孤立节点、树内每个节点都隶属不同的连通体的股权树、树间孤立股权树;

步骤206:基于步骤202至步骤205生成的股权树数据和连通分量编号结果,同一连通分量编号内的,两两组合生成控股股权树对,剔除根节点均为个人的股权树对,不同连通分量编号间的股权树,不组对;

步骤207:组对完毕后得到股权树对以及股权树对根节点的对应数据信息。

进一步地,所述的步骤3中分别采用股权树对和股权树根节点两个维度的特征变量体系包括股权树特征变量和股权树根节点对特征变量,其中,所述股权树特征变量包括股权树内图指标、股权树间图指标、股权树间资金交易以及股权树对图模式指标,所述股权树根节点对特征变量包括股权树根节点对图指标和股权树根节点对图模式指标。

进一步地,该挖掘方法还包括步骤6:采用两阶段PU-Learning建模法对开发样本进行正负样本数据平衡处理,利用经过正负样本数据平衡处理的开发样本对隐性关联关系挖掘模型进行模型评价。

进一步地,所述的步骤5具体包括:将最终数据设定为LightGBM算法模型入模数据,设定评估目标、训练关键超参数以及模型训练策略后,最终获得模型超参数和模型结果,即对应为训练完毕的LightGBM算法模型,也即隐性关联关系挖掘模型,并利用其对实际数据进行企业间隐性关联关系挖掘。

进一步地,所述的评估目标采用AUC和binary_logloss,所述的关键超参数包括通用参数、booster参数和模型学习参数。

进一步地,所述的模型训练策略采用留出法评估或K折交叉验证。

本发明还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的一种基于图特征的企业间隐性关联关系挖掘方法的步骤。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的一种基于图特征的企业间隐性关联关系挖掘方法的步骤。

与现有技术相比,本发明具有以下优点:

(1)本发明描述了一种基于图特征,利用机器学习模型挖掘企业间隐性关联关系的方法,通过该方法,实现隐性关系识别,提高预测的准确率、覆盖率和及时性,便于银行对客户更好的进行集团授信管理,从而增强集团风险管理能力。

(2)本发明提供了一套基于图特征的企业隐性关联关系挖掘模型。隐性关联关系挖掘模型基于大数据处理、图数据库、知识图谱以及机器学习等技术,采用行内行外多数据源,充分利用并有效结合图分析技术与人工智能技术,深度挖掘企业客户间的隐性关联关系,有效提高对企业客户间关系的洞察能力,为风险管理、风险防控等决策提供有力参考。

附图说明

图1为本发明的方法流程示意图;

图2为本发明的方法中的股权树对特征清单;

图3为本发明的方法中的股权树根节点对特征清单;

图4为本发明的方法中的LightGBM算法建模过程示意图;

图5为本发明的方法实施例中的特征变量加工流程示意图;

图6为本发明的方法实施例中的超级节点指标划分结果图;

图7为本发明的方法实施例中的行为图连通分量统计结果图,其中,图7(a)为各统计量与连通体内节点个数表示结果图,图7(b)为连通体内节点数与连通体个数表示结果图;

图8为本发明的方法实施例中的行为图关系类型示意图;

图9为本发明的方法实施例中的股权树的生成过程示意图;

图10为本发明的方法实施例中的二阶段模型方案示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

一、本发明技术方案的相关缩略语以及关键术语定义如下:

隐性关联关系:是企业之间一种表面上不显露关联关系而实际上隐含有投资关系或在经营决策、资金调度、生产经营存在控制或影响关系的关联方式。-------浙江银监局关于银行授信客户隐性关联风险提示的通知<2012>

授信集团树(或集团关系):银行开展授信业务时,对于较大的企业会做集团授信管理。该树中的成员已经按照一个集团进行统一授信,可以确认这些成员一定确定属于该集团。

股权穿透树:结合工商股权关系、高管任职关系和集团授信关系,通过树状股权结构图的方式,描绘出公司股权的层级结构。包含集团授信的股权穿透树以及非集团授信的股权穿透树。

知识图谱:一种大规模语义网络,以实体或者概念作为节点,通过语义关系相连接。

通过发掘实体之间的关联,将半结构化、非结构化的数据整合,知识图谱可以帮助机器理解数据、解释现象、知识推理,从而发掘深层关系、实现智慧搜索与智能交互。

图数据库:一种非关系型数据库,应用图形理论存储实体信息与实体之间的关系信息,主流工具有TigerGraph、Neo4j等。

有监督的机器学习:基于窗口期数据定义的特征变量(the feature variables)以及通过在特定时间的信用表现形成的目标变量(the target variable),构建机器学习的训练集(the training set);基于训练集,开发机器学习算法(the machine learningalgorithm)训练分类模型(the classification model),最终应用训练出的模型预测客户的信用表现。

时间窗口:根据对于建模周期的需求,将历史数据在时间维度上切分成若干个数据集,进而为模型训练提供数据素材。观察点的设计依据业务运用模型的实际需求,即何时需要隐性关联关系挖掘模型对企业的隐性关联关系进行预测,常见有季末、半年末等;观察点以前将选定固定时期作为观察期,从而构建训练集的特征变量(X变量);观察点以后同样选定固定时期作为表现期,即收集客户样本在观察点之后的表现,进而构建训练集的目标变量(Y变量)。

二、本发明提供的完整技术方案如下:

首先,将工商实体间的关联抽象为图结构存储在图数据库中;其次,以股权关系树为显性关系基础,抽取股权树对作为研究样本;然后利用资金、贸易、担保、抵质押等关系图上的图特征及资金交易的业务特征构建模型的特征变量;最后用两阶段PU-Learning建模法,用分类模型LightGBM算法进行模型的训练、验证以及预测,预测任意企业间存在隐性关联关系的概率。

以下对图中各阶段建模步骤进行详细的说明:

1、关联关系图构建

本发明的关联关系图结合行内外数据,包含了任职、担保、资金、受益人、贸易及相同地址电话共7大类关系类型,并剔除了图上的超级节点。

由于企业经济行为以及关联关系边特性,在关联关系图上会出现“超级节点”,例如支付宝。目前,超级节点问题仍然是学术界和工业界研究的重点,尚未有有效的识别和解决方法。“超级节点”的存在,一是会影响图数据库应用效率;二是影响模型开发和预测客群生成结果;三是造成部分图指标计算结果异常。鉴于此类超级节点可能会对隐性关联关系挖掘模型方案产生影响,需先开展超级节点识别和处理工作。

本发明采用“以定性为主,定量分析为辅”的方法识别“超级节点”。定性分析主要从业务场景应用出发,结合管理经验,定位各类关系中无应用意义节点,从而梳理节点识别规则。例如:资金关系中的第三方支付平台、股权关系中的政府机关。定量分析则是对于关联关系图谱上的节点,计算其出度、入度、度中心度、PageRank、相间中心度、紧密中心度六个图指标,辅助定性分析。例如:资金关系中的第三方支付平台节点在图指标上呈现高入度、低出度,而股权关系中的政府机构几点则为低入度、高出度的计算结果。综合定性、定量结果,确定超级节点。

2、客群样本提取及Y变量标识

本发明主要研究的隐性关系对象起点为银行的授信客户。首先从授信客户出发,进行股权和任职的上下穿透,形成多棵股权关系树。然后根据银行的集团授信关系,可以把每棵股权树分类为授信集团树或非授信集团树。Y变量标识规则:对于模型开发样本中的控股股权树对,如存在集团客户关系的标识为“有隐性关系”,不存在则标识为“无关系”。

3、特征变量设计

结合目标变量Y特性,一是通过股权树对和股权树根节点对两大维度特征变量体系设计,全面分析有贷户控股股权树间的关联程度;二是通过图特征与非图特征两类指标构造,丰富图谱结构信息,提升模型准确性。

如图2所示,股权树对特征设计考虑的维度包括:图特征变量和图模式特征变量。其中:

图特征变量是基于股权树内拓扑结构以及股权树间结构,包括中心性特征、结构特征、路径特征、邻域特征。

图模式特征变量即基于股权穿透树间企业在行为图上的路径结构,构造反映其边关系构成模式特征的指标,主要包含7大类关系以及其复合关系。

如图3所示,股权树根节点对特征设计考虑的维度包括:图特征变量、图模式特征变量以及非图特征变量。其中:

图特征变量是基于股权树根节点间的拓扑结构计算图特征指标,包括邻域特征、节点本身特征、路径类特征。

图模式特征变量是基于股权树根节点间路径模式计算节点间关系模式,包括7大类关系以及其复合关系。

非图特征变量即基于股权树根节点的资金交易。

4、算法建模

本发明采用LightGBM算法,是Booting算法新进成员,是梯度提升树的一种高效实现,由微软于2016年推出。原理上它和XGBoost类似。相比XGBoost,它有更快的训练效率、低内存使用、支持直接使用类别特征等。其训练过程示意图如4所示:

本模型区分评价指标将选用AUC值。

ROC(Receiver Operating Characteristic)曲线是反映敏感性和特异性连续变量的综合指标。横坐标:(False positive rate,FPR),预测为正但实际为负的样本占所有负样本的比例;纵坐标:(True positive rate,TPR),预测为正且实际为正的样本占所有正样本的比例。

AUC是ROC曲线下方的面积:表示随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率。AUC=1,是完美分类器,0.5

3、具体实施例如下:

隐性关联关系挖掘模型实施的主要工作可分为特征变量加工和算法建模两大阶段。

特征变量加工过程如图5所示,其中:

1)、基础数据处理阶段包含了超级节点的发现和关联关系图的构建

2)、股权树对生成和标识对应了模型正负样本的提取和抽样

3)、股权树/根节点基础指标加工对应了几类特征变量的加工

4)、指标聚合及模型宽表整合为入模训练前最后的数据整理工作

3.1、关联关系图构建

隐性模型关联关系图是后续模型客群样本加工、隐性模型图指标和图模式两类图特征变量的加工基础。具体生成步骤如下:

a、超级节点剔除

由于企业经济行为以及关联关系边特性,在关联关系图上会出现“超级节点”。“超级节点”的存在,一是会影响图数据库应用效率;二是影响模型开发和预测客群生成结果;三是造成部分图指标计算结果异常。鉴于此类超级节点可能会对隐性关联关系挖掘模型方案产生影响,我们首先开展了超级节点识别和处理工作。

根据度中心度、入度、出度、页面排名、紧密中心度指标结果,对20190930和20191231两个时点的全量客户进行了分析,共计19351560个客户。具体指标及划分规则如图6所示;

针对上述识别出的55个超级节点,结合实际企业经营情况,将其中28个客户确定为超节点,采用在点边文件剔除的处理方式。

为了更好的了解股权树中节点在行为图上的连通程度,引入连通分量分析。基于去除已识别的28个超节点,并限制节点在股权树中层级在0-5层之间的情况下,计算股权树中节点在20191231时点行为图上的连通分量,共生成119,300个连通体,其中104,871个连通体只包含一个节点,其他14,429个连通体的概况分析如图7(a)和图7(b)所示;

基于前述对于连通体情况的分析,行为图上有一个由435,107股权树节点组成的超大连通体,其连通分量编号为1。根据度中心度、入度、出度指标结果,对20191231时点连通分量编号为1的客户群分别进行了汇总关系类型及分关系类型口径下的统计分析,并提取超级节点清单。

b、关联关系图生成

基于剔除了超级节点后的7大类、11子类关联关系点边数据,在TigerGraph数据库中生成隐性模型所需的20190930和20191231两个时点的行为图,供后续进一步开展模型客群样本加工、图指标和图模式指标计算。

关联关系图由公司和个人两类实体,任职、担保、资金、受益人、贸易及相同地址电话共7大类11小类关系构成,如图8所示。其中担保圈、资金圈和贸易圈是根据圈查找算法,计算10步以内成圈得到的图指标。关联关系图没有采用常见的股权关系,因为股权关系属于显性关系,被用来构建股权关系树提取Y标签样本,所以在隐性关系探查的模型中剔除了股权关系。

本模型的预测样本集约为2.1亿,因此本发明采用的图数据库为TigerGraph。相较于Neo4j、JanusGraph、Spark等其他图计算方案,TigerGraph支持原生图的分布式并行计算,可获得更高的计算性能。

3.2、客群样本提取及Y变量标识

隐性模型客群样本加工逻辑如下:

1)、有贷户抽取。提取时点末全量法人有贷户数据。

2)、生成股权树。以筛选后的法人有贷户作为出发点,通过股权穿透规则生成股权树(即交行E类树生成规则),穿透时所使用控股股权关系包括:50%以上控股股东以及50%(含)以下第一大股东,含并列第一大股东。股权穿透目标点处理规则:

如穿透目标点为各级政府(如国资委、财政部、教育部、卫生部等国家各级政府机关单位),则需回退至下一层企业,形成控股股权树;

如穿透目标点为事业单位(如学校、医院、电视台、报社等),则穿透目标点为该事业单位,形成控股股权树;

如穿透目标点为境外(含港、澳、台地区)企业,则穿透目标点为该境外(含港、澳、台地区)企业,形成控股股权树;

对于集团客户股权树,穿透后的结果须保证每个集团至少有两棵股权树,对于单棵集团股权树,则需回退至分叉层的股权树结构;非集团树无需遵循此条规则。

3)、整合股权树。基于上一步生成的股权树数据,如果股权树根节点相同,则整合去重。

4)、限定股权树层级。基于上述步骤生成的股权树数据,限定树深自根节点下三层。

5)、生成连通分量编号。基于生成的关联关系图,计算连通分量,并生成行为图上每个节点的连通分量编号。

6)、剔除股权树内节点。剔除根节点同层非根节点的节点数据、超节点数据、连通分量编号为空的节点数据。

7)、剔除股权树。基于前述步骤,剔除只包含孤立节点、树内每个节点都隶属不同的连通体的股权树、树间孤立股权树。

8)、组合股权树对。基于上述生成的股权树数据和连通分量编号结果,同一连通分量编号内的,两两组合(不生成反向对)生成控股股权树对,剔除根节点均为个人的股权树对。不同连通分量编号间的股权树,不组对。

9)、生成结果数据。结果数据字段包括股权树对的树编号;股权树内所有节点的客户SID、客户名称、是否起点、是否根节点、客户所属树的层级。

以上步骤2)~9)对应过程如图9所示。

对5万授信客户进行股权穿透后,最终得到54万节点分别归属3.3万棵股权关系树。其中7358棵集团授信树,26088棵非集团授信树。对3.3万股权树进行两两组对,剔除根节点都是个人的节点对,剩余2.5亿节点对,即为模型客群样本。

生成的模型客群样本中,同一集团编号内股权树对的组合标识为“有隐性关系”,其他股权树对的组合则标识为“无关系”。

3.3、特征变量

3.3.1、特征变量概览

根据信息有用性假设,特征变量的设计最终决定了模型表现的上限,因此特征变量的设计需要对风险业务的较好理解,力求多角度、立体地、多渠道、全面地刻画客户的信用风险情况。

基于已确认的隐性关联关系探查方案,为了更全面诠释有贷户股权树间关联程度,采用股权树对和股权树根节点对两大维度特征变量体系设计方案,全面分析有贷户股权树间的关联程度。同时,通过构造图指标和图模式两类指标,丰富图谱结构信息,提升模型准确性。股权树对共71个特征变量,股权树根节点共35个特征变量。

3.3.2、股权树对特征变量

基于股权树在行为图上的拓扑结构,通过图算法构建的特征变量。根据变量类型的不同,由可以进一步细分为四类:股权树内图指标、股权树间图指标、股权树间资金交易、股权树对图模式指标。

3.3.2.1、股权树内图指标

基于股权穿透树内节点在行为图上的拓扑结构,构造反映其各自结构特征的图特征指标,主要包括中心性特征、结构特征、路径特征三大类指标。具体见下表:

表-1:股权树内图指标

3.3.2.2、股权树间图指标

基于股权穿透树内节点在行为图上的拓扑结构,构造反映其相互间差异性的图特征指标,主要包括中心性特征、结构特征、路径特征、邻域特征四大类指标。具体见下表:

表-2:股权树间图指标

3.3.2.3、股权树间资金交易

基于资金流水信息加工的变量,关注的是股权树对之间的资金往来行为、稳定性。具体见下表:

表-3:股权树间资金交易

3.3.2.4、股权树对图模式指标

基于股权穿透树在虚拟股权树行为图上的拓扑结构,构造反映其边关系模式特征的指标,主要包含7大类关系以及其复合关系。具体见下表:

表-4:股权树对图模式指标

3.3.3、股权树根节点对特征变量

股权树根节点对的特征变量主要是反映股权树根节点对间的关系特征,基于股权树根节点在行为图上的拓扑结构,通过图算法构建的特征变量,主要包括图指标和图模式指标。

3.3.3.1、股权树根节点对图指标

基于股权树根节点间的拓扑结构计算图特征指标,主要包括节点相邻性特征、节点本身特征、节点路径特征三大类指标。具体见下表:

表-5:股权树根节点对图指标

3.3.3.2、股权树根节点对图模式指标

基于股权树根节点间路径模式计算图模式特征指标,主要包括7大类关系以及其复合关系。具体见下表:

表-6:股权树根节点对图模式指标

3.4、模型构建

3.4.1、二阶段模型框架概述

在隐性关联关系模型开发样本中,负样本存在标识不准确的数据问题,混入有隐性关联关系的正样本。为了确保分类模型算法结果,本发明将采用二阶段模型方法,确保模型开发样本中正、负样本标识的准确性。同时,结合模型不平衡样本问题(正样本占比为0.00134%),具体模型方案如图10所示:

两阶段模型方案具体实施如下:

3.4.1.1、一阶段模型开发

由于负样本存在标识不准确的数据问题,混入有隐性关联关系的正样本,本发明通过一阶段模型开发,获取真正的负样本,具体如下:

数据抽样:按正样本和负样本1:20的配比,采用无放回抽样算法,抽取10组样本。

模型训练:循环抽取1组训练,其他9组验证,训练相应的模型。最终得到共10组模型和其验证数据的平均AUC。

模型选择:基于10组模型,选择验证数据平均AUC最高的一组作为一阶段模型。

3.4.1.2、二阶段模型开发

基于一阶段模型,通过模型预测结果获得纯净的负样本数据,再集合全量正样本数据进行二阶段训练,得到最终模型。

数据抽样:按正样本和负样本1:100的配比,采用无放回抽样算法,抽取10组样本。

阈值确定:基于一阶段训练好的模型,预测10组样本,分别得到每组预测概率的后20%的阈值,进行平均,得到10组样本的平均阈值。

训练样本:采用确定的平均阈值,分别基于抽取的10组样本预测结果,选择预测概率小于平均阈值的样本,再结合全量正样本得到10组样本,作为二阶段模型训练的样本。

模型训练:循环抽取1组训练,其他9组作为验证样本,训练二阶段模型。最终得到10组模型和其验证数据的平均AUC。

模型选择:基于10组模型,选择验证数据平均AUC最高的一组作为最终的模型。

3.4.2、LightGBM算法概述

3.4.2.1、算法介绍

LightGBM是Booting算法新进成员,它是梯度提升树的一种高效实现,由微软于2016年推出。原理上它和XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。相比XGBoost,它有更快的训练效率、低内存使用、支持直接使用类别特征等。在工业界应用,具有一定的优势,具体如下:

特征变量数据预处理要求相对较少,对输入不敏感,包括对异常值的容忍程度、自动处理缺失值、不要求变量相关性处理,、特征变量不要求归一化等。拿到入模数据,可以快速得到baseline结果。

工业化程度比较高,工业界大量应用。主要原因在于底层语言C++,效率比较高,且支持计算的并行,同时在数据量比较大时候,引入数据压缩、分片的方法,尽可能的提高算法的效率。

引入的更多的防止过拟合的处理方法,包括加入正则化项、缩减因子、行列采样等。

具有高度的灵活性,用户能够自定义优化目标和评价标准。

LightGBM优化了对类别特征的支持,可以直接输入类别特征,不需要额外的分类特征的数据预处理。

3.4.2.2、模型开发

由于LightGBM属于梯度决策树GBDT方法,基于算法原理,模型调优主要包括模型训练目标的确定、模型关键参数以及模型训练策略。其模型开发关键过程如图4所示:

评估目标设定。基于隐性关联关系挖掘模型业务目标,本项目采用AUC、binary_logloss作为训练目标。

关键参数设定。主要包括三类:1.通用参数:部分可以确定下来通常不用调整,其他需要详细优化;2.booster参数:弱学习器相关参数,重点调整参数。3.模型学习参数,用来控制模型学习的过程。

模型训练策略。基于模型开发关键设定,模型开发主要选择对模型影响大的参数,及实施好的优化策略。本发明,采用交叉验证的方法寻找最优超参数,来训练lightGBM模型。

3.4.2.3、参数训练

由于参数训练是一门艺术,没有一定的标准,不同模型人员有不同的调参习惯,其原则先粗调,再细调。基于IBM项目经验,针对本项目目标,采用如下方案,具体如下。

1、基于本业务场景确定如下参数:booster_type、objective、metric、early_stopping_rounds。

2、n_estimator和leaning_rate设定。由于leaning_rate和n_estimator关联性很强,因此可以根据计算资源,确定learning_rate大小,如果计算资源不是特别充足,设定0.1,否者可以设置较小的值。另外结合早停设置较大的n_estimator,充分训练。

3、保持n_estimator和learning rate不变,依次调节下列参数,具体如下:

1)num_leaves,确定树的复杂度,是关键参数;

2)max_depth和min_child_samples,确定树的复杂度,是最重要的参数;

3)subsample和colsample_bytree,特征及样本的抽样,防止过拟合的重要参数;

4)lambda,alpha,正则化参数,防止过拟合,但作用可能不显著。

4、如果开始leaning_rate设置比较大,那么再次缩小learning rate,此时n_estimator的数量会增加,训练时间也会较长,得到最佳的learning rate和n_estimator的值,即训练完成。

表-7:模型参数介绍

3.4.3、模型开发结果

3.4.3.1、模型超参数设定

结合第上节中的参数训练方法,本次隐性关联关系挖掘模型参数调优采用GridSearch方法,主要调优参数及调优结果如下表所示:

表-8:模型参数设定

3.4.3.2、特征重要性

根据模型特征重要性结果,106个特征变量入选变量为99个,7个特征变量没入选。未入选变量是2个股权树对图模式变量、5个根节点对图模式变量。入选的99个特征变量中排名前50和50以后的特征分布如下表所示:

表-9:特征重要性排名前50特征分布

表-10:特征重要性排名50以后特征分布

为了进一步评估模型结果,分析了特征重要性排名前十的指标变量的分布情况,见前文表1至表6,排名前十的变量TG40共同邻居数、TG39股权树间最短距离、TP03股权数间企业法人关系的占比、TG41Jaccard相似性指标、G17根节点对Katz距离、G12根节点对原点度中心度占比、TP09股权树间前十大资金关系的占比、TP01股权树间前十大资金关系占比、TG42资源分配指数、G07根节点对原点紧密中心度,其正、负样本统计量具有明显差异。

3.4.3.3、模型评价结果

3.4.3.3.1、AUC评价结果

本隐性关联关系挖掘模型评价指标采用平均AUC。一般开发样本和验证样本的AUC差距不大于10%为佳。同时,本发明还计算了20191231全量样本的平均AUC,来辅助判断模型表现结果。最终模型评价结果如下表所示:

表-11:模型评价结果

综合上表各数据集模型评价指标表现,隐性关联关系挖掘模型开发集、验证集和全量预测集的AUC均达到0.85。同时,验证集、全量预测集与开发集的差距也小于10%,模型表现良好。

3.4.3.3.2、PSI评价结果

由于隐性关联关系挖掘模型全量样本约2亿的数量,同时正样本占比为0.00264%,属于极不平衡样本。为了检验模型结果在全量样本上的泛化效果,确保模型应用效果,本发明进一步评价了模型稳定性。模型稳定性验证主要通过计算开发样本和全量预测样本上的PSI指数进行。PSI指数测量两个群体变化的程度,通常情况下PSI不高于0.1,说明模型预测结果稳定;大于0.25,说明模型稳定性表现欠佳,需要分析具体原因。

隐性关联关系挖掘模型结果在开发样本与全量样本的PSI为0.003347,满足模型预测结果稳定性,佐证了模型开发样本无偏抽样。具体结果如下表所示。

表-12:PSI评价结果

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号