首页> 中国专利> 一种合同履约表现量化及短期违约预测的方法及装置

一种合同履约表现量化及短期违约预测的方法及装置

摘要

本申请公开了一种企业合同履约表现量化及短期违约预测的方法。从司法裁判文书中获取企业数据。确定违约严重度的多个分段区间。为每一家企业在四个维度进行排序。为三个维度建立线性模型,根据线性模型为每一家企业在三个维度上计算得分。建立合同履约分计算模型,计算每一家企业的合同履约分。根据企业的合同履约分的不同区间进行评级,不同评级表征不同的企业历史违约严重度和/或未来短期内违约风险。采用多个样本企业的真实结果作为预测结果的校验值,对所述合同履约分计算模型中的a、b、c系数进行调整,使所述合同履约分计算模型的计算及后续的评级预测结果符合预期。本申请可用于企业的企业合同履约表现量化及短期违约预测。

著录项

说明书

技术领域

本申请涉及一种数据挖掘方法,特别是涉及一种利用公开的工商信息和司法数据综合评估企业历史合同履约表现情况以及预测企业未来短期内违约概率的方法。

背景技术

数据挖掘(data mining)是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

工商信息是指企业在申请登记时向国家工商行政管理局提交的相关企业信息,主要有企业名称、股东、高管信息、地址信息、注册资本等。

司法数据是指企业在法院解决诉讼案件时的相关信息,例如司法裁判文书等,主要有企业名称、案由、角色、状态、结果等。

线性回归(linear regression)是一种回归分析技术。例如给定数据集D,线性回归试图学习到一个线性模型(linear model)以尽可能准确地预测实值输出标记。这是通过在数据集D上建立线性模型,建立代价函数(loss function),最终以优化代价函数为目标确定线性模型的参数,从而得到线性模型用以后续的预测。

现有的企业信用评分方法或企业风险评估方法存在如下问题。第一,多数企业不知道合作方履约情况,也不知道从何获取参考依据。第二,少量企业会使用司法裁判文书对合作方历史履约情况进行评估,但审阅过程比较艰难。第三,司法裁判文书存在多种角色、主题、类型、状态、结果,人工区分和判定不科学。

发明内容

本申请所要解决的技术问题是提供一种能够评估企业历史合同履约表现情况以及预测企业未来短期内违约概率的方法。

为解决上述技术问题,本申请提出了一种企业合同履约表现量化及短期违约预测的方法,包括如下步骤。步骤S1:从司法裁判文书中获取企业数据。步骤S2:计算样本企业的未来三年企业死亡率和违约严重度,通过数据统计分析构建样本企业的未来三年企业死亡率与违约严重度的关系,将一个相近范围内的未来三年企业死亡率对应的违约严重度作为违约严重度的一个分段区间,以此得到违约严重度的多个分段区间。步骤S3:为每一家企业在违约规模维度、违约次数维度、被执行情况维度、违约连续性维度这四个维度进行排序。步骤S4:为违约规模维度、违约次数维度、被执行情况维度建立三个线性模型,根据线性模型为每一家企业在违约规模维度、违约次数维度、被执行情况维度上计算得分。步骤S5:根据每一家企业在违约规模维度、违约次数维度、被执行情况维度的得分以及违约连续性系数建立合同履约分计算模型,用所述合同履约分计算模型计算每一家企业的合同履约分。步骤S6:根据企业的合同履约分的不同区间进行评级,不同评级表征不同的企业历史违约严重度和/或未来短期内违约风险。步骤S7:采用多个样本企业套入所述步骤S5建立的合同履约分计算模型,并进入步骤S6根据样本企业在所述合同履约分计算模型计算出的合同履约分进行评级,作为预测结果;以样本企业的真实结果作为预测结果的校验值,对所述合同履约分计算模型中的a、b、c系数进行调整,使所述合同履约分计算模型的计算及后续的评级预测结果符合预期;经过系数调整后的所述合同履约分计算模型及后续的评级用于企业合同履约表现量化及短期违约预测。上述方法通过样本企业对合同履约分计算模型的参数进行优化,使得合同履约分计算模型的准确性在样本企业上符合预期,从而可用于非样本企业的企业合同履约表现量化及短期违约预测。

进一步地,所述步骤S1中,还从企业工商信息中获取企业数据;获取企业数据后还进行数据清洗。

进一步地,所述步骤S2中,未来三年企业死亡率的计算方式为:选择一个时段内发生违约案件的企业作为样本企业,将样本企业在所选时段的后面三年内是否死亡作为统计结果;企业的死亡是指企业丧失继续创收能力的可能性,包括注销、吊销、被列为失信名单;未来三年企业死亡率=在所选时段的后面三年内样本企业的死亡数量÷所选时段内的样本企业数量。

进一步地,所述步骤S2中,违约严重度是指违约规模相对企业规模的大小,违约规模是指违约案件的判决总金额;企业规模取决于注册资本、人员、融资;违约严重度=违约规模÷企业规模。

进一步地,所述步骤S2中,样本企业的违约严重度与未来三年企业死亡率呈正相关;违约严重度越高,未来三年企业死亡率越高;反之亦然。

进一步地,所述步骤S3中,在违约规模维度、违约次数维度、被执行情况维度这三个维度的排序采用如下方式;确定每一家企业所在的国标二级行业;计算每一家企业的违约严重度,确定每一家企业的违约严重度位于哪一个违约严重度的分段区间内;在每一家企业所在的国标二级行业内、以及该企业所在的违约严重度的分段区间内进行去重排序。

进一步地,所述步骤S3中,违约连续性是指企业在一个或多个选定时段内的违约案件的数量的情况;违约连续性维度只有有限数量的可能性,将所有可能性排列组合后进行排序。

进一步地,所述步骤S4中,所述三个线性模型均为score=x-(y/z)×n,score为某一家企业在该维度的得分,x为起始分因子,y是该企业的违约规模,z是该企业的企业规模,n是该企业在该维度上由步骤S3得到的排序;不同的违约严重度的分段区间对应着不同的起始分因子x。

进一步地,所述步骤S5中,所述合同履约分计算模型为index=(score1×a+score2×b+score3×c×d;index为企业的合同履约分,score1表示该企业在违约规模维度的得分,score2表示该企业在违约次数维度的得分,score3表示该企业在被执行情况维度的得分,a、b、c分别为违约规模维度、违约次数维度、被执行情况维度的影响系数,d为企业在时间、违约次数上衡量出的违约连续性系数,违约连续性系数d是基于违约连续性维度的有限数量的排列组合和排序而人为设定的系数。

进一步地,所述步骤S6中,企业的合同履约分为100,属于L1级,表示企业历史违约严重度“无”,未来短期内违约风险“低”。企业的合同履约分≥90且<100,属于L2级,表示企业历史违约严重度“极小”,未来短期内违约风险“低”。企业的合同履约分≥80且<90,属于L3级,表示企业历史违约严重度“轻微”,未来短期内违约风险“中”。企业的合同履约分≥70且<80,属于L4级,表示企业历史违约严重度“一般”,未来短期内违约风险“中”。企业的合同履约分≥60且<70,属于L5级,表示企业历史违约严重度“严重”,未来短期内违约风险“高”。企业的合同履约分≥0且<60,属于L6级,表示企业历史违约严重度“危险”,未来短期内违约风险“高”。

本申请还提出了一种企业合同履约表现量化及短期违约预测的装置,包括数据获取单元、分段单元、排序单元、维度计算单元、建模计算单元、评级单元和系数调整单元。所述数据获取单元用来从司法裁判文书中获取企业数据。所述分段单元用来计算样本企业的未来三年企业死亡率和违约严重度,通过数据统计分析构建样本企业的未来三年企业死亡率与违约严重度的关系,将一个相近范围内的未来三年企业死亡率对应的违约严重度作为违约严重度的一个分段区间,以此得到违约严重度的多个分段区间。所述排序单元用来为每一家企业在违约规模维度、违约次数维度、被执行情况维度、违约连续性维度这四个维度进行排序。所述维度计算单元用来为违约规模维度、违约次数维度、被执行情况维度建立三个线性模型,根据线性模型为每一家企业在违约规模维度、违约次数维度、被执行情况维度上计算得分。所述建模计算单元用来根据每一家企业在违约规模维度、违约次数维度、被执行情况维度的得分以及违约连续性系数建立合同履约分计算模型,用所述合同履约分计算模型计算每一家企业的合同履约分;所述合同履约分计算模型中包含违约规模维度、违约次数维度、被执行情况维度的影响系数a、b、c。所述评级单元用来根据企业的合同履约分的不同区间进行评级,不同评级表征不同的企业历史违约严重度和/或未来短期内违约风险。所述系数调整单元用来将多个样本企业套入所述建模计算单元建立的合同履约分计算模型,并由所述评级单元根据每个样本企业在所述合同履约分计算模型计算出的合同履约分进行评级,作为预测结果;所述系数调整单元以样本企业的真实结果作为预测结果的校验值,对所述合同履约分计算模型中的a、b、c系数进行调整,使所述合同履约分计算模型的计算及后续的评级预测结果符合预期;经过系数调整后的所述合同履约分计算模型及后续的评级用于企业合同履约表现量化及短期违约预测。

本申请取得的技术效果是:(1)司法数据数量非常多,逐条分析目标企业的涉诉案件非常耗时,本申请大大降低司法数据的审阅耗时。(2)司法裁判文书包含多种角色、主题、类型、状态、结果,人工区分困难和低效,本申请能显著提高司法数据识别效率。(3)本申请确定风险研究样本集群,规避主观判断导致的结论偏差,有效提高风险量化的准确度。

附图说明

图1是本申请提出的企业合同履约表现量化及短期违约预测的方法的流程示意图。

图2是样本企业的未来三年企业死亡率与违约严重度的关系示意图。

图3是本申请提出的企业合同履约表现量化及短期违约预测的装置的结构示意图。

图中附图标记说明:数据获取单元1、分段单元2、排序单元3、维度计算单元4、建模计算单元5、评级单元6、系数调整单元7。

具体实施方式

请参阅图1,本申请提出的企业合同履约表现量化及短期违约预测的方法包括如下步骤。

步骤S1:从司法裁判文书中获取企业数据。这一步例如通过网络爬虫从数据源(至少是司法数据)爬取数据。优选地,所述数据源还包括企业工商信息,获取企业数据后还进行数据清洗,整理成数据表,存储到数据仓库中。

步骤S2:计算样本企业的未来三年企业死亡率和违约严重度,通过数据统计分析来构建样本企业的未来三年企业死亡率与违约严重度的关系,将一个相近范围内的未来三年企业死亡率对应的违约严重度作为违约严重度的一个分段区间,以此得到违约严重度的多个分段区间。

未来三年企业死亡率的一种示例性计算方式为:选择一个时段(例如2013年至2017年)内发生违约案件的企业作为样本企业,将样本企业在所选时段的后面三年(例如2018年至2020年)内是否死亡作为统计结果。企业的死亡是指企业丧失继续创收能力的可能性,包括注销、吊销、被列为失信名单等。未来三年企业死亡率=在所选时段的后面三年内样本企业的死亡数量÷所选时段内的样本企业数量。

违约严重度是指违约规模相对企业规模的大小,违约严重度=违约规模÷企业规模。违约规模是指违约案件的判决总金额。企业规模取决于注册资本、人员、融资等因素。

统计结果表明,样本企业的违约严重度与未来三年企业死亡率呈正相关,例如图2所示曲线。违约严重度越高,未来三年企业死亡率越高。但在违约严重度<a的区间,曲线快速上升较陡峭;在违约严重度>a的区间,曲线缓慢上升较平缓。这一步是将一个相近范围内的未来三年企业死亡率对应的违约严重度作为违约严重度的一个分段区间。例如,将85%至100%的未来三年企业死亡率对应的违约严重度作为违约严重度的第一个分段区间;将70%至85的未来三年企业死亡率对应的违约严重度作为违约严重度的第二个分段区间;以此类推,得到违约严重度的多个分段区间。

步骤S3:为每一家企业在违约规模维度、违约次数维度、被执行情况维度、违约连续性维度这四个维度进行排序。

在违约规模维度、违约次数维度、被执行情况维度这三个维度的排序例如采用如下方式。(1)确定每一家企业所在的国标二级行业,国标GB/T 4754-2017《国民经济行业分类》将国民经济行业划分为门类、大类、中类和小类四级。所述国标二级行业是指该标准中的“大类”。(2)计算每一家企业的违约严重度,确定每一家企业的违约严重度位于步骤S2得到的哪一个违约严重度的分段区间内。(1)和(2)的顺序没有限制。(3)在每一家企业所在的国标二级行业内、以及该企业所在的违约严重度的分段区间内进行去重排序。首先,这是对排序样本的范围限定,也就是排序并不是全国企业一起参与,而是同一个国标二级行业内以及同一个违约严重度的分段区间内排序,国标二级行业之间保持独立性,违约严重度的分段区间之间保持独立性。其次,去重是为了确保计算结果具有实用性,因为无违约企业占大比例,如果不去重,会导致所有违约企业排名趋近于最后一名。因此去重是删除掉无违约企业。再次,排序的作用是为了规避主观判断造成的偏差,排序的本质是相对分析法。

违约连续性是指企业在一个或多个选定时段内的违约案件的数量的情况。例如,某企业在最近五年中有3年存在合同违约记录,但最近两年内没有合同违约记录。又如,某企业在最近五年中有2年存在合同违约记录,并且最近两年内也存在合同违约记录。违约连续性维度只有有限数量的可能性,所以不需要耗费大量计算力来实现,而是将所有可能性排列组合后进行排序。在后续的计算中,直接套用结果即可。

步骤S4:为违约规模维度、违约次数维度、被执行情况维度建立三个线性模型,例如是score=x-(y/z)×n,根据线性模型为每一家企业在违约规模维度、违约次数维度、被执行情况维度上计算得分。其中,score为某一家企业在该维度的得分,x为起始分因子,y是该企业的违约规模,z是该企业的企业规模,n是该企业在该维度上由步骤S3得到的排序。不同的违约严重度的分段区间对应着不同的起始分因子x。如果没有起始分因子x,会导致评估结果无法印证前期统计结果。优选地,所述三个维度例如通过Apache Spark计算得分。

步骤S5:根据每一家企业在违约规模维度、违约次数维度、被执行情况维度的得分以及违约连续性系数建立合同履约分计算模型,用所述合同履约分计算模型计算每一家企业的合同履约分index,index=(score1×a+score2×b+score3×c×d。其中,score1表示该企业在违约规模维度的得分,score2表示该企业在违约次数维度的得分,score3表示该企业在被执行情况维度的得分,a、b、c分别为违约规模维度、违约次数维度、被执行情况维度的影响系数,d为企业在时间、违约次数上衡量出的违约连续性系数,违约连续性系数d是基于违约连续性维度的有限数量的排列组合和排序而人为设定的系数。作为示例,企业的合同履约分index是一个0至100的数值,数值越低,表明该企业的未来违约的概率就越高。

步骤S6:根据企业的合同履约分index的不同区间进行评级,不同评级表征不同的企业历史违约严重度和/或未来短期内违约风险。

例如,企业的合同履约分为100,属于L1级,表示企业历史违约严重度“无”,未来短期内违约风险“低”。

例如,企业的合同履约分≥90且<100,属于L2级,表示企业历史违约严重度“极小”,未来短期内违约风险“低”。

例如,企业的合同履约分≥80且<90,属于L3级,表示企业历史违约严重度“轻微”,未来短期内违约风险“中”。

例如,企业的合同履约分≥70且<80,属于L4级,表示企业历史违约严重度“一般”,未来短期内违约风险“中”。

例如,企业的合同履约分≥60且<70,属于L5级,表示企业历史违约严重度“严重”,未来短期内违约风险“高”。

例如,企业的合同履约分≥0且<60,属于L6级,表示企业历史违约严重度“危险”,未来短期内违约风险“高”。

步骤S7:采用多个样本企业套入所述步骤S5建立的合同履约分计算模型,并进入步骤S6根据样本企业在所述合同履约分计算模型计算出的合同履约分进行评级,作为预测结果。所述样本企业的企业历史违约严重度、未来短期内违约风险都是已知的真实结果。这一步以样本企业的真实结果作为预测结果的校验值,对所述合同履约分计算模型中的a、b、c系数进行调整,使所述合同履约分计算模型的计算及后续的评级预测结果符合预期,例如准确率达70%以上。此时,经过系数调整后的所述合同履约分计算模型及后续的评级就可以用于企业合同履约表现量化及短期违约预测。

请参阅图3,本申请提出的企业合同履约表现量化及短期违约预测的装置包括数据获取单元1、分段单元2、排序单元3、维度计算单元4、建模计算单元5、评级单元6和系数调整单元7。图3所示装置与图1所示方法相对应。

所述数据获取单元1用来从司法裁判文书中获取企业数据。

所述分段单元2用来计算样本企业的未来三年企业死亡率和违约严重度,通过数据统计分析构建样本企业的未来三年企业死亡率与违约严重度的关系,将一个相近范围内的未来三年企业死亡率对应的违约严重度作为违约严重度的一个分段区间,以此得到违约严重度的多个分段区间。

所述排序单元3用来为每一家企业在违约规模维度、违约次数维度、被执行情况维度、违约连续性维度这四个维度进行排序。

所述维度计算单元4用来为违约规模维度、违约次数维度、被执行情况维度建立三个线性模型,根据线性模型为每一家企业在违约规模维度、违约次数维度、被执行情况维度上计算得分。

所述建模计算单元5用来根据每一家企业在违约规模维度、违约次数维度、被执行情况维度的得分以及违约连续性系数建立合同履约分计算模型,用所述合同履约分计算模型计算每一家企业的合同履约分。所述合同履约分计算模型中包含违约规模维度、违约次数维度、被执行情况维度的影响系数a、b、c。

所述评级单元6用来根据企业的合同履约分的不同区间进行评级,不同评级表征不同的企业历史违约严重度和/或未来短期内违约风险。

所述系数调整单元7用来将多个样本企业套入所述建模计算单元5建立的合同履约分计算模型,并由所述评级单元6根据每个样本企业在所述合同履约分计算模型计算出的合同履约分进行评级,作为预测结果;所述系数调整单元7以样本企业的真实结果作为预测结果的校验值,对所述合同履约分计算模型中的a、b、c系数进行调整,使所述合同履约分计算模型的计算及后续的评级预测结果符合预期。此时,经过系数调整后的所述合同履约分计算模型及后续的评级就可以用于企业合同履约表现量化及短期违约预测。

商业活动的主要呈现形式是合同,因此本申请将合同履约能力和意愿作为评级的方向。相比传统企业信用或企业风险评估模型在逻辑、维度、数据方面的切入点,本申请选择了一个创新的评估角度做深化,即司法数据中的裁判文书。本申请以行业为划分依据,赋予所有样本合理的参考、对比空间,从而量化样本的真实风险严重程度。本申请基于司法裁判文书对风险进行比较和量化,形成合同履约分计算模型,确保结果的客观性、公正性和科学性。本申请基于大数据统计结果,研究司法数据和各类风险的关联性,获取充足的、严谨的科学依据,支持风险严重程度定义。

以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号