首页> 中国专利> 一种企业信用评估及信用传导方法及装置

一种企业信用评估及信用传导方法及装置

摘要

本申请公开了一种企业信用评估及信用传导方法。从多种数据源获取企业数据,至少包含企业的持股数据。从一个或多个维度计算每一家企业的企业信用初始得分、实力、风险。构建每个企业的母公司和子公司关系图。计算表征所有子公司的正面形象的子公司加权实力、表征所有子公司的负面形象的子公司加权风险;将每一家企业的母公司和/或子公司的实力和/或风险在该企业的母公司和子公司关系图中按照条件进行传导,得到每一家企业的企业信用最终得分。本申请实现了母公司、子公司的实力、风险向本公司的传导,由此得到的企业信用评估分数更为精准地反映了企业的信用状况。

著录项

说明书

技术领域

本申请涉及一种数据挖掘方法,特别是涉及一种利用多种数据源(企业工商数据、舆情数据、年报数据等)综合评估企业信用并将企业信用在企业间传导的数据挖掘方法。

背景技术

数据挖掘(data mining)是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

企业工商数据是指企业在申请登记时向国家工商行政管理局提交的相关企业信息,主要包括企业名称、企业股东及出资比例(即股东的基本情况,如名称或者姓名、出资占比)、企业高管信息(董事、法人等)、企业地址信息、企业注册资本等。

舆情数据是指在民众对社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度的舆论情况的数据。

年报数据是每年出版一次的定期刊物,又称年刊;例如包括上市公司的年度财务报表等。

图论(graph theory)是数学的一个分支,它以图(graph)为研究对象。图论中的图是由若干给定的节点(也称顶点、点、vertice、node或point)及连接两点的边(也称线、edge、arc或line)所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用节点代表事物,用边表示相应两个事物间具有某种关系。

图挖掘(Graph Mining)是指利用图模型从海量数据中发现和提取有用知识和信息的过程。通过图挖掘所获取的知识和信息已广泛应用于各种领域,如商务管理、市场分析、生产控制、科学探索和工程设计。

线性模型是指在给定有多个属性描述的示例的情况下,试图学得一个通过属性的线性组合来进行预测的函数。许多功能强大的非线性模型可以在线性模型的基础上通过引入层级结构或高维映射而得。

现有的企业信用评估方法存在如下问题。

第一,评估中考虑维度不全面,一些确实影响企业信用的因素没有被纳入考虑范畴,导致信用评分不能完全反应企业信用的好坏。

第二,企业评分自身体系得出来的分数虽然准确,但是和人的直觉有偏差。

第三,在评估企业信用时,只会孤立的评估一家企业而没有考虑它的控股企业和持股企业,导致某些实际企业信用十分差的空壳公司的企业评分会很高。即使有考虑到股权投资的因素,股东的二度、三度等更深层次投资关系也没被考虑到。

发明内容

本申请所要解决的技术问题是提供一种企业信用评估方法,其中母公司和子公司的信用状况会影响到本公司的信用分数即信用会传导。

为解决上述技术问题,本申请提出了一种企业信用评估及信用传导方法,包括如下步骤。步骤S1:从多种数据源获取企业数据,至少包含企业的持股数据。步骤S2:从一个或多个维度计算每一家企业的企业信用初始得分;每个维度下面包含一项或多项指标;表征企业正面形象的维度及其中指标的得分为正数,这些维度得分的总和为企业的实力;表征企业负面形象的维度及其中指标的得分为负数,这些维度得分的总和为企业的风险。步骤S3:构建每个企业的母公司和子公司关系图,确定每一家企业的子公司和母公司。步骤S4:计算表征所有子公司的正面形象的子公司加权实力、表征所有子公司的负面形象的子公司加权风险;将每一家企业的母公司和/或子公司的实力和/或风险在该企业的母公司和子公司关系图中按照下面的条件进行传导,得到每一家企业的企业信用最终得分。当子公司加权实力>本公司的实力时,子公司的实力向本公司传导;否则不传导。当子公司加权风险的绝对值>本公司的风险的绝对值时,子公司的风险向本公司传导;否则不传导。当母公司实力>本公司的实力时,母公司的实力向本公司传导;否则不传导。当母公司风险的绝对值>本公司的风险的绝对值时,母公司的风险向本公司传导;否则不传导。上述方法实现了母公司、子公司的实力、风险向本公司的传导,由此得到的企业信用评估分数更为精准地反映了企业的信用状况。

进一步地,所述步骤S1中,多种数据源包括企业工商数据、舆情数据、年报数据的任一种或多种。

可选地,所述步骤S1中,在获取企业数据后还包括处理脏数据;脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑;脏数据的处理方式为下面任一种;第一种是基于统计学和机器学习方式剔除脏数据使其不参与模型计算;第二种是人为纠正,纠正后的数据进入模型参与计算。

可选地,所述步骤S1中,在获取企业数据后还包括处理缺失数据;缺失数据的处理方式为下面任一种;第一种是直接剔除缺失数据不进入模型计算;第二种是根据业务含义为缺失数据补充数据。

进一步地,所述步骤S2中,所述维度包括如下一种或多种:成长性、知识产权、企业规模、风险状况、经营质量、资本背景;只有风险状况维度及其中的指标得分是负数,其余维度及其中的指标得分均是正数。

进一步地,所述步骤S2进一步包括如下子步骤。子步骤S21:计算每一家企业在每一项指标上的得分。子步骤S22:计算每一家企业在每个维度上的得分。子步骤S23:计算每一家企业的企业信用初始得分。

进一步地,所述子步骤S21或者采用排序得分法,即在一级行业或者二级行业内对某一指标排序,根据排序后的排名按照所在分位数为每一家企业的该项指标评分;或者采用条件得分法,即企业的某一指标满足指定条件为该企业给予对应得分。

进一步地,所述排序得分法中,为每一家企业查询该企业所在的二级行业,当二级行业内企业数量低于阈值时,将该项指标在一级行业内排序;否则均在该企业所在二级行业内为该项指标进行排序。

进一步地,所述子步骤S22是将每一家企业在每个维度下的所有指标得分与该指标的权重相乘后求和,得到该企业在每个维度上的分数。

进一步地,所述子步骤S23或者对每一家企业的所有维度的分数求和之后记为x,再经过函数y=f(x)得到y;或者将每一家企业的每个维度得分与该维度的权重相乘后求和,记为x,再经过函数y=f(x)得到y;y为每一家企业的企业信用初始得分;f(x)为单调递增函数。

进一步地,所述步骤S3中,所述企业的母公司和子公司关系图是指以每家企业的id作为企业节点,以每家企业中高管人员的id作为人节点、企业和人之间的控股关系作为企业节点和人节点之间的边、企业和企业之间的控股关系作为企业节点和企业节点之间的边所构建的图,对于每一家企业挖掘它的向上和向下的多层股权穿透关系。

进一步地,所述步骤S3中,在初始图中对每一家企业向上、向下最多挖掘6层股权穿透关系从而找到该企业的母公司和子公司后,形成该企业的母公司和子公司关系图,并将该股权穿透关系存入股权穿透关系表中。

进一步地,所述步骤S4进一步包括如下子步骤。子步骤S41:将本公司向上穿透一层或多层且持股比例超过50%的企业作为母公司,将本公司向下穿透一层或六层且股权穿透后持股比例超过50%的企业作为子公司。子步骤S42:计算表征本公司的所有子公司的正面得分的子公司加权实力Sz、表征本公司的所有子公司的负面得分的子公司加权风险Rz、表征本公司的所有子公司的加权资本占比的加权资本比P。子步骤S43:当子公司加权实力>本公司的实力时,子公司的实力向本公司传导,子公司实力传导分数ZP=子公司实力传导权重×P×(Sz-本公司的实力);否则不传导,子公司实力传导分数ZP为零。当子公司加权风险的绝对值>本公司的风险的绝对值时,子公司的风险向本公司传导,子公司风险传导分数ZN=子公司风险传导权重×P×(Rz-本公司的风险);否则不传导,子公司风险传导分数ZN为零。当母公司实力>本公司的实力时,母公司的实力向本公司传导,母公司实力传导分数MP=母公司实力传导权重×母公司对本公司的持股比例×(母公司的实力-本公司的实力);否则不传导,母公司实力传导分数MP为零。当母公司风险的绝对值>本公司的风险的绝对值时,母公司的风险向本公司传导,母公司风险传导分数MN=母公司风险传导权重×母公司对本公司的持股比例×(母公司的风险-本公司的风险);否则不传导,母公司风险传导分数MN为零。子步骤S44:根据每一家企业的企业信用初始得分y,并考虑子公司对本公司的风险与实力传导分数、母公司对本公司的风险与实力传导分数,计算每一家企业的企业信用最终得分YY;YY=y+ZP+MP+ZN+MN。

进一步地,所述子步骤S43中,子公司风险传导权重<子公司实力传导权重;母公司风险传导权重>母公司实力传导权重。

可选地,在步骤S1和步骤S2之间还包括步骤S15:转化离散型变量;采用以下两种方式的任一种;第一种是根据变量不同类别映射至对应的数值,使用映射过后的数值进入模型计算;第二种是将变量按规则分桶,将每个桶内数据映射至对应的数值,使用映射过后的数值进入模型计算。

与所述企业信用评估及信用传导方法相对应地,本申请还提出了一种企业信用评估及信用传导装置,包括数据获取单元、初始计算单元、图构建单元和传导计算单元。所述数据获取单元用来从多种数据源获取企业数据,至少包含企业的持股数据。所述初始计算单元用来从一个或多个维度计算每一家企业的企业信用初始得分;每个维度下面包含一项或多项指标;表征企业正面形象的维度及其中指标的得分为正数,这些维度得分的总和为企业的实力;表征企业负面形象的维度及其中指标的得分为负数,这些维度得分的总和为企业的风险。所述图构建单元用来构建每个企业的母公司和子公司关系图,确定每一家企业的子公司和母公司。所述传导计算单元用来计算表征所有子公司的正面形象的子公司加权实力、表征所有子公司的负面形象的子公司加权风险;还将每一家企业的母公司和/或子公司的实力和/或风险在该企业的母公司和子公司关系图中按照下面的条件进行传导,得到每一家企业的企业信用最终得分。当子公司加权实力>本公司的实力时,子公司的实力向本公司传导;否则不传导。当子公司加权风险的绝对值>本公司的风险的绝对值时,子公司的风险向本公司传导;否则不传导。当母公司实力>本公司的实力时,母公司的实力向本公司传导;否则不传导。当母公司风险的绝对值>本公司的风险的绝对值时,母公司的风险向本公司传导;否则不传导。

本申请取得的技术效果是:利用图计算将企业信用在具有股权关系的企业之间传导并得出企业信用最终得分,可以避免出现子公司信用极差但母公司信用优秀等情况,空壳公司规避信用风险的行为在本申请的技术方案下将无法隐藏。

附图说明

图1是本申请提出的企业信用评估及信用传导方法的流程示意图。

图2是所述步骤S3的流程示意图。

图3是所述步骤S5的流程示意图。

图4是所述步骤S5的一个示例的示意图。

图5是本申请提出的企业信用评估及信用传导装置的结构示意图。

图中附图标记说明:数据获取单元1、初始计算单元2、图构建单元3、传导计算单元4。

具体实施方式

请参阅图1,本申请提出的企业信用评估及信用传导方法包括如下步骤。

步骤S1:从多种数据源获取企业数据,至少包含企业的持股数据。所述多种数据源包括企业工商数据、舆情数据、年报数据等。所述获取方式例如是通过网络爬虫从多种数据源爬取数据并将数据整理成表存储起来,例如存储到数据仓库中。所述企业的持股数据包括:本企业的股东是哪些实体(企业、个人等);本企业作为股东持有哪些实体的股份。

优选地,这一步还包括处理脏数据(dirty read)和缺失数据。脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。对于脏数据,处理方式有两种。第一种是基于统计学和机器学习方式剔除这部分数据使其不参与模型计算。第二种是对其人为纠正,纠正后的数据进入模型参与计算。对于缺失数据,处理方式也有两种。第一种是直接剔除这些缺失的数据不进入模型计算。第二种是根据业务含义为这些缺失数据补充数据,例如使用0填充、使用均值填充、使用中位数填充等。

步骤S2:从一个或多个维度计算每一家企业的企业信用初始得分。所述维度例如包括如下一种或多种:成长性、知识产权、企业规模、风险状况、经营质量、资本背景。每个维度下面包含一项或多项指标。表征企业正面形象的维度及其中指标的得分为正数,这些维度得分的总和为企业的实力。表征企业负面形象的维度及其中指标的得分为负数,这些维度得分的总和为企业的风险。优选地,只有风险状况这个维度下的指标得分是负数,其余维度下的指标得分均是正数。这一步的计算方式例如采用适用于大规模数据处理的统一分析引擎(unified analytics engine)Apache Spark。

请参阅图2,所述步骤S2进一步包括如下子步骤。

子步骤S21:计算每一家企业在每一项指标上的得分。例如采用以下两种方式的任一种。第一种是排序得分法,即在一级行业或者二级行业内对某一指标(称为指定指标)排序,根据排序后的排名按照所在分位数(quantile,也称分位点)为每一家企业的该项指标评分。所谓一级行业、二级行业,是中华人民共和国国家标准国民经济行业分类(GB/T4754—2017)中所罗列的行业,根据该标准为企业设定其所在行业。为每一家企业设定所在行业具体到该企业所在的二级行业,当二级行业内企业数量低于阈值时,将这些指定指标在一级行业内排序;否则均在该企业所在二级行业内为指定指标进行排序。其中对指定指标排序或者是对该指定指标直接排序(非去重排序),或者是对该指定指标去除重复值后进行排序(去重排序)。第二种是条件得分法,即企业的某一指标满足指定条件为该企业给予对应得分。

子步骤S22:计算每一家企业在每个维度上的得分。这是指将每一家企业在每个维度下的所有指标得分与该指标的权重相乘后求和,得到该企业在每个维度上的分数。

子步骤S23:计算每一家企业的企业信用初始得分。例如采用以下两种方式的任一种。第一种是对每一家企业的所有维度的分数求和之后记为x,再经过函数y=f(x)得到y。第二种是为每个维度分配权重,将每一家企业的每个维度得分与该维度的权重相乘后求和,记为x,再经过函数y=f(x)得到y。以上两种计算方式得到的y即为每一家企业的企业信用初始得分,表征未引入股权穿透的企业信用评分。其中,f(x)要求为单调递增函数。例如f(x)=200+0.8x,其取值范围例如为[200,1000]。

步骤S3:构建每个企业的母公司和子公司关系图,确定每一家企业的子公司和母公司。可选地,在每个企业的母公司和子公司关系图中,为每个企业节点附加该企业的企业信用初始得分(即步骤S2计算出的y值)作为该企业节点的属性。

所述企业的母公司和子公司关系图是指以每家企业的id(标识)作为企业节点,以每家企业中高管人员的id作为人节点、企业和人之间的控股关系作为企业节点和人节点之间的边、企业和企业之间的控股关系作为企业节点和企业节点之间的边所构建的初始图,在初始图中对于每一家企业挖掘它的向上和向下的多层股权穿透关系从而找到该企业的母公司和子公司后形成的图。

优选地,考虑到实际计算和存储的限制,不对每一家企业的股权穿透关系进行无限制挖掘,而是限制边的深度。例如在初始图中对每一家企业向上、向下最多挖掘6层股权穿透关系从而找到该企业的母公司和子公司后,形成该企业的母公司和子公司关系图,并将该股权穿透关系存入股权穿透关系表中。

优选地,步骤S3是在计算机集群中为每家企业建立一张图,例如采用ApacheSpark建立图,并采用分布式计算以加快计算速度。这是由于将所有企业的股权关系生成图效率低且实现困难,因此对每家企业单独生成图处理,以提高效率。

步骤S4:将每一家企业的母公司和/或子公司的实力和/或风险在该企业的母公司和子公司关系图中传导,传导的规则是:(1)当子公司加权实力>本公司的实力时,子公司的实力向本公司传导;否则不传导;(2)当子公司加权风险的绝对值>本公司的风险的绝对值时,子公司的风险向本公司传导;否则不传导;(3)当母公司实力>本公司的实力时,母公司的实力向本公司传导;否则不传导;(4)当母公司风险的绝对值>本公司的风险的绝对值时,母公司的风险向本公司传导;否则不传导;得到每一家企业的企业信用最终得分。

请参阅图3,所述步骤S4进一步包括如下子步骤。这里按照图4所示的示例进行说明。请参阅图4,假设母公司为M,本公司为A,三家子公司分别为Z1、Z2和Z3。K为股比,即持股企业或个人在被持股企业中的股权占比。C为注册资本,S为实力,R为风险。其中实力S为企业的所有得分为正数的维度的得分的总和,为正数。风险R为企业的所有得分为负数的维度的得分的总和,为负数。

子步骤S41:对本公司A仅向上穿透一层股比K超过50%的企业作为母公司M。如果某个公司M在本公司A的股权占比超过了50%,则该公司M是公司A的母公司。本公司A或者没有母公司,或者仅有一个母公司。对本公司A仅向下穿透六层,并只选择股权穿透后持股比例超过50%的企业作为子公司Z1、Z2和Z3。这里的向上穿透的层数、向下穿透的层数、子公司的数量仅为示例。优选地,为节省计算资源,向上穿透的层数≤6,向下穿透的层数≤6。这一步例如在股权穿透关系表中计算获得。股权穿透是指:例如本公司A持有公司M的80%的股份,而公司M持有公司N的70%的股份,而公司N持有公司P的60%的股份,则本公司A对公司P在股权穿透后的持股比例是33.6%。

子步骤S42:计算子公司加权实力、子公司加权风险、加权资本比。

子公司加权实力:该指标用来衡量本公司的所有子公司的正面得分,将在企业信用传导过程中对本公司的正面得分产生增益,其计算公式如下。Sz=[(K1/(K1+K2+K3))×S1]+[(K2/(K1+K2+K3))×S2]+[(K3/(K1+K2+K3))×S3]。其中,K1、K2、K3分别表示本公司A在三家子公司Z1、Z2、Z3中的股权占比;S1、S2、S3分别为三家子公司Z1、Z2、Z3的实力值。

子公司加权风险:该指标用来衡量本公司的所有子公司的负面得分,将在企业信用传导过程中对本公司的负面得分产生增益(使负面得分的绝对值增大),其计算公式如下。Rz=[(K1/(K1+K2+K3))×R1]+[(K2/(K1+K2+K3))×R2]+[(K3/(K1+K2+K3))×R3]。其中,R1、R2、R3分别为三家子公司Z1、Z2、Z3的风险值。Rz也是负数。

加权资本比:该指标用来衡量本公司的所有子公司的加权资本占比计算值,将在企业信用传导过程中用于决定分数传导的比例,其计算公式如下。P=(C1×K1+C2×K2+C3×K3)/C5,其中限制条件为P≤1;若P计算值超过1,则按1计算。C1、C2、C3、C5分别为三家子公司Z1、Z2、Z3和本公司A的注册资本。

子步骤S43:当子公司加权实力Sz>本公司的实力值S5时,子公司的实力向本公司传导;否则不传导,子公司实力传导分数ZP为零。

当子公司加权风险Rz的绝对值>本公司的风险值R5的绝对值时,子公司的风险向本公司传导;否则不传导,子公司风险传导分数ZN为零。

当母公司实力值S4>本公司的实力值S5时,母公司的实力向本公司传导;否则不传导,母公司实力传导分数MP为零。

当母公司风险值R4的绝对值>本公司的风险值R5的绝对值时,母公司的风险向本公司传导;否则不传导,母公司风险传导分数MN为零。

子公司的实力或风险向本公司传导的加权方式为:子公司风险传导权重<子公司实力传导权重。例如,子公司风险传导权重为10%,即子公司向本公司传导风险时,子公司风险传导分数ZN=10%×P×(Rz-R5)。又如,子公司实力传导权重为40%,即子公司向本公司传导实力时,子公司实力传导分数ZP=40%×P×(Sz-S5)。

母公司的实力或风险向本公司传导的加权方式为:母公司风险传导权重>母公司实力传导权重。例如,母公司风险传导权重为50%,即母公司向本公司传导风险时,母公司风险传导分数MN=50%×K4×(R4-R5)。又如,母公司实力传导权重为10%,即母公司向本公司传导实力时,母公司实力传导分数MP=10%×K4×(S4-S5)。

子步骤S44:根据每一家企业的企业信用初始得分y,并考虑子公司对本公司的风险与实力传导分数、母公司对本公司的风险与实力传导分数,计算每一家企业的企业信用最终得分YY,也就是企业信用传导后的得分,计算方式如下。YY=y+ZP+MP+ZN+MN。其中ZN和MN都是负数,表示减去子公司或母公司向本公司传导的总风险。

可选地,在步骤S1和步骤S2之间还包括步骤S15:转化离散型变量。离散型变量是指取值不是连续的变量,例如采用以下两种方式的任一种进行转化。第一种是根据变量不同类别映射至对应的数值,使用映射过后的数值进入模型计算。第二种是将变量按规则分桶,将每个桶内数据映射至对应的数值,使用映射过后的数值进入模型计算。

请参阅图5,本申请提出的企业信用评估及信用传导装置包括数据获取单元1、初始计算单元2、图构建单元3和传导计算单元4。图5所示装置与图1所示方法相对应。

所述数据获取单元1用来从多种数据源获取企业数据,至少包含企业的持股数据。

所述初始计算单元2用来从一个或多个维度计算每一家企业的企业信用初始得分。

所述图构建单元3用来构建每个企业的母公司和子公司关系图,确定每一家企业的子公司和母公司。

所述传导计算单元4用来将每一家企业的母公司和/或子公司的实力和/或风险在该企业的母公司和子公司关系图中传导,传导方式为:(1)当子公司加权实力>本公司的实力时,子公司的实力向本公司传导;否则不传导;(2)当子公司加权风险的绝对值>本公司的风险的绝对值时,子公司的风险向本公司传导;否则不传导;(3)当母公司实力>本公司的实力时,母公司的实力向本公司传导;否则不传导;(4)当母公司风险的绝对值>本公司的风险的绝对值时,母公司的风险向本公司传导;否则不传导;得到每一家企业的企业信用最终得分。

本申请提出的企业信用评估及信用传导方法及装置具有如下有益效果。第一,综合多种数据源,对多种数据进行统计、映射等处理,让企业评分考虑尽可能多的因素,解释性更强。第二,对评估得到的企业信用初始得分通过函数进一步转化,得到一个符合人的直觉的分数,同时保证原分数的有序性。第三,对于企业进行控股持股分析,建立图,同时让企业信用在图中传导,使子公司或母公司的实力或风险传导给本公司,得到企业信用最终得分。第四,将大数据技术和图计算结合,为每家企业生成图并在计算机集群中并行计算,运算速度快。

以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号