首页> 中国专利> 一种企业ESG三优信用模型构建方法及其装置

一种企业ESG三优信用模型构建方法及其装置

摘要

本发明提供了一种企业ESG三优信用模型构建方法及其装置,所述方法包括:步骤1,确定样本集,所述样本集中样本包括元信息;步骤2,根据所述元信息对模型指标因子进行数据收集,获取指标数据集;步骤3,对所述指标数据集进行标准化处理,获取标准化指标数据集;步骤4,所述标准化指标数据集经百分制缩放后,进行加权求和,获取指标得分数据集;步骤5,根据所述指标得分数据集对样本进行信用评分;步骤6,将所述信用评分进行区间划分,获取样本的信用评级。本发明创造性地将企业环境、社会和治理(ESG)信息纳入企业信用评级体系,可以有效识别债券主体的信用品质,更全面衡量债务人的整体信用。

著录项

  • 公开/公告号CN112232377A

    专利类型发明专利

  • 公开/公告日2021-01-15

    原文格式PDF

  • 申请/专利权人 中财绿指(北京)信息咨询有限公司;

    申请/专利号CN202011000208.5

  • 发明设计人 王遥;施懿宸;

    申请日2020-09-22

  • 分类号G06K9/62(20060101);G06Q40/08(20120101);

  • 代理机构32368 南京瑞华腾知识产权代理事务所(普通合伙);

  • 代理人邱欢欢

  • 地址 100089 北京市海淀区高梁桥斜街59号院5号楼412-4室

  • 入库时间 2023-06-19 09:33:52

说明书

技术领域

本发明涉及数据处理技术领域,具体而言,涉及一种企业ESG三优信用模型构建方法及其装置。

背景技术

债券是我国企业重要的融资手段之一。在过去的十多年里,中国债券市场得到长足的发展,债券市场规模已居全球第三位。但是,自2014年3月“11超日债”发生违约以后,我国债券违约案例数量增多,债券市场违约事件频发,信用风险正成为金融市场关注的焦点。2018年,中国信用债市场共有125支债券发生违约,涉及违约金额1209.61亿元;全年新增违约发行人44家;涉及违约债券规模和数量远超2017年;同时部分评级机构预警能力弱,高评级债券发生违约数量增加,并首次出现AAA级违约发行人。

从国外的成熟经验来看,评级方法应以定量分析为主,定性分析为辅。评级的可靠程度,更多的依赖于经验丰富、信息充分的分析人员的综合平衡意见。然而在我国,债券评级机构的评委只能依据事先确定的指标计算的实际值给出分数,而无法作出自己的综合判断,这样就不能对企业债券信用作出全面的评价。此外,在指标设置上,当前我国主要评级机构的评级体系也以财务指标为主,而忽视了对非财务指标ESG(环境、社会和治理指标)的关注。传统财务指标通常衡量的是企业过去绩效表现,债务人有动机隐藏真实经营状况,导致债务人和债权人之间存在信息不对称问题。

随着我国债券市场进一步推动市场化进程,未来信用违约将趋于常态化,做好信用风险防范至关重要。投资人应加强信用风险识别能力,强化内部风险管控,合理进行风险分散配置,警惕信用风险冲击转化为流动性冲击的可能性。当前传统信用评级模型在衡量债券主体时存在风险跟踪滞后性、风险预警能力薄弱、模型严谨性有待提高等问题,因而优化传统信用评级模型以更全面分析债券信用风险尤为重要。

发明内容

鉴于上述问题,本发明提供了一种企业ESG三优信用模型构建方法及其装置。

为解决上述技术问题,本发明采用的技术方案是:

一方面,本申请提供了一种企业ESG三优信用模型构建方法,包括:

步骤1,确定样本集,所述样本集中样本包括元信息;

步骤2,根据所述元信息对模型指标因子进行数据收集,获取指标数据集;

步骤3,对所述指标数据集进行标准化处理,获取标准化指标数据集;

步骤4,所述标准化指标数据集经百分制缩放后,进行加权求和,获取指标得分数据集;

步骤5,根据所述指标得分数据集对样本进行信用评分;

步骤6,将所述信用评分进行区间划分,获取样本的信用评级。

作为优选方案,所述模型指标因子分为三个层次,第一层次为一级指标,第二层次包括所述一级指标对应的二级指标,第三层次包括所述二级指标对应的三级指标,所述三级指标形成模型备选因子池。

作为优选方案,所述步骤3中对所述指标数据集进行标准化处理,具体包括:根据指标数值与企业无关和有关将所述模型备选因子池中的三级指标分为I类和II类,所述I类三级指标采用移动窗口Z值标准化,所述II类三级指标采用当季度Z值标准化。

作为优选方案,在所述步骤3之后,还包括对所述标准化指标数据集中的三级指标因子进行筛选,具体为:采用单变量逻辑回归模型检验单个三级指标因子的模型分类能力,以评价所述三级指标因子的显著程度,对显著性不高的三级指标因子进行剔除;对三级指标因子进行变型使得所有三级指标因子与发生负面信用事件呈负相关;对三级指标因子进行多重共线性诊断,对部分高度相关的三级指标因子进行剔除。

作为优选方案,还包括对模型进行优化,将样本集分为训练集和测试集;在训练集中对权重组合进行随机赋值后带入模型进行训练;计算模型在所述权重组合下的预测值与真实值的召回率;对每个训练集循环上述步骤多次,逐次记录权重组合对应下的召回率;将循环多次的召回率由大到小排列,取召回率排名靠前的对应权重组合计算权重组合的平均数,获取平均权重组合;将所述平均权重组合作为全局最优权重带入测试集中,获取测试集的召回率。

作为优选方案,在样本集中的三级指标存在数据缺失时,将数据为空值的数据点填充成0或均值。

第二方面,本申请提供了一种企业ESG三优信用模型构建装置,包括:

样本集确定模块,用于确定样本集,所述样本集中样本包括元信息;

指标数据集获取模块,用于根据所述元信息对模型指标因子进行数据收集,获取指标数据集;

标准化指标数据集获取模块,用于对所述指标数据集进行标准化处理,获取标准化指标数据集;

指标得分数据集获取模块,用于将所述标准化指标数据集经百分制缩放后,进行加权求和,获取指标得分数据集;

信用评分模块,用于根据所述指标得分数据集对样本进行信用评分;

信用评级模块,用于将所述信用评分进行区间划分,获取样本的信用评级。

作为优选方案,所述模型指标因子分为三个层次,第一层次为一级指标,第二层次包括所述一级指标对应的二级指标,第三层次包括所述二级指标对应的三级指标,所述三级指标形成模型备选因子池;根据指标数值与企业无关和有关将所述模型备选因子池中的三级指标分为I类和II类;

所述标准化指标数据集获取模块包括第一标准化模块和第二标准化模块,所述第一标准化模块用于对I类三级指标采用移动窗口Z值标准化;所述第二标准化模块用于对II类三级指标采用当季度Z值标准化。

作为优选方案,所述构建装置还包括指标因子筛选模块,用于对所述标准化指标数据集中的三级指标因子进行筛选;具体为:采用单变量逻辑回归模型检验单个三级指标因子的模型分类能力,以评价所述三级指标因子的显著程度,将显著性不高的三级指标因子进行剔除;对三级指标因子进行变型使得所有三级指标因子与发生负面信用事件呈负相关;对三级指标因子进行多重共线性诊断,对部分高度相关的三级指标因子进行剔除。

作为优选方案,所述构建装置还包括模型优化模块,用于将样本集分为训练集和测试集;在训练集中对权重组合进行随机赋值后带入模型进行训练;计算模型在所述权重组合下的预测值与真实值的召回率;对每个训练集循环上述步骤多次,逐次记录权重组合对应下的召回率;将循环多次的召回率由大到小排列,取召回率排名靠前的对应权重组合计算权重组合的平均数,获取平均权重组合;将所述平均权重组合作为全局最优权重带入测试集中,获取测试集的召回率。

与现有技术相比,本发明的有益效果包括:

(1)本申请创造性地将企业环境、社会和治理(ESG)信息纳入企业信用评级体系,可以有效识别债券主体的信用品质,更全面衡量债务人的整体信用。

(2)本申请加入ESG非财务绩效因子有助于弥补传统财务指标的缺陷,传统财务指标通常衡量的是企业过去绩效表现,而ESG更侧重于衡量企业当下及未来的发展潜质,有助于保护债权人利益,促进金融系统安全。

(3)本申请提供的模型使用三级指标单因子逻辑回归系数的检验p值离散化打分作为合成二级指标时的三级指标权重分配依据,一定程度上可以反映指标因子的显著程度进而反映其重要性(p值越小越显著),实现了最终在合并三级指标(二级指标)内部对各三级指标按其违约、降评预测能力的差异化处理。

(4)本申请提供的模型在构建过程中对三级指标检验多重共线性,并结合经济学意涵去除指标库中的同质化三级指标,控制了模型的复杂度,一定程度上增强了模型的健壮,另一方面对三级指标的合并化处理增强了模型的可理解性。

(5)本申请不依赖于专家打分,仅采取公开客观数据进行模型构建,进一步保证了模型的客观性和易操作性。

附图说明

参照附图来说明本发明的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本发明的保护范围构成限制。在附图中,相同的附图标记用于指代相同的部件。其中:

图1为本发明实施例的企业ESG三优信用模型构建方法的流程示意图;

图2为本发明实施例的企业ESG三优信用模型构建方法另一形式的流程示意图;

图3为本发明实施例的企业ESG三优信用模型构建方法的模型数据集分层示意图;

图4为本发明实施例的企业ESG三优信用模型构建装置的结构示意图。

具体实施方式

容易理解,根据本发明的技术方案,在不变更本发明实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

根据本发明的一实施方式结合图1示出。本申请提供了一种企业ESG三优信用模型构建方法,包括:

步骤S101,确定样本集,所述样本集中样本包括元信息;

步骤S102,根据所述元信息对模型指标因子进行数据收集,获取指标数据集;

步骤S103,对所述指标数据集进行标准化处理,获取标准化指标数据集;

步骤S104,所述标准化指标数据集经百分制缩放后,进行加权求和,获取指标得分数据集;

步骤S105,根据所述指标得分数据集对样本进行信用评分;

步骤S106,将所述信用评分进行区间划分,获取样本的信用评级。

本发明实施例中,将模型指标因子分为三个层次,第一层次为一级指标,第二层次包括一级指标对应的二级指标,第三层次包括二级指标对应的三级指标,三级指标形成模型备选因子池。

在步骤S103中,对指标数据集进行标准化处理,具体包括:根据指标数值与企业无关和有关将模型备选因子池中的三级指标分为I类和II类,I类三级指标采用移动窗口Z值标准化,II类三级指标采用当季度Z值标准化。

在步骤S103之后,还包括对标准化指标数据集中的三级指标因子进行筛选,具体为:采用单变量逻辑回归模型检验单个三级指标因子的模型分类能力,以评价三级指标因子的显著程度,对显著性不高的三级指标因子进行剔除;对三级指标因子进行变型使得所有三级指标因子与发生负面信用事件呈负相关;对三级指标因子进行多重共线性诊断,对部分高度相关的三级指标因子进行剔除。

此外,还包括对模型进行优化步骤,将样本集分为训练集和测试集;在训练集中对权重组合进行随机赋值后带入模型进行训练;计算模型在所述权重组合下的预测值与真实值的召回率;对每个训练集循环上述步骤多次,逐次记录权重组合对应下的召回率;将循环多次的召回率由大到小排列,取召回率排名靠前的对应权重组合计算权重组合的平均数,获取平均权重组合;将所述平均权重组合作为全局最优权重带入测试集中,获取测试集的召回率。

如图2所示,下面以第一个样本集为A股上市公司样本集(样本集A),第二个样本集为发债企业样本集(样本集B)为例,对一种企业ESG三优信用模型构建方法进行详细说明。

本发明实施例中,三优信用模型的构建及训练需要使用两个样本集。第一个样本集为A股上市公司样本集(样本集A),包含:2014年初至2019年底每季度末的存量A股上市公司。第二个样本集为发债企业样本集(样本集B),包含: 1)在2016年1月1日至2019年12月31日四年内发生了负面信用事件(包含债券违约及主体信用评级降级)的发债企业;2)以上发债企业对应的在其负面信用事件发生所在季度内未发生负面信用事件的匹配发债企业。样本集A主要用于数据标准化、信用评分总体分布、评分评级映射分位点计算;样本集B主要用于模型训练(参数优化)、评价及最终模型确定。

注:考虑到本模型关键指标ESG因子(使用中财大绿金院ESG数据)的覆盖年份为2016年至2019年,且这四年内出现负面信用事件的企业数量较多,可用于模型构建的样本数量有所保证,故样本集B的取样时间定为2016年初至2019 年底。与之对应的样本集A的取样时间则定为2014年初至2019年底。

样本集A的样本形式为上市公司/季度末日期(e.g.平安银行/2014年3月 31日)。其构建方式比较直接:从wind获取2014年一季度至2019年四季度(共计6年24期)每季度末(3月31日、6月30日、9月30日、12月31日)的A 股存量上市公司名单即可。

样本集B的样本形式为发债企业/季度末日期(e.g.西王集团/2019年12 月31日)。发债企业有两种类型,类型I为在样本集B取样时间段内(2016/1/1 至2019/12/31)发生了负面信用事件(包含债券违约及主体信用评级降级)的发债企业(分类问题中的1样本);类型II为类型I中发债企业对应的在其负面信用事件发生所在季度内未发生负面信用事件的匹配发债企业(分类问题中的0样本)。

以下分别就类型I、类型II的发债企业取样进行说明。

类型I中的发债企业取样比较直接:从wind数据库获取所有在取样时段内发生了债券违约或者主体信用评级降级的发债企业,样本季度为其负面信用事件发生日期所在季度(以季度末日期标记)(e.g.西王集团在2019/12/30发生债券违约,则其被取样为类型I样本:西王集团/2019年12月31日)。

注:一家发债企业在某一季度可能发生多次负面信用事件(e.g.连续降级、多只债券违约),考虑到三优信用模型的考察对象为发债企业而非债券,同一家发债企业在同一季度内应是等价的,故本模型采用一家发债企业在一季度内只取样一次的取样方式以避免样本重复。

类型II中发债企业取样相对复杂:对类型I中的每一个发债企业样本,按照企业性质相似原则(e.g.行业分类、发债类型相同)匹配一系列在其样本季度内未发生负面信用事件的发债企业。

具体匹配规则包含以下3个条件:

1)企业行业条件:匹配样本发债企业与其原样本发债企业属于同行业(wind 二级行业),用于保证匹配企业样本与原企业样本在企业经营范围上的可比性,使用wind二级行业分类是为了在企业行业数据尽可能完整的前提下(证监会行业分类对发债企业覆盖不全)更精准地对行业进行匹配(wind一级行业分类过于粗放);

2)债券类型条件:匹配样本发债企业在其样本季度内存在与其原样本发债企业同季度内存续债券相同债券类型(wind二级债券类型)的存续债券,用于保证匹配企业样本与原企业样本作为发债主体在债务性质上的可比性,使用 wind二级债券类型是为了在债券类型数据尽可能完整的前提下更精准地对债券类型进行匹配;

3)样本总量控制条件:匹配属于A股上市公司的样本发债企业,用于限制匹配样本数量并保证其指标因子(e.g.ESG、财务指标…)的数据可得性。若不加以限制,匹配样本数量将远大于原样本数量(1000倍以上),极端非平衡的样本集不利于模型训练。

以下用一个例子来说明上述匹配过程(仅供参考,非实际匹配结果)。

考虑类型I样本:西王集团/2019年12月31日。西王集团的wind二级行业为“食品、饮料与烟草”(条件1);在2019年四季度存在wind二级债券类型为“一般公司债”、“超短期融资债券”的存续债券(条件2),通过以上条件在2019年四季度内未发生负面信用事件的A股上市(条件3)发债企业中匹配可得5个类型II样本。具体如表1.1所示:

表1.1类型II匹配样本示例

注:与类型I样本处理一致,类型II中一家发债企业在一季度内也只取样一次(可能被匹配多次,仅取样一次)。

样本集B共有类型I样本:714(企业/季度);类型II样本:5782(企业/ 季度);总体样本:6496(企业/季度)。

下面对模型构建、训练所用原始数据的范围、结构及其收集、整理过程进行讨论。

样本集包括样本对象自身的一些“元信息”(与样本对象自身某些属性相关的信息,通常不作为模型构建的直接输入)以及直接参与模型构建、训练过程的“模型指标因子”数据。前者常作为键(参数)用于后者的数据获取。

样本元信息主要涉及上市公司样本(样本集A)、发债企业样本(样本集B) 三个方面的属性,可以概括为:1)企业主体信息;2)企业所发行的证券信息; 3)日期信息。

企业主体信息包含:公司代码、证监会门类行业、省份、信用事件信息。其中,公司代码用于企业样本识别(自编码,亦可使用统一社会信用代码代替),证监会门类行业及省份信息用于相应行业发展、区域经济指标的数据获取。信用事件信息仅适用于样本集B,用于区分在样本季度内发生了债券违约、主体信用评级降级的样本(分别标记为“违约”、“降评”)与其余样本(标记为“无”),其中“违约”、“降评”对应分类问题中的1样本,“无”对应分类问题中的0 样本。

企业所发行的证券信息包含:证券代码、证券简称。其中,证券代码用于财务指标的数据获取,若样本公司为上市公司则证券代码为其股票代码,若为非上市发债企业则为其所发债券代码。证券简称信息为非必须信息,可作为证券代码的补充信息,方便对证券进行人工识别。

日期信息包含:样本日期、信用事件日期、信用事件季度、信用评级季度、理论最新报告期,实际最新报告期。其中,第一个日期适用于样本集A,后5个日期适用于样本集B。样本日期用于指示样本集A中样本企业的生效季度日期(以季度末日期标记),即该样本属于哪一年哪一季度的A股上市公司名单。例如样本形式为平安银行/2014年3月31日,其中2014年3月31日即为样本日期。样本日期将作为日期信息参数用于样本集A的指标因子数据获取。信用事件日期标记样本集B中类型I样本发债企业的负面信用事件发生日期(不适用于类型 II样本),信用事件季度为信用事件发生日期所在季度的季度末日期(对于类型II中的匹配发债企业样本,信用事件季度为其被匹配发债企业样本的信用事件季度)。信用评级季度标记该样本的三优信用评级对应的评级季度(一年四次、季度频率,季度末日期标记),即该样本用于给出哪一年哪一季的三优信用评级。理论最新报告期则是站在信用评级季度日期的历史视角上,理论上可得的最新财务/宏观报告期(3/31:一季报;6/30:中报;9/30:三季报;12/31:年报),理论最新报告期为信用评级季度的上一季度(披露日期通常在报告期的下一季度)。实际最新报告期对应实际可得的最新报告期,通常情况下和理论最新报告期一致,少数情况早于理论最新报告期一至多期(报告推迟披露)。对信用评级季度及宏观/财务数据报告期进行区分是为了在历史视角下不引入未来信息,确保模型中所用数据能够符合历史真实情况。

上述元信息类型及用途总结如下:

元信息收集举例:

表1.2、表1.3分别对样本集A及样本集B的元数据收集情况进行示例:

表1.2样本集A元信息收集示例

表1.3样本集B元信息收集示例

三优信用模型以“三优信用”为核心,从1)企业信用环境;2)企业信用能力3)企业信用品质三个维度对企业信用等级进行刻画。其指标体系可分为三个层次,第一层次包括上述信用环境、信用能力、信用品质三个一级指标。第二层次包含上述三个一级指标对应的具体细分二级指标。其中,信用环境包括国民经济、市场因子、行业发展和区域经济环境四个方面的宏观经济指标;信用能力包括获利能力、偿债能力、经营能力、发展能力、债务结构和Altman Z值预警六个方面的微观财务指标;信用品质包括环境、社会和公司治理三个方面的ESG 指标。第三层次包含实际反映评分样本二级指标表现的细分三级代理指标,具体三级指标个数及内容由模型构建特定步骤所确定。

如表1.4所示,在此三级指标体系下,一、二级指标数量及种类相对固定,三级指标数量及种类可能随具体的样本选择及模型构建方法而动态调整。

表1.4一、二级模型指标因子

三优信用模型中的样本信用评分,本质上就是由上述指标数据加权求和而成,各指标权重反映各指标在模型中重要程度、即该指标对负面信用事件的识别、分类能力。三优信用评级则是在保证同评级样本企业信用水平相当的前提下,通过某种映射关系对三优信用评分的离散化处理。不同于元信息仅作为辅助数据间接参与模型的构建、训练,模型指标因子数据将作为模型的原始输入直接参与三优信用评分、评级的计算。因此,作为模型指标体系中最为基础一环,三级指标因子的指标选择及数据收集尤为重要。

基于已有文献基础和参考国内外较为成熟的信用模型指标体系,结合数据的可得性,可以初步确定各二级指标下属三级指标形成模型备选因子池。入选备选池的指标应具有普适性,即对各类型企业适用,同时数据更新频率足够高,至少季度更新,以此满足模型指标对各类型企业样本的数据有效性。表1.5中列示了备选因子池的71个三级指标:

表1.5三级指标备选因子池

三级指标备选因子池中的绝大多数因子数据为公开数据,可以直接从wind 数据库获取,原始数据来源为国家统计局及企业财务报告。另有少数备选三级指标有其他特殊来源或需要自行计算,现对这些指标进行解释如下:

股票市场波动:沪深300(全A):HV50:季:该指标用于衡量中国股票二级市场的波动情况,为沪深300指数(中证全A指数)的历史波动率(50日)的季度平均值。该指标值越大,代表股票市场波动越大。

HHI:赫芬达尔—赫希曼指数,行业发展指标,一个行业的HHI为该行业内所有企业的市场份额的平方和,本模型使用计算公式如下:

其中:

HHI

X

X

S

HHI用于衡量一个行业的市场集中度,HHI越大(接近于1)行业的市场集中程度越高。

ESG评分总分:该指标数据来源为中财大绿金院,为被评分企业E、S、G各分项得分的加权求和。考虑到ESG得分为一个整体,因而在模型实际计算中将信用品质一级指标下属E、S、G三个二级指标合并为“ESG评分总分”这一单一指标进行处理。

下面对如何通过元信息为样本集A及样本集B收集相应的指标数据进行讨论,并对指标数据的收集时间跨度和频率进行说明。

三级指标备选池中的因子按数据获取所使用元信息参数不同可分为四类:

(1)仅使用日期参数:此类因子包含信用环境中的国民经济、市场因子二级指标下属的所有三级指标,指标值完全由日期决定(日期为季度日期),即对同一季度所有企业该类型指标完全相同。

(2)使用日期及地域参数:此类因子包含信用环境中区域经济环境二级指标下属两个三级指标,指标数值的获取依赖日期及地域(元信息中的省份)两个参数,同省份的所有企业同一季度该类型指标完全相同。

(3)使用日期及行业参数:此类因子包含信用环境中行业发展二级指标下属三个三级指标,指标数值的获取依赖日期及行业(元信息中的证监会门类行业) 两个参数,同行业的所有企业同一季度该类型指标完全相同。

(4)使用日期及公司参数:此类因子包含信用能力及信用品质各二级指标下属所有三级指标,为公司层面数据,指标数值由公司及日期参数决定。

样本集A包含2014年一季度至2019年四季度6年24期(按季度频率)的存量上市公司名单,对于此样本集中每一个样本(上市公司/季度末日期),使用元信息按上段所述四种类型(日期参数:样本日期、地域参数:省份、行业参数:证监会门类行业、公司参数:公司代码)对三级指标备选池中的所有因子进行数据收集,形成指标数据集A。其中,样本日期采用相对应的宏观/财务数据报告期(e.g.2016/3/31对应2016年度一季报)。

样本集B包含2016年初至2019年底发生过负面信用事件的发债企业及其对应的未发生负面信用事件的匹配发债企业。为比较样本的三优评级变化趋势,需对样本给出多期历史三优评级。由于信用事件日期之前指标数据可获取季度数不确定,考虑到数据可得性及样本数据的有效性,对样本集中的每一个样本(发债企业/季度末日期)收集三级指标备选池中的所有因子数据,以及该样本信用事件季度之前连续四个季度(对应元数据中的信用评级季度)的所有因子数据(可用于给出4期历史三优评级),最终形成指标数据集B。由此可将指标数据集B 分为四个数量相等的子集,每个子集包含样本集B的全部样本,按信用评级季度距信用事件季度的远近,分别记做“上一季度”子集、“上二季度”子集、“上三季度”子集、“上四季度”子集。

为了在给出信用评级时不引入未来信息,在每一个信用评级季度(季度末) 仅收集当时所能获取的最新指标数据。具体来说,使用理论最新报告期作为信用环境部分指标的时间参数(宏观经济指标通常在一季度内公布),使用实际最新报告期作为信用能力部分财务相关指标的时间参数(财务报告披露存在滞后现象)。若某样本连续四个信用评级季度中的某一期不存在可用财务报告以收集相关模型指标数据,或实际最新报告期距离信用评级季度日期过长(i.e.超过一年),则从指标数据集B删除该样本所有四期数据,以此保证剩余样本指标数据的完整性(四期数据)与实效性(一年以内)。

经此清洗筛选后,样本集B共有类型I样本:597(企业/季度);类型II 样本:5654(企业/季度);总体样本:6251(企业/季度)。与之对应的指标数据集B共有25004条(6251*4)记录。

指标数据收集举例:

以西王集团/2019年12月31日为例,收集其信用事件季度之前连续四个季度数据如表1.6中所示:

表1.6西王集团指标数据集B中的4期样本示例

针对信用能力指标,部分公司的财务指标数据时常会出现数据缺失的情况 (公司当期可得最新财务报告未对该指标进行披露),一种可能的原因是该指标仅在年报或半年报进行披露而最新报告期为一季报或三季报,二是该指标被中断披露亦或者从来就不披露。对于前一种情况,采取取用当前最新可用数据的思想,对缺失数据用之前最后可得指标数值进行填充,同时为保证数据的实效性,填充报告期间隔不得大于一年。

在三级指标的处理过程中,由于三级指标备选池中的不同指标间量纲与数量级差距较大,需进一步对数据进行标准化处理。举例来说,信用能力指标中的主营业务利润单位为万元、数值以万计,而HHI无单位、取值范围在0、1之间。若不加处理直接使用三级指标原始数据,则主营业务利润指标对模型的影响自然就比HHI指标大,但这种影响是由指标数值大小决定的,本质上并不能反映真实的指标重要程度。因此,为消除模型指标量纲与数量级的影响,需对模型指标原始数据进行数据标准化。本模型使用的数据标准化方法与常规的Z值标准化(i.e. (x-μ)/σ:μ、σ为指标x的均值和标准差)方法类似,但为保证模型指标标准化数值的一致性(i.e.同一企业在特定季度的指标标准化数值不因信用评级时间、信用评级对象所处样本集不同而改变),需采用如下特殊处理手段:

将三级指标备选池中的指标分为I、II两类,针对不同类型的指标采取不同标准化方式。其中I类指标包括信用环境中的国民经济、市场因子这两个二级指标及其下属全部三级指标(GDP growth(现价,累计同比),…,国债到期收益率利差:10年-6个月:季),此类指标在固定季度内的指标数值与公司无关;II 类指标包括I类指标以外的所有三级指标,此类指标在固定季度内的指标数值与公司有关。针对不同种类的三级指标,在标准化过程中采取不同的指标均值与标准差计算方式。

对于I类三级指标,采用20季移动窗口计算指标的均值与标准差,计算所得均值与标准差反映了该指标近5年的统计分布情况。指标标准化采用公式如下:

i∈类型I

其中:

注:采用20季是为了保证均值、标准差参数估计的有效性,即在样本足够多的情况下,尽可能使用较新的样本,避免使用过早的历史数据产生偏误。

对于II类三级指标,在指标数据集A中使用季度末存量A股上市公司名单计算指标当季度的均值与标准差。考虑到II类三级指标受极端值影响较大(尤其某些财务指标),在数据标准化之前应对原始数据做去极值处理。比较常用的去极值方法是“中位数去极值法”,公式如下:

i∈类型II

c∈季度t存量A股上市公司名单

其中:

n——距离倍数,一般取n=5

使用如下公式计算指标i季度t的均值与标准差:

i∈类型II

c∈季度t存量A股上市公司名单

其中:

N

最终标准化使用如下公式:

其中:

使用上述两种标准化方法分别对指标数据集A/B中的I/II类原始三级指标数值进行标准化处理形成标准化指标数据集A/B。经此处理后,各标准化三级指标理论上无量纲且数量级一致(均值为0,标准差为1)。

由于在对指标数据集B的II类指标进行数据标准化的过程中所用到的均值与标准差是在指标数据集A中求得的,而指标数据集B中的最早的信用评级季度为2014年四季度(信用事件季度为2016年一季度),故样本集A的存量A股上市公司名单需从2014年开始收集。标准化指标数据集A/B的形式如表1.7中所示:

表1.7标准化指标数据集示例

注:k,n分别为元信息数据列数与标准化三级指标数据列数

下面对三级指标中的有效因子进行讨论。

有效三级指标因子应该满足两个条件:第一是在经济逻辑上应该和企业信用水平存在一定相关性;第二是在实证中确实和企业信用水平存在比较明显的相关性,即对企业信用事件的发生(特别是负面的)可以起到一定的识别作用。在前面的章节中,已经分门别类地列举出了经济逻辑上应该和企业信用水平相关的备选三级指标因子集合,接下来将介绍如何从实证的角度验证和筛选有效因子。

对负面信用事件的识别是一个分类问题,采用单变量逻辑回归检验单个三级指标因子的模型分类能力进而评价其因子有效程度。单变量逻辑回归模型如下:

其中:

y——被解释变量:信用事件信息(违约或降评=1;无=0)

x——解释变量:标准化的备选三级指标因子

P(y=1|x)——给定公司备选三级指标因子取值对应发生负面信用事件的概率

z——对数优势比(Odds Ratio)

在标准化指标数据集B的“上一季度”子集中(信用事件季度上一季,因子时效性最高),对所有备选标准化三级指标使用上述逻辑回归模型估计其模型参数

逻辑回归中标准化三级指标因子的系数符号

单变量逻辑回归的实证结果显示,备选标准化三级指标池中的因子系数有正有负。考虑到同一二级指标下属正负三级指标因子之间的模型效用可能相互抵消,这并不是一个理想的结果(最终模型将使用正数权重,因子模型贡献方向须一致)。因此,考虑对三级指标因子进行适当变型使得所有三级指标因子与发生负面信用事件呈负相关

三级指标因子变型方法如下:

对于

对于

注:相反数处理即把因子反号

对于非比例形式(e.g.HHI)的显著正相关标准化三级指标因子,直接将原三级指标进行相反数处理(反号后因子显著程度不变)。

通过上述方法从标准化备选三级指标池筛选出的“有效”因子(变形后)在实证上和企业信用水平存在明显的负相关性。进一步考虑这些有效因子间的相关性,由于高度相关的指标对模型来说是同质的,且由高相关性带来的多重共线性可能会造成潜在的参数估计偏误,本着奥卡姆剃刀原则,应对部分高度相关指标进行剔除。

在标准化指标数据集B(变形处理后)的“上一季度”子集中计算各标准化三级指标的方差膨胀系数(VIF)以及相关性矩阵。“有效”标准化三级指标i 的方差膨胀系数计算方式如下:

当VIF

通过上述有效因子识别方法,最终从三级指标备选池中挑选出纳入模型的 52个三级指标因子,其相应的单变量逻辑回归结果展示如下:

表1.8优选三级指标因子及其单变量逻辑回归结果

注:在实际的因子检验过程中,按p-value的大小取值将因子的显著程度由高到低划分为如下5个等级。其中“*”号越多越显著,“**”及其以上等级可视为统计学意义上的高显著。出于经济学上的考虑,最终因子名单仍保留了部分实证上并不十分显著的因子。在后续章节中将使用上表中的三级指标因子(变形后的标准化因子)进行三优信用模型的构建与训练。

本节将讨论如何自下而上由标准化三级指标因子合成得到二级指标。合成过程主要包含:1)标准化三级指标百分制缩放;2)三级指标加权求和两个步骤。

1)标准化三级指标百分制缩放

为了将最后的信用得分限制在0-100(信用得分为二级指标得分的加权汇总),首先对标准化三级指标进行百分制缩放。具体采用映射公式如下:

其中:

CDF——标准正态分布的累计概率分布函数

百分制缩放得分所使用的映射为严格单调映射,最终缩放分数反映了因子所处的百分位数(可以看成对标准化三级指标给出一个0-100的“打分”),对于几个特殊情况有:CDF(-inf)=0;CDF(0)=50;CDF(+inf)=100。

空值处理:

对于指标数据集空值填充后剩下的部分空缺,其百分制标准化三级指标得分采取如下两种空值处理方案:

零值填充:使用0值即最差值进行填充(无数据披露则视为最差)。

均值填充:使用50即均值进行填充(无数据披露则视为平均水平)。

2)三级指标加权求和

在上述内容中,标准化三级指标的单变量逻辑回归p-value一定程度上可以反映指标因子的显著程度进而反映其重要性(p-value越小越显著)。以此为依据设置三级指标权重使得高(低)显著因子具有高(低)权重。由于不同三级指标p-value大小差距悬殊,不宜直接用其作为权重,考虑将其离散化处理。两种 p-value划分及划分对应分数如表2.1及表2.2所示:

表2.1 P值5级划分

表2.2P值10级划分

注:十级划分和五级划分的主要区别在于,十级划分较五级划分更加强调不同显著程度因子间的细微差别。

完成以上准备工作后,可使用以下公式计算二级指标得分:

其中:

w

score

对标准化指标数据集A/B,使用上述方法合成二级指标,形成二级指标得分数据集A/B。二级指标得分数据集A/B的形式如下表所示:

表2.3二级指标得分数据集形式示例

注:根据p值划分等级和空值填充方式的不同,二级指标得分数据集A/B 各有四种情况:p值划分×空值填充(2*2)。

下面将介绍使用如何使用上节所得二级指标得分数据对A股上市公司样本集(样本集A)和发债企业样本集(样本集B)进行信用评分。在对主体的信用评分的过程中,针对上节所得二级指标使用加权平均的方式进行运算,即每个二级因子均对应一个权重,通过二级因子与对应权重的乘积后求和得到主体信用评分。二级指标展示如下表:

二级指标权重的选择满足以下条件:

其中:

W

k——二级指标的总个数,无ESG指标时k=10,有ESG指标时k=11。

在此次模型构建的过程中,我们假设ESG因子作为可调控因子(可随时添加或删除),对预测发生负面信用事件(违约、降评)的准确度会有所不同,但对于所测样本包含ESG因子与否对模型预测准确度的影响程度还需进一步验证。因此,我们通过保持其他条件不变,仅添加或删除ESG因子进行验证,在验证过程中k的取值为:无ESG指标时共有10个二级指标(k=10),添加ESG指标时共有11个二级指标(k=11)。

在计算信用评分时,对于每个二级指标分别设置一个权重与之对应。初始阶段,对每个权重随机分配一个值(该权重值在0-1之间)使得二级指标权重组成一组权重(该组中所有权重之和为1),具体信用分数的计算方式为每个二级指标与对应权重乘积后加总所得。计算公式如下:

其中:

X

W

k——二级因子个数

在模型中对样本集A和样本集B中的所有样本进行信用评分计算时使用到矩阵运算:

最终所得m*1矩阵即为样本集中发债主体对应的信用分数。

其中:

X

下面将对发债企业样本集(样本集B)中主体进行信用评级的方式进行介绍,在进行信用评级之前需要注意以下三个方面:

权重计算方式:待评级样本(样本集B)训练集与A股上市公司样本集(样本集A)使用相同的权重组合计算主体信用分数。

信用等级划分:A股上市公司样本集(样本集A)在评分区间划分上使用百分位切割法,信用评级分为以下等级:“AAA,AA+,AA,AA-,A+,A,A-,BBB+, BBB,BBB-,BB+,BB,BB-,B+,B,B-,CCC,CC,C”,其中“AAA”代表主体信用等级最高,“C”代表主体信用等级最低。

评级日期范围:待评级样本(样本集B)与A股上市公司样本集(样本集A) 所使用的评级区间应当在同一个季度日期中。

在对定样本B中发债主体进行信用评级时,将样本中发债企业与A股上市公司样本集(样本集A)评级区间按照季度日期进行逐一映射,在同一季度中,查看样本B中发债主体信用得分在样本A所得到的评分区间的落点对应的评级,将此评级进行记录,得到样本B中发债主体在该季度的评级。

首先对A股按照日期进行采样,考虑到需要更全面的对A股上市公司进行采样,在本模型中,我们进行两种时间间隔进行采样:

方式一:对A股样本主体同一季度采样,例如:对A股样本2019年第四季度采样时,选择季度日期为2019年12月31日(使用季度末日期代表一个季度, eg:2019年第一季度对应2019年3月31日)。

方式二:对A股样本主体前四季度采样,例如:对A股样本2019年第四季度采样时选择季度为2019年第一季度、2019年第二季度、2019年第三季度、2019 年第四季度共计四个季度。

为了保证样本中主体评级最优和最劣的个数保持在一个合适的范围,评级区间的划分方式按照百分位数所对应样本分位点进行划分,即在A股上市公司样本集(样本集A)中运用19个评级进行划分。使用19个评级的原因是因为该评级划分方式评级更加细致,在市场上接受度高。其对应的百分位与所划分评级如下表:

举例:本例中使用包含ESG数据、权重组中各项二级指标对应的权重用均值表示1/11*100%=9.091%的模型。对2019年第四季度的A股样本中,将发债主体信用得分按照由大到小的顺序进行排列,根据上述百分位数算出对应样本的分位点,并构建出相对应区间。

评级区间按照左开右闭的原则,左边点位为该区间的下限,右边点位为该区间的上限。为保证所有分位数构建的信用评级区间能够覆盖到0-100的分值,将计算得到的分位点的最低百分位数(0.0526)与最高的百分位数(1.0)所对应的分位点值分别替换城0与100,同时将区间所对应的评级按照顺序由高到低划分为“AAA”至“C”共计19个等级区间。

依照信用评分的计算方法,我们能够得到样本主体的信用评分,并按照报表日期找到对应季度的A股区间。将日期索引匹配后,在评级区间内找到该主体信用评分所在的区间,并将区间对应信用评级输出,从而得到样本B发债主体对应的信用评级。

评级样本介绍:模型中所用到的待评级样本B按时间分类共有四个:“上一季度”、“上二季度”、“上三季度”与“上四季度”,在模型中,考虑到数据在时间维度上的有效性与可比性,我们选择了“上一季度”与“上二季度”这两个相邻季度内的数据进行测试。

评级流程介绍:计算A股上市公司样本集(样本集A)中信用评级区间。对“上一季度”与“上二季度”两个待测样本中发债主体信用得分在A股评级区间按照季度进行映射后,分别得到两样本中主体信用得分在该区间的信用评级。

为方便后续计算需要,按照以下评级编码表,对发债主体的信用评级打上相应编码。

评级编码表示例:

下面对评级举例说明。

样本介绍:

1)信用评分区间:包含ESG二级指标,P值10级划分的样本集A。

2)权重:按照各项二级指标均分的权重。

3)待评样本:“上一季度”、“上二季度”P值10级划分两个数据集。

4)空值填充方式:均值填充。

待评样本元信息如下表:

评级结果及评级编码如下表:

上表将三家样本的评级与对应编码进行展示,由上表我们可以看到,对于“19 西王SCP001”这只债券的发债主体西王集团,其发生负面信用事件的日期为 2019/12/30,上二期匹配季度为2019/3/31,在该季度上对应的评级为C对应编码为19,上一期匹配季度为2019/6/30,在该季度上对应的评级为C对应编码为 19,使用上二期编码减去上一期编码得到该主体在该时间段内的编码变化为0,表明该主体在2019/3/31至2019/6/30两个评级时间段内,评级维持在C等级,并没有发生变化。

对于“18皖经建MTN003”这只债券的发债主体安徽省华安外经建设(集团) 有限公司,其发生负面信用事件的日期为2019/12/24,上二期匹配季度为 2019/3/31,在该季度上对应的评级为B对应编码为15,上一期匹配季度为 2019/6/30,在该季度上对应的评级为B-对应编码为16,使用上二期编码减去上一期编码得到该主体在该时间段内的编码变化为-1,表明该主体在2019/3/31 至2019/6/30两个评级时间段内,评级发生下降。

对于“H6凯迪03”这只债券的发债主体凯迪生态环境科技股份有限公司,其发生负面信用事件的日期为2019/12/16,上二期匹配季度为2019/3/31,在该季度上对应的评级为BB-对应编码为13,上一期匹配季度为2019/6/30,在该季度上对应的评级为BB+对应编码为11,使用上二期编码减去上一期编码得到该主体在该时间段内的编码变化为+2,表明该主体在2019/3/31至2019/6/30两个评级时间段内,主体信用评级发生上升。

上升从编码的变化来看,如果编码变化值为0,则表明该主体在此时间段内评级未发生改变,如果编码变小于0,则表明该主体评级在评级时间段内有所下降,如果编码变化值大于0,则表明该主体评级在评级时间段内有所上升。根据上述计算方式,能够得到样本主体在特定季度时对应评级与编码,通过编码对比能够反应样本主体评级的变化趋势。

下面对上述模型进行优化:

对于模型准确度的衡量上,该模型根据各种不同指标考量的侧重不同能够有所偏重的选择目标函数,本文将通过选择召回率作为优化的目标函数进行介绍,选择召回率作为目标函数的原因在于召回率能够度量在实际发生违约的样本中,模型预测出发生违约与实际总违约数的比率,该比率越高,说明模型对实际发生违约的样本预测准确度越高。

对各个目标函数的介绍:

1)混淆矩阵表

上表为混淆矩阵,其作用在于记录样本实际值与模型预测结果的对应关系,未发生负面信用事件(0)指主体在对应时间段内未发生违约或降评事件;发生负面信用事件(1)指主体在对应时间内发生违约或降评事件。当样本实际情况为0,模型预测结果为0时,我们称该结果为TN(True Negatives),当样本实际情况为0,模型预测结果为1时,我们称该结果为FP(False Positives),当样本实际情况为1,模型预测结果为0时,我们称该结果为FN(False Negatives),当实际情况为1,而模型预测结果同时为1时,我们称该结果为 TP(True Positives)。

2)召回率

Recall(召回率)=TP/(FN+TP)

召回率是指在发生负面信用事件样本中,模型预测结果正确个数与预测总个数的比值,该比值越大,表明模型对违约样本预测的正确里越高。因此,在模型的构建上,我们希望通过寻找到合适的权重组(W)使得模型最终召回率最大。

3)精准率

Precision(精准率)=TP/(TP+FP)

精准率是指,在模型的预测结果中,预测正确的比率占总总预测结果的比率,该比值越大,说明模型预测准确度越高。

4)准确度

Accuracy(准确度)=(TP+TN)/(TP+FN+FP+TN)

准确度主要衡量模型对样本的预测正确概率,准确度越高,模型预测效果越好。

5)F1分数

F1分数=2*(Recall*Precision)/(Recall+Precision)

F1分数主为召回率与精准率的调和平均值,能反映模型综合预测能力。

为了保证模型的准确性,我们把样本B数据集分为训练集与测试集两部分,其中,训练集用以模型的训练,其输出端为最优权重组合(Wopt),测试集用以对使用最优权重(Wopt)时模型预测准确度的判断,其输出端为目标函数的结果。我们将样本B中债券主体样本按照4:1随机划分成训练集与测试集,模型测试将分为两个阶段:训练阶段与测试阶段。训练样本与测试样本相互独立、互不影响。

通过对训练样本中主体分数计算并将其映射到A股同季度评级区间后,通过评级与编码的对应,我们能够得到主体在两个季度中评级相对应的编码。

编码变化=上二期评级对应编码-上一期评级对应编码

在模型预测结果的判别中,我们规定当主体评级编码发生变化(小于a值) 或者最近一期评级对应编码(大于b值)时该主体将被打上发生负面信用事件(1) 的标签:

a值反应样本信用等级编码的变化,其计算方式为样本上二期的信用等级编码减去样本上一期的信用等级编码,在本模型中,我们选择三个数字(0,-2) 来赋予a值,其意义如下表:

由a、b值对应表中的数据可以看出在选择一个a值时,将会有2个b值与之对应,因此a值与b值将会有2*2=4种类组合,如下表所示:

在本模型所测试的数据集中,针对三级指标的数据缺失性问题,选择两种缺失值的填充方案。

方案一:对三级指标合成二级指标前的数据进行0值填充;将数据为空值的数据点填充成0,并构成数据集。

方案二:对三级指标合成二级指标前的数据集进行均值填充;将数据为空值的数据点填充为该项三级指标在数据集中的均值,并构成样本数据集。

在三级指标合成二级指标过程中,我们采取了两种合成方式:方式一:将三级指标按P值进行5级划分;方式二:将三级指标按P值进行10级划分。

按照数据集中包含ESG数据与否,将上述数据集划分为无ESG数据集与包含 ESG数据集两种情况:情况一:无ESG数据的使用,在样本与A股数据集中并未引入ESG数据;情况二:包含ESG数据的使用,在样本与A股数据集中引入ESG 数据,并保持其他因子不变。模型数据集分层图如图3所示。

对权重组合进行随机赋值,在保证每个权重大于0,并且各项权重之和为1 的条件下,使用训练集进行模型训练,即在给定权重组合下计算模型预测值与真实值的召回率,对每个数据集的训练集中循环上述过程多次,并找到权重组对应下的模型召回率,并把循环多次的召回率由大到小排列后取召回率排名前三十的对应权重组计算该权重组的平均数,在得到平均权重组时,将其当做一个全局最优权重带入测试数据集中,计算测试数据集的召回率。该平均权重组即为模型在该数据集与负面信用事件划分下的最优权重,测试集中的召回率为最终模型的召回率。

下面将重点介绍在得到二级指标数据后,如何使用样本主体的二级指标得分进行主体信用评级的确定以及模型最优权重Wopt的计算与使用。模拟背景:某私募公司欲使用三优信用模型,对其投资标内的发债主体进行风险评估;要求:对标的中实际发生负面信用事件的主体的预测尽可能的准确且模型对实际发生负面信用事件的主体评判严格度适中;应对方式:考虑到该私募的需求,我们为模型设置如下条件:

1)模型使用召回率作为目标函数,保证召回率最大的情况下,找到其所对应的最优权重组合Wopt。

2)当主体评级在评价时期内至少下降三个等级或者近一期主体评级为CCC 及以下时,将该类主体标记为发生负面信用事件(1),该条件的设置能够保证模型对实际发生负面信用事件的主体评判严格度适中。

3)所选数据集:A股样本P值按照10级划分(样本A)、发生负面信用事件样本上一季度、上二期季度数据集,P值按照10级划分(样本B)。

4)训练集与测试集划分:负面信用事件主体样本(样本B)划分为训练集与测试集。

5)有无ESG数据:样本A、样本B均选择有ESG数据构成数据集。

6)采样日期:对样本A选择合适采样季度(在例中选择一季度采样方式)

最终,a、b取值为a=-2,b=16,当主体评级在评价时期内至少下降三个等级或者近一期主体评级为CCC及以下时,将该类主体标记为发生负面信用事件(对应分类问题中的1样本)。

在得到二级指标后,随机对权重组Wi在满足条件下进行取值(详见因子权重部分),并使用相同Wi对样本A主体进行信用评分计算,并将信用评分划分为19档后与信用评级区间相互对应。信用评级区间映射如下所示:

注:该表节选于样本A在2019年第四季度评分区间

在样本A中得到映射关系后,对所测试发生负面信用事件的上一季度样本与上二季度样本训练集中,按照相同权重组Wi对各项二级因子进行加权平均后获得样本中主体信用评分。根据样本A中得到的信用分数区间与信用评级映射关系,将上一季度样本与上二季度样本中主体按照信用分数映射得到样本B中发债主体在上一季度样本与上二季度的信用评级。对上一季度与上二季度样本信用评级只要满足以下规则之一则将发债主体定义为会发生负面信用事件(标记为1,下方同):

主体评级在上一季度与上二季度两个评价时期内至少下降三个等级(例如:主体评级从上二季度的“A”下降到上一季度的“BBB-”,我们把该主体标记为1)

近一期主体评级为CCC及以下(例如:主体评级在上一季度的评级为“C”,我们把该主体标记为1)

通过多次循环,将最终模型所获得召回率进行排序,考虑到使用单一召回率值进行最优权重组的判断可能会有误差,因此对召回率由高到低进行排序并取其前30对应权重组计算平均值,作为全局最优权重组Wopt。将上述最优权重Wopt 代入测试集中,得到模型在测试样本集中的召回率。召回率结果为0.89,最优权重Wopt组如下所示:

本模型可供不同风险偏好的客户进行使用:

风险控制的要求较高:该类客户对资产风险的容忍较低,投资标的更偏向于风险较低,回报稳定,在使用该模型对主体进行预测时推荐选择方案二:激进方案,此方案对样本降评档位和最近一期信用评级有较为严格的界定,便于更全面的发现投资标的中潜在的隐患。

风险控制要求不高:该类客户对资产风险的容忍较高,投资标的更偏向于风险较高的资产,追求高回报,在使用该模型对主体进行预测时推荐选择方案一:普通方案,此方案对样本降评与最近一期评级有较为宽松的界定,在保证违约判定准确率的前提下,便于投资标的扩充。

模型中优化目标的选择(召回率、精准率、准确度):

召回率:追求模型对样本中实际发生负面信用事件主体的判断准确率较高。

精准度:追求模型中预测样本中发生负面信用事件的判断准确率较高。

准确度:追求模型对未发生负面信用事件与发生负面信用事件的判断准确率较高。

F1 score:追求模型对实际发生负面信用事件与预测放生负面信用事件预测正确率之间的平衡。

方案分为普通方案与激进方案两种。

方案一:普通方案

方案二:激进方案

不同方案下训练集、测试集分类效果:

1)使用0值填充

2)使用均值填充

如图4所示,本申请还提供了一种企业ESG三优信用模型构建装置,包括:

样本集确定模块101,用于确定样本集,样本集中样本包括元信息;

指标数据集获取模块102,用于根据元信息对模型指标因子进行数据收集,获取指标数据集;

标准化指标数据集获取模块103,用于对指标数据集进行标准化处理,获取标准化指标数据集;

指标得分数据集获取模块104,用于将标准化指标数据集经百分制缩放后,进行加权求和,获取指标得分数据集;

信用评分模块105,用于根据指标得分数据集对样本进行信用评分;

信用评级模块106,用于将信用评分进行区间划分,获取样本的信用评级。

本发明实施例中,将模型指标因子分为三个层次,第一层次为一级指标,第二层次包括一级指标对应的二级指标,第三层次包括二级指标对应的三级指标,三级指标形成模型备选因子池;根据指标数值与企业无关和有关将模型备选因子池中的三级指标分为I类和II类。

上述标准化指标数据集获取模块103包括第一标准化模块和第二标准化模块,第一标准化模块用于对I类三级指标采用移动窗口Z值标准化;第二标准化模块用于对II类三级指标采用当季度Z值标准化。

进一步的,该构建装置还包括指标因子筛选模块,用于对所述标准化指标数据集中的三级指标因子进行筛选;具体为:采用单变量逻辑回归模型检验单个三级指标因子的模型分类能力,以评价所述三级指标因子的显著程度,将显著性不高的三级指标因子进行剔除;对三级指标因子进行变型使得所有三级指标因子与发生负面信用事件呈负相关;对三级指标因子进行多重共线性诊断,对部分高度相关的三级指标因子进行剔除。

更进一步的,该构建装置还包括模型优化模块,用于将样本集分为训练集和测试集;在训练集中对权重组合进行随机赋值后带入模型进行训练;计算模型在所述权重组合下的预测值与真实值的召回率;对每个训练集循环上述步骤多次,逐次记录权重组合对应下的召回率;将循环多次的召回率由大到小排列,取召回率排名靠前的对应权重组合计算权重组合的平均数,获取平均权重组合;将所述平均权重组合作为全局最优权重带入测试集中,获取测试集的召回率。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

综上所述,本发明的有益效果包括:通过创造性地将企业环境、社会和治理 (ESG)信息纳入企业信用评级体系,可以有效识别债券主体的信用品质,更全面衡量债务人的整体信用;加入ESG非财务绩效因子有助于弥补传统财务指标的缺陷,传统财务指标通常衡量的是企业过去绩效表现,而ESG更侧重于衡量企业当下及未来的发展潜质,有助于保护债权人利益,促进金融系统安全;提供的模型使用三级指标单因子逻辑回归系数的检验p值离散化打分作为合成二级指标时的三级指标权重分配依据,一定程度上可以反映指标因子的显著程度进而反映其重要性(p值越小越显著),实现了最终在合并三级指标(二级指标)内部对各三级指标按其违约、降评预测能力的差异化处理。本申请提供的模型在构建过程中对三级指标检验多重共线性,并结合经济学意涵去除指标库中的同质化三级指标,控制了模型的复杂度,一定程度上增强了模型的健壮,另一方面对三级指标的合并化处理增强了模型的可理解性。不依赖于专家打分,仅采取公开客观数据进行模型构建,进一步保证了模型的客观性和易操作性。

相比传统的卖方信用评级模型,三优信用模型从投资方角度设定模型,能更深度挖掘因子与债券信用风险之间的相关性,并从买方角度给出信用评级结果。三优信用模型具有以下几个主要特征:(1)纳入ESG表现,ESG可以识别信用品质。模型纳入了中央财经大学绿色金融国际研究院自主创新开发的本土化ESG 评估体系,可以从环境保护、社会责任、公司治理三个维度的定性与定量指标以及负面风险指标来全面衡量企业ESG表现。相比现有传统模型,ESG信用模型提供了多维度的指标参考。(2)理论与实务结合,模型建立在大量信用研究文献和债券信用评价实践经验的基础上,通过将理论与实务密切结合,在突出实务性的同时,具有理论深度。(3)强化预警能力,模型具有买方预警的功能,可对债券违约和降评进行提前预警。通过不断加强模型解释能力、调整因子权重以及进行实证研究最终构成了一套较为完善的ESG信用模型,相较于市场上的卖方评级能更准确、及时的做出评级调整。

应理解,本发明提供的一种企业ESG三优信用模型构建方法可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的技术范围不仅仅局限于上述说明中的内容,本领域技术人员可以在不脱离本发明技术思想的前提下,对上述实施例进行多种变形和修改,而这些变形和修改均应当属于本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号