首页> 中文学位 >Detecting a Fraudulent Financial Statement and Reducing Internal Fraud,Using Data Mining Techniques by Amos Iseorukarima Iruenabere
【6h】

Detecting a Fraudulent Financial Statement and Reducing Internal Fraud,Using Data Mining Techniques by Amos Iseorukarima Iruenabere

代理获取

摘要

欺诈检测在许多行业是比较实用的研究对象,例如银行、金融领域、保险、政府机关和执法部门等等。最近几年欺诈事件急剧增加,使欺诈检测比以往更加重要。尽管在受影响的一些机构做了很多这方面努力,但每年因欺诈损失数以亿计。尤其是虚假财务报表,不仅对个人投资者,也对全球经济的整体稳定性带来不利影响。
   虽然在定义方面稍有差异,但欺诈财务报表是由注册欺诈协会定义,注册欺诈“蓄意,刻意,虚假陈述或遗漏事实,以及会计数据引起的误导,当所有这些信息符合,会造成读者改变或更改他(她)的判断或决定。”在实际情况中,欺诈财务报表包含:
   (1)财务记录篡改
   (2)故意遗漏大事、交易、账目和财政报表中需要准备的其他重要信息,或滥用会计原则、政策,以及滥用用于测量、确认、报告的程序,以及泄露商业交易。
   这篇论文中使用数据挖掘技术帮助确认欺诈性财政报表,以及使用决策树、神经网络和贝叶斯信念网络减少内部欺诈。这些技术是有利的,尤其是当有新的欺诈财政报表方法适应这些检测技术。
   “用不同的模型使用相同数据样本对这三种技术进行了比较,结果显示BBN技术优于其他两种模式,而能达到更好的分类精度。”
   本文也探讨了一种涉及多领域知识的自适应框架(基于响应曲面模型),来检测欺诈财务报表以及如何减少内部欺诈。最后,即本文建议,在如今财政欺诈发展的时代,在一些专业领域知识,计算机辅助自动欺诈检测机制将会非常有效和高效。
   三种模型分别基于不同的方法建立。首先,决策树模型是利用Sipina调查版软件建立的。该模型建立置信度水平为0.05。本文使用整个样本作为训练设置。
   该模型是以训练样本为测试并设法恰当地分成73例(一般性能达到96%)。更确切地说,决策树分类为所有非欺诈例和35138欺诈例(92%)。算法使用变量Z分数作为第一个分析法。35/38欺诈企业提出一个相当低的Z分数值(z分数<1.49)。因为Altman认为Z分数值1.81作为一个切断点来规定美国生产公司的财政危机(Altman,2001),可以推断出样本中财政危机的公司包含试图篡改财政报表。作为第二个水平分析法,使用了两个与盈利有关的变量(NPTA和EBIT)。高Z分数的非欺诈企业表明具有高盈利能力,而低Z分数的欺诈企业表明具有低盈利能力。在第二个实验中,我们构建了神经网络模型,使用分类软件中商标注册为7的非线性网络来构建一个多层感知前馈网络。在测试一些替代性设计和执行初步训练后,选择了一个包含5个隐藏节点的隐藏层的拓扑。
   当使用全部的样本对所选择的网络进行测试,这个网络能100%地成功分类这些实例。但是,软件没有对突触权重的连接提供透明的接口,因此我们不能对每一个输入变量的重要性进行评估。在第三个试验中,我们开发贝叶斯信任度网络。我们使用BN Power Predictor软件。这个软件能从数据中获得分类器。这个能执行的算法是基于条件无关的测试的,并且不需要结点的排序(Cheng& Greiner,2001)。由于软件的限制,我们使用数值离散化办法。在测试不同的离散方法(相等的深度,相等的宽度)后,我们选择被监管的离散方法。与其他的离散方法不同,基于熵的被监管离散方法利用了类的信息。这样就使得被定义的间隔信息可以帮助提高分类的准确率(Han& Camber,2000)。对贝叶斯信任度网络里进行测试,我们把全部的样本作为训练集,这个网络能分来72个实例(达到了95%的正确率)。特别的是,该网络能正确分出37个伪实例(97%)与35个非伪实例(92%)。这个贝叶斯信仟度网络能用于更加广泛的方面,例如针对财务报表的篡改。在网络中,网络骗子强烈依赖输入的变量Z-SCORE,DEBTEQ,NPTA,SALTA and WCTA。上述的每一个变量表现公司经济数据的一个方面。Z-SCORE指的是财政窘迫,DEBTEQ指的是影响,NPTA指利润,SALTA指销售情况,WCTA指解决办法。因此这个信任度网络能记录金融数据与篡改数据之间的依赖关系,能记录一个公司的巨大金融状况的数据。这个结果指出了NN模型能有效识别FFS公司与non-FFS公司,仅次于BBN与ID3模型。使用训练集来评估模型的性能会有倾向性的问题。在很多情况下,这个模型倾向于去记忆样本而不是学习。为了消除这样的一个倾向问题,评估上述模型的性能要相对于之前未被发现的样式。现在有一些方法用于模型的认证,相当于把样本切分成训练的与单独拿出的,每10个折叠的进行认证就有一个要拿出的。虽然我们使用的3个软件包有认证能力,但是不可能做到跟踪一个常见的认证程序而不是3个软件包的方法学与数据。因此,我们只好周期性地拆分样本,创建训练集与验证集。我们选择跟踪10次折叠的交错验证方法。在10次折叠的交叉核实中,样本分割成10次折叠。在一个分层的方法里,每个折叠包含了相同数量的伪实例与非伪实例。模型保留9个折叠,通过使用要被拿出的折叠进行测试。最后,计算出平均性能。正如所期待的,验证集的争取率要低于训练集。然而这三个模型的性能差别很大。决策树在训练的正确分类的概率为96%,在验证样本的分类准确率大大低于它。在所有的样本中,这个模型正确分类73.6%,75%的伪实例与72.5%的非伪实例。
   在训练集上有100%性能的神经网络模型,能正确分类80%的验证集,82.5%的伪实例与77.5%的非伪实例。
   最后,贝叶斯信任度网络模型在训练集上有较低的精确度,正确分类91.7%的伪实例,88.9%的非伪实例与90.3%的验证集。在一个对模型性能的对比评估中,我们得到这样的结论,贝叶斯信任度网络要胜过另外两个模型,并有突出的分类的精确度。神经网络达到一个令人满意的高性能。最后,决策树的性能是非常低的。在评估一个模型的性能的时候,另外一个重要的考虑因素是类型1与类型Ⅱ的错误率。类型Ⅰ的错误是一个骗子公司被认为是可信的。类型Ⅱ的错误时一个非骗子公司被认为是骗子。类型Ⅰ与类型Ⅱ错误有不同的开销。分类一个骗子公司与可信公司的过程中,会导致错误的决定,就会造成严重的经济损失。把一个可信公司错误的分类会在时间开销上造成额外的侦查。虽然每个模型都希望减少类型Ⅰ与类型Ⅱ的错误率,但是某一个模型都会倾向于更大程度上减少某一种类型错误率。在我们验中,所有的模型都专注更低的类型Ⅰ错误率。神经网络在vhulv两种类型的错误率的程度上有最大的区别。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号