首页> 中文学位 >大数据情形下统计深度函数的计算方法研究
【6h】

大数据情形下统计深度函数的计算方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 大数据背景下统计学的研究现状

1.2.2 统计深度函数的研究现状

1.2.3 异常值诊断的研究现状

1.3 研究内容

1.4 创新点及不足

第2章 大数据背景下统计学方法概述

2.1 大数据的定义及其应用

2.2 几种常用的统计分析方法

2.2.1 回归分析

2.2.2 Logistic回归

2.2.3 U统计量

2.3 大数据下统计分析方法的计算问题研究

第3章 统计深度函数及其应用概述

3.1 Tukey半空间深度及其应用概述

3.2 其他几类常见统计深度函数及一般统计深度函数的公理化定义

3.3 现有统计深度函数的计算算法概述

第4章 大数据背景下统计深度函数的计算及其应用

4.1 投影深度函数的计算

4.2 单纯型深度函数计算

第5章 研究结论与展望

5.1 主要结论

5.2 不足与展望

附录

参考文献

致谢

展开▼

摘要

过去将近十年的时间里,数据收集、存储和数据分析技术的快速发展,大大降低了统计成本,使得一个大数据时代逐渐的展现在我们面前。大数据出现后,先后渗透进社会经济的各领域,对社会管理、经济发展和个人生活都产生了深刻的影响。 在传统的数据分析中,一维数据的分析现在已经非常成熟,但随着信息技术的高速发展,数据量迅速膨胀,数据体量庞大且结构复杂,但是却缺乏类似一维数据排序的统计量。1975年Tukey[47]首次提出统计深度函数的概念,在一定程度上有效地解决了这一难题,统计深度函数可以用于高维数据的排序以及数据分析和异常值诊断,在位置参数的选取中,由深度函数定义每一个数据点的深度,将深度最深的哪一点作为位置参数,这样可以避免异常值对估计的影响,达到估计稳健性的效果,避免了异常只出现所造成的影响,统计深度函数的出现能够有效地找出数据中所有信息,这个已经被证明是非常有效的。 本文介绍了几种常用的深度函数,对现有统计深度函数的计算算法作了概述,值得一提的是,这里所探讨的相关计算算法均为精确算法,因此只能适用于数据量较小时的情形。如何在大数据情形下开展相关计算,本文也在第四章针对投影深度函数和单纯型深度函数进行了详细的计算说明和描述。 如同其他稳健估计一样,当样本数据过大和维数很高时,基于深度函数的参数估计计算非常复杂,所以为了使稳健估计更具实用性,解决计算问题非常重要。 进入到大数据时代以来,数据量更加大、维度更高、结构更加复杂,面对纷繁复杂的数据,现有的统计深度函数由于其复杂的计算过程,往往会给研究者带来较大的计算压力。为了简化复杂的计算过程,本文对现有的统计深度函数进行了改进。 作为一种改进,Cheng和Ouyang(2001)[3]分别为三维和四维数据提出了两种更快的算法。不幸的是,Cheng和Ouyang的算法对于更高维的数据并不可行,因为当p≥5时,它们相应扩展的复杂度比朴素算法的复杂度更要严重。更重要的是,他们的想法还没有相应的程序代码。在文献中,如何构造一个比朴素类型更快的算法,通常对于p>2的维度是没有详细研究的。 投影深度函数在p>2的维度计算,Liu和Zuo(2014)[27]提供的算法计算量过大。作为权衡,我们只根据一些预先确定的计划在计算中选择较小数量的随机方向向量。需要付出的代价是计算精度的损失,但是,如下文中所述,对于时间节省的收益还是非常可观的。 为了便于应用单纯型深度,我们进一步解释了这种计算,通过提出两个算法来引出问题。第一个是确切的,各种经验实例表明,所提出的算法的实施运行速度比朴素算法要快得多。然而,当n或p是任意的时候,精确计算单纯型深度的问题本质上是NP-完全问题,尽管存在用于固定p的多项式时间算法。因此可以使用合理的近似值。所以,提出了一种基于重采样的近似算法,并在文章第四章对该方法步骤做了详细的说明。 本文中提出了一种新的p≥3的近似算法,所提出的算法是仿射不变的,并且与其它的对应算法相比,其实现在计算上是更有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号