首页> 中国专利> 一种基于地理加权回归的土壤有机碳预测方法

一种基于地理加权回归的土壤有机碳预测方法

摘要

本发明涉及一种基于地理加权回归的土壤有机碳预测方法,涵盖了局部回归中多重共线性诊断技术与综合处理方法,其主要方法包括:a)综合了全局回归与局部回归预测方法中独立变量的预处理技术;b)通用的地理加权回归中独立变量共线性问题综合诊断与处理机制;c)地理加权回归方法在特定数据集的适用性分析;d)最优独立变量集选取方法;e)综合考虑不同回归方法残差的空间趋势;通过对比分析不同独立变量集及其在局部回归中的共线性程度,综合考虑残差的空间趋势,进而提升了空间属性预测的计算效率与精度。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-07-06

    授权

    授权

  • 2015-08-05

    实质审查的生效 IPC(主分类):G01N33/24 申请日:20150402

    实质审查的生效

  • 2015-07-08

    公开

    公开

说明书

技术领域

本发明属于面向空间属性预测的空间分析方法,具体涉及一种基于地理加权回归的土壤 有机碳预测方法。

背景技术

在空间分析研究领域中,变量的观测数据通常情况下是按特定地理单位抽样获得。因此, 该值通常随着地理空间位置变化而变化,独立变量间的关系也会发生显著变化,这种因地理 位置的变化而引起的变量间关系或结构的变化称之为空间非平稳性。在地理统计及经济统计 中,空间非平稳性主要归结于三方面原因:(1)随机抽样误差所引起;(2)各地区自然地理 环境、社会管理制度、人为习惯等的差异所引起;(3)用于分析空间数据的模型与实际不符, 或忽略了模型中应有的部分回归变量而导致的空间非平稳性问题。

地理加权回归作为一种能够有效处理回归分析中空间非平稳性问题的建模技术,允许局 部回归参数随着地理空间位置的改变而变化。该方法通过附加表达空间对象本身相关性和异 质性的变化参数,反映样本对回归方程贡献在空间上的分异,即每个空间点对于因变量的影 响针对相同的影响因素是不一样的,这与真实的情况是相符的,使回归结果更加可信。由于 该方法不但简单易行,估计结果有明确的解析表示,而且得到的参数估计还能进行统计检验, 因此在社会经济学、城市地理学、气象学、森林学、土壤学等诸多领域已得到越来越多的研 究和应用。但是,人们对地理加权回归中的多重共线性问题处理模式还没有形成统一而有效 的认识,没有完整、高效的共线性诊断方法与软件;如何运用统一的模式集成既有的全局回 归模型中的共线性诊断方法,合理地利用独立变量间复杂的空间相关性,如何确保地理加权 回归模型的残差平方一定小于普通线性回归模型的残差平方,并且获取更真实、可靠的预测 结果,这都是摆在众多研究者面前迫切需要解决的问题。

由于地理加权回归主要采用局部地理回归方法,不同空间位置上局部回归参数的多重共 线性问题并未考虑到该局部地理回归模型中,从而导致该方法在扩展应用过程中面临诸多问 题,归纳起来有以下几点局限性:

(1)地理加权回归模型的关键是模型中的权重矩阵,对其中元素的确定是该技术获取准 确预测结果的重点。因此,在局部回归分析中,异常点会对模型参数估计产生更大影响,地 理加权回归的逐点局域最小二乘估计机制从根本上导致异常点难以检测,这就使得普通使用 者很难把握如何根据具体分析情况对输入数据预处理,在一定程度上制约了该技术的发展和 应用。

(2)独立变量在局部回归中的多重共线性问题对预测结果影响非常大,而且单一的降维 操作不能准确选择不同数据类型独立变量的最优集合。地理加权回归的精度依赖于一定数量 的独立变量,足够数量且与目标变量具有一定相关性的独立变量能更大程度地表达目标变量 的空间变异特征,然而,独立变量间通常表现出较高的相关系数,潜在地导致了局部回归中 更严重的多重共线性。如将部分重要变量排除在模型之外,将显著破坏模型的稳定性,进而 影响分析问题和解决问题的合理性。空间回归预测过程中如何有效地诊断、处理多重共线性 问题也已彰显出其特有的重要性。

(3)空间回归模型中随机误差的自相关性是普遍存在的。如何在地理加权回归分析中消 除或降低随机误差自相关性带来的影响仍是目前地理加权回归研究的挑战。

综上所述,对于上述分析出的不足,同样出现在土壤有机碳的实际应用方面,影响到关 于土壤有机碳预测结果的准确性。

发明内容

针对上述技术问题,本发明所要解决的技术问题是提供一种涵盖了局部回归多重共线性 诊断技术和多重共线性综合处理两大关键技术环节,能够解决现有局部回归预测分析中独立 变量共线性问题的基于地理加权回归的土壤有机碳预测方法。

本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于地理加权回归 的土壤有机碳预测方法,包括如下步骤:

步骤001.针对土壤采样区中的各个采样点,分别采集对应于各个采样点的土壤有机碳 和各种类土壤独立变量,并对该所有变量进行预处理,获得分别对应于各个采样点的土壤有 机碳采集数值和各种类待处理土壤独立变量,进入步骤002;

步骤002.针对所有采样点,选择预设百分比数量的采样点作为建模采样点,剩余的采 样点作为验证采样点,进入步骤003;

步骤003.采用基于最小信息准则的逐步回归分析法,针对所有建模采样点对应的所有 待处理土壤独立变量进行筛选,获得基于回归的土壤独立变量集合,并且采用皮尔逊相关系 数指标计算基于回归的土壤独立变量集合中两两不同种类土壤独立变量间的相关矩阵,构成 基于回归的土壤独立变量集合的相关矩阵;同时,采用主成分分析方法,针对所有建模采样 点对应的所有待处理土壤独立变量进行处理,获得基于主成分的土壤独立变量集合,并且采 用皮尔逊相关系数指标计算基于主成分的土壤独立变量集合中两两不同种类土壤独立变量间 的相关矩阵,构成基于主成分的土壤独立变量集合的相关矩阵,进入步骤004;

步骤004.采用地理加权回归方法,分别将基于回归的土壤独立变量集合和基于主成分 的土壤独立变量集合作为独立变量源数据集合,进行验证采样点土壤有机碳的预测计算,分 别获得对应于该回归方法、该两种独立变量源数据集合的各个验证采样点土壤有机碳的预测 值,并且分别记录对应于该两种独立变量源数据集合的地理加权回归系数集合;

采用全局回归方法,将基于回归的土壤独立变量集合作为独立变量源数据集合,进行验 证采样点土壤有机碳的预测计算,获得对应于该回归方法、该独立变量源数据集合的各个验 证采样点土壤有机碳的预测值,并且记录对应于该独立变量源数据集合的全局回归系数;

采用地理加权岭回归方法,将基于回归的土壤独立变量集合作为独立变量源数据集合, 进行验证采样点土壤有机碳的预测计算,获得对应于该回归方法、该独立变量源数据集合的 各个验证采样点土壤有机碳的预测值,并且记录对应于该独立变量源数据集合的地理加权岭 回归系数集合;进入步骤005;

步骤005.根据均方根误差指标和平均误差指标,分别将上述各组验证采样点土壤有机 碳的预测值与验证采样点的土壤有机碳采集数值进行交叉验证,获得最优验证采样点土壤有 机碳预测值,并获得该最优验证采样点土壤有机碳预测值所对应的回归方法和独立变量源数 据集合,进入步骤006;

步骤006.若该最优验证采样点土壤有机碳预测值所对应的回归方法为地理加权回归方 法,则进入步骤007;若该最优验证采样点土壤有机碳预测值所对应的回归方法为全局回归 方法,则进入步骤011;若该最优验证采样点土壤有机碳预测值所对应的回归方法为地理加 权岭回归方法,则进入步骤014;

步骤007.获得该最优验证采样点土壤有机碳预测值所对应的地理加权回归系数集合, 采用皮尔逊相关系数指标计算该地理加权回归系数集合中两两不同种类土壤独立变量间的相 关矩阵,构成该地理加权回归系数集合的相关矩阵;并且针对该最优验证采样点土壤有机碳 预测值所对应独立变量源数据集合的相关矩阵、该最优验证采样点土壤有机碳预测值所对应 的地理加权回归系数集合,以及该地理加权回归系数集合的相关矩阵,采用至少一种共线性 诊断工具进行分析,判断获得该最优验证采样点土壤有机碳预测值所对应回归方法和独立变 量源数据集合的局部回归共线性问题情况,并进入步骤008;

步骤008.根据各个验证采样点的土壤有机碳采集数值和采用地理加权回归方法获得各 个验证采样点土壤有机碳的预测值,获得该各个验证采样点土壤有机碳的预测值对应的残差 集合,分析该残差集合的空间趋势,进入步骤009;

步骤009.针对该残差集合进行普通克里格插值,将采用地理加权回归方法获得各个验 证采样点土壤有机碳的预测值与该残差集合中对应的插值结果进行叠加,生成该各个验证采 样点新的土壤有机碳的预测值,即该各个验证采样点土壤有机碳的地理加权回归克里格预测 值,进入步骤010;

步骤010.将采用地理加权回归方法获得各个验证采样点土壤有机碳的预测值与该各个 验证采样点土壤有机碳的地理加权回归克里格预测值,进行交叉验证,确定最优计算方法, 进入步骤018;

步骤011.根据各个验证采样点的土壤有机碳采集数值和采用全局回归方法获得各个验 证采样点土壤有机碳的预测值,获得该各个验证采样点土壤有机碳的预测值对应的残差集合, 分析该残差集合的空间趋势,进入步骤012;

步骤012.针对该残差集合进行普通克里格插值,将采用全局回归方法获得各个验证采 样点土壤有机碳的预测值与该残差集合中对应的插值结果进行叠加,生成该各个验证采样点 新的土壤有机碳的预测值,即该各个验证采样点土壤有机碳的地理加权回归克里格预测值, 进入步骤013;

步骤013.将采用全局回归方法获得各个验证采样点土壤有机碳的预测值与该各个验证 采样点土壤有机碳的地理加权回归克里格预测值,进行交叉验证,确定最优计算方法,进入 步骤018;

步骤014.获得该最优验证采样点土壤有机碳预测值所对应的地理加权岭回归系数集合, 采用皮尔逊相关系数指标计算该地理加权岭回归系数集合中两两不同种类土壤独立变量间的 相关矩阵,构成该地理加权岭回归系数集合的相关矩阵;并且针对该最优验证采样点土壤有 机碳预测值所对应独立变量源数据集合的相关矩阵、该最优验证采样点土壤有机碳预测值所 对应的地理加权岭回归系数集合,以及该地理加权岭回归系数集合的相关矩阵,采用至少一 种共线性诊断工具进行分析,判断获得该最优验证采样点土壤有机碳预测值所对应回归方法 和独立变量源数据集合的局部回归共线性问题情况,并进入步骤015;

步骤015.根据各个验证采样点的土壤有机碳采集数值和采用地理加权岭回归方法获得 各个验证采样点土壤有机碳的预测值,获得该各个验证采样点土壤有机碳的预测值对应的残 差集合,分析该残差集合的空间趋势,进入步骤016;

步骤016.针对该残差集合进行普通克里格插值,将采用地理加权岭回归方法获得各个 验证采样点土壤有机碳的预测值与该残差集合中对应的插值结果进行叠加,生成该各个验证 采样点新的土壤有机碳的预测值,即该各个验证采样点土壤有机碳的地理加权回归克里格预 测值,进入步骤017;

步骤017.将采用地理加权岭回归方法获得各个验证采样点土壤有机碳的预测值与该各 个验证采样点土壤有机碳的地理加权回归克里格预测值,进行交叉验证,确定最优计算方法, 进入步骤018;

步骤018.根据获得的最优方法,以及该最优验证采样点土壤有机碳预测值所对应的独 立变量源数据集合,针对土壤采样区所在的研究区域进行土壤有机碳预测。

作为本发明的一种优选技术方案:所述步骤001中,所述各种类土壤独立变量包括土壤 高程数据、土壤坡度数据、土壤坡向数据、土壤地形湿度指数、土壤剖面曲率、土壤平面曲 率、土壤利用、土壤年均气温、土壤年均降雨。

作为本发明的一种优选技术方案:所述步骤001中,所述针对所有变量进行的预处理, 具体包括如下步骤:

步骤00101.针对所有变量中的连续性变量,按各变量的种类分别进行预处理,其中, 首先分别获取各变量种类的平均值m和标准差s,然后分别针对各个变量,判断变量的值是 否位于其对应变量种类对应的[m-2s,m+2s]内,是则判定该变量的值为正常值;否则继续判 断该变量的值是否小于其对应变量种类对应的m-2s,是则更新该变量的值为m-2s;否则 更新该变量的值为m+2s;

步骤00102.针对所有变量中的连续性变量,分别针对各个变量,判断变量是否符合正 态分布,是则不做任何操作,否则采用自然对数方法变换,使得该变量符合正态分布;

步骤00103.采用标准分数方法,针对所有变量中的连续性变量进行标准化;

步骤00104.将所有变量中的分类变量处理为哑变量。

作为本发明的一种优选技术方案:所述步骤00102中,针对所有变量中的连续性变量, 分别针对各个变量,通过单样本k-s检验或频率直方图判断变量是否符合正态分布。

作为本发明的一种优选技术方案:所述步骤007中,针对该最优验证采样点土壤有机碳 预测值所对应独立变量源数据集合的相关矩阵、该最优验证采样点土壤有机碳预测值所对应 的地理加权回归系数集合,以及该地理加权回归系数集合的相关矩阵,采用至少一种共线性 诊断工具进行分析,判断获得该最优验证采样点土壤有机碳预测值所对应回归方法和独立变 量源数据集合的局部回归共线性问题情况,具体包括如下过程:

首先针对该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合的相关矩阵, 以及该最优验证采样点土壤有机碳预测值所对应的地理加权回归系数集合的相关矩阵,进行 一一对比,若该对应的地理加权回归系数集合的相关矩阵中存在50%以上相关性指数小于该 对应独立变量源数据集合的相关矩阵中同样位置的相关性指数,则说明该最优验证采样点土 壤有机碳预测值所对应回归方法和独立变量源数据集合的局部回归共线性问题并不特别严重;

获得该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合对应的方差膨胀因 子矩阵,构成局部方差膨胀因子矩阵;同时获得所述土壤采样区中所有采样点对应该独立变 量源数据集合中各变量种类的方差膨胀因子,构成全局方差膨胀因子集合,并作如下判断:

若局部方差膨胀因子矩阵中每一列的均值小于10,则说明该最优验证采样点土壤有机碳 预测值所对应回归方法和独立变量源数据集合的局部回归共线性问题不严重;

若局部方差膨胀因子矩阵中每一列的均值大于10,且全局方差膨胀因子集合中对应变量 种类的方差膨胀因子也大于10,则说明该最优验证采样点土壤有机碳预测值所对应回归方法 和独立变量源数据集合的局部回归共线性问题不严重;

否则说明该最优验证采样点土壤有机碳预测值所对应回归方法和独立变量源数据集合存 在潜在的共线性问题;

针对该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合中方差膨胀因子值 大于10的独立变量,以及该最优验证采样点土壤有机碳预测值所对应回归系数集合中方差 膨胀因子值大于10的独立变量,分别进行两两散点图分析,如果所对应回归系数集合中独 立变量的散点图比所对应的独立变量源数据集合中独立变量的散点图更无规律,则说明该最 优验证采样点土壤有机碳预测值所对应回归方法和独立变量源数据集合的共线性问题可以忽 略;否则,则说明该最优验证采样点土壤有机碳预测值所对应回归方法和独立变量源数据集 合存在较为严重的共线性问题。

本发明所述一种基于地理加权回归的土壤有机碳预测方法采用以上技术方案与现有技术 相比,具有以下技术效果:

(1)本发明设计的基于地理加权回归的土壤有机碳预测方法,综合了全局回归与其它空 间属性预测方法中独立变量的预处理技术,运用了异常值剔除机制、数据标准化机制、哑变 量转换机制对不同数据类型的独立变量进行标准化处理,最大程度地减少独立变量的冗余度, 确保局部回归方法的正确实施;

(2)本发明设计的基于地理加权回归的土壤有机碳预测方法中,提出对比使用主成分分 析与逐步回归选择独立变量方法,可以最大程度地表达目标变量的局部空间分异特征,同时, 通过交叉验证结果,能够更好地消除共线性,改善某些消除共线性方法中过分删除独立量的 缺点,保留足够多的重要独立变量,充分保证独立变量能够表达非独立变量的空间变异特征; 并且在未来环境数据越加丰富的计算背景下,可用于独立变量的客观、高效选取,提供比传 统方法更高的计算效率和预测精度;

(3)本发明设计的基于地理加权回归的土壤有机碳预测方法,具体提出了一套通用的地 理加权回归中独立变量共线性问题综合诊断与处理机制,通过集成运用多种现有共线性诊断 工具,对比分析独立变量在局部回归中的共线性程度,最后采用交叉验证的方法,对局部回 归与局部岭方法进行对比分析,判定当前地理加权回归方法在特定数据集的适用性,提升了 空间属性预测的计算效率与精度,并且该方法动态、综合地共线性诊断方法有望克服单一诊 断方法的局限性,具有较好的普适性与稳定性,具有广阔的工业化应用前景;

(4)本发明设计的基于地理加权回归的土壤有机碳预测方法中,还涉及到黑盒对比的工 作方式——通过不同的机制遴选出两种最优的回归集合,根据不同的数学模型进行三种回归 方式与一种复合地统计方法进行预测,充分考虑了目标变量的相关性和变异性,最大程度上 提升计算结果的准确性。

附图说明

图1是变量预处理的主要流程图;

图2是独立变量选取的主要流程图;

图3是使用不同的独立变量集合进行回归分析流程图;

图4是回归分析结果精度验证流程图;

图5是局部回归共线性诊断的主要流程图;

图6是对地理加权回归预测结果的残差进行地统计分析流程图;

图7(a)是连续型独立变量与土壤样点的空间分布图:数字高程模型数据(DEM)

图7(b)是连续型独立变量与土壤样点的空间分布图:年均气温(MAAT);

图7(c)是连续型独立变量与土壤样点的空间分布图:年均降雨(MAP);

图7(d)是连续型独立变量与土壤样点的空间分布图:坡度(Slope);

图8(a)是采样土壤有机碳数据(SOC)的频率分布直方图;

图8(b)是经过自然对数转换后的土壤有机碳(LnSOC)频率分布直方图;

图9(a)是分类变量,土地利用数据LandUse变量;

图9(b)是进行哑变量转换结果LandUse1变量;

图9(c)是进行哑变量转换结果LandUse2变量;

图10(a)是独立变量散点图;

图10(b)是独立变量局部回归系数的散点图;

图11是基于地理加权回归预测残差的半变异函数图;

图12(a)是本发明实施例中使用最优计算方法预测的土壤有机碳空间分布图:地理加权回 归克里格方法;

图12(b)是本发明实施例中使用最差计算方法预测的土壤有机碳空间分布图:全局回归方 法。

具体实施方式

下面结合说明书附图针对本发明的具体实施方式作进一步详细的说明。

本发明设计基于地理加权回归的土壤有机碳预测方法的基本思想是在独立变量选择、处 理与局部回归的过程中,完成独立变量集间共线性问题的诊断与处理,实现不同类型独立变 量在局部回归过程中探测空间关系非平稳性的同时更高效、准确地预测目标变量;在保证局 部回归共线性问题诊断的同时,通过对比多种局部回归技术,基于趋势面方程分析趋势项, 消除不平稳性,从而较大幅度地提高地理计算中目标属性的空间预测精度。

土壤有机碳(SOC)是土壤的重要组成部分,其含量空间分布图在土壤肥力、环境保护、 农业可持续发展等方面均起到极其重要的作用。土壤采样是估测区域土壤有机碳(SOC)含量 和空间变异分析模型的重要方式。然而,受采样经费和野外采样条件的限制,所采集样点往 往难以全面地反映研究区土壤属性的空间分布规律,尤其是对于高度异质的景观区域,以往 的方法较难探测到空间关系的非平稳性,并得出理想的空间预测结果。预测土壤有机碳(SOC) 的常用独立变量包括数字高程模型及其衍生的地形因子、土地利用、地质、气候数据等。

这里的土壤有机碳(SOC)是非独立变量,为观测到具有空间属性(经纬度)的数值序列, 接下来,本发明设计一种基于地理加权回归的土壤有机碳预测方法,在实际应用过程中,将 基于观测到的土壤有机碳(SOC)数据集与独立变量集合,预测未知空间位置的土壤有机碳(SOC) 数据,具体包括如下步骤:

步骤001.针对土壤采样区中的各个采样点,分别采集对应于各个采样点的土壤有机碳 (SOC)和各种类土壤独立变量,并对该所有变量进行预处理,获得分别对应于各个采样点的 土壤有机碳采集数值和各种类待处理土壤独立变量,进入步骤002。

其中,土壤独立变量(也称“协变量”)图层如图7(a)、图7(b)、图7(c)、图7(d) 所示,各种类土壤独立变量包括土壤高程数据(DEM)、土壤坡度数据(Slope)、土壤坡向数 据(Aspect)、土壤地形湿度指数(TWI)、土壤剖面曲率(ProCur)、土壤平面曲率(PlaCur)、 土壤利用(LandUse)、土壤年均气温(MAAT)、土壤年均降雨(MAP),其中,土壤有机碳(SOC)、 土壤高程数据(DEM)、土壤坡度数据(Slope)、土壤坡向数据(Aspect)、土壤地形湿度指数 (TWI)、土壤剖面曲率(ProCur)、土壤平面曲率(PlaCur)、土壤年均气温(MAAT)、土壤年 均降雨(MAP)为连续性变量,土壤利用(LandUse)为分类变量;针对所有变量进行的预处 理,如图1所示,具体包括如下步骤:

步骤00101.针对所有变量中的连续性变量,按各变量的种类分别进行预处理,其中, 首先分别获取各变量种类的平均值m和标准差s,然后分别针对各个变量,判断变量的值是 否位于其对应变量种类对应的[m-2s,m+2s]内,是则判定该变量的值为正常值;否则继续判 断该变量的值是否小于其对应变量种类对应的m-2s,是则更新该变量的值为m-2s;否则 更新该变量的值为m+2s。

步骤00102.针对所有变量中的连续性变量,分别针对各个变量,通过单样本k-s检验 或频率直方图判断变量是否符合正态分布,是则不做任何操作,否则按如下模型:

Process_X=Ln(X)

采用自然对数方法变换,使得该变量符合正态分布,转换前后变量对应的频率直方图如 图8(a)、图8(b)所示,其中,X为连续性变量,Process_X为针对连续性变量X进行自 然对数方法变换后的结果。

步骤00103.按如下模型:

ZY=(ZX-m)s

采用标准分数方法,针对所有变量中的连续性变量进行标准化,其中,ZX表示所有变 量中的连续性变量依次经过步骤00101、步骤00102后获得的结果,ZY表示所有变量中的连 续性变量依次经过步骤00101、步骤00102后采用标准分数方法进行标准化后获得的结果; 经过标准化后,所有变量中连续性变量的标准差、平均值分别为1、0,消除了所有变量中连 续性变量中不同独立变量不同量纲对非独立变量的影响。

步骤00104.由于所有变量中部分分类变量值可能较多,使用单因素方差分析方法 ——Duncan法进行分析,以减少分类的组数,在此基础上,如图9(a)、图9(b)、图9(c) 所示,使用标准的处理流程将所有变量中的分类变量土壤利用(LandUse)处理为哑变量,将 原来的6个分类属性转换为具有0、1属性的两个图层(LandUse1、LandUse2)。

步骤002.针对所有采样点,选择预设百分比数量80%的采样点作为建模采样点,剩余 20%的采样点作为验证采样点,进入步骤003。

步骤003.如图2所示,采用基于最小信息准则的逐步回归分析法,针对所有建模采样 点对应的所有待处理土壤独立变量进行筛选,获得基于回归的土壤独立变量集合 StepVari={DEMi,Slopei,TWIi,LandUse1i,MAATi},i=1、2、…、n×0.8,n是土壤采样区中 采样点的个数,逐步回归的目的是为了剔除影响不显著的独立变量,其结果是保留原指标体 系中影响显著的几个指标,并且采用皮尔逊相关系数指标计算基于回归的土壤独立变量集合 StepVari中两两不同种类土壤独立变量间的相关矩阵,构成基于回归的土壤独立变量集合 StepVari的相关矩阵;同时,采用主成分分析方法,针对所有建模采样点对应的所有待处理 土壤独立变量进行处理,获得基于主成分的土壤独立变量集合PcaVari={DEMi,TWIi, LandUse1i,MAPi,ProCuri},i=1、2、…、n×0.8,n是土壤采样区中采样点的个数,并且采用 皮尔逊相关系数指标计算基于主成分的土壤独立变量集合PcaVari中两两不同种类土壤独立 变量间的相关矩阵,构成基于主成分的土壤独立变量集合PcaVari的相关矩阵,进入步骤004。

有别于逐步回归分析法,由于主成分分析方法已考虑独立变量间的关系,对其进行降维 处理,进而把复杂问题简单化,得到数量较少的基于主成分的土壤独立变量集合PcaVari。 使用基于主成分的土壤独立变量集合PcaVari,进行局部回归是作为对基于回归的土壤独立 变量集合StepVari数据集地理加权回归正确性的检验方法之一。

步骤004.如图3所示,采用地理加权回归方法,分别将基于回归的土壤独立变量集合 StepVari和基于主成分的土壤独立变量集合PcaVari作为独立变量源数据集合,进行验证采 样点土壤有机碳的预测计算,分别获得对应于该回归方法、该两种独立变量源数据集合的各 个验证采样点土壤有机碳的预测值,并且分别记录对应于该两种独立变量源数据集合的地理 加权回归系数集合LoR_GWR_StepVari={LSDEMi,LSSlopei,LSTWIi,LSLandUseli,LSMAATi},LoR_GWR_PcaVari={LPDEMi,LPTWIi,LPLandUseli,LPMAPi,LPProCuri},(注:该集合是向量集合,也即 每一种独立变量的回归系数随着空间位置的移动而改变)。

采用全局回归方法,将基于回归的土壤独立变量集合StepVari作为独立变量源数据集合, 进行验证采样点土壤有机碳的预测计算,获得对应于该回归方法、该独立变量源数据集合的 各个验证采样点土壤有机碳的预测值,并且记录对应于该独立变量源数据集合的全局回归系 数GoR_StepVari={GSDEM,GSSlope,GSTWI,GSLandUse1,GSMAAT}(注:该集合不是向量集合,也 即是每一种独立变量只有一个系数)。

采用地理加权岭回归方法,将基于回归的土壤独立变量集合StepVari作为独立变量源数 据集合,进行验证采样点土壤有机碳的预测计算,获得对应于该回归方法、该独立变量源数 据集合的各个验证采样点土壤有机碳的预测值,并且记录对应于该独立变量源数据集合的地 理加权岭回归系数集合LoR_GWRR_StepVari,其中,LoR_GWRR_StepVari如下:

LoR_GWRR_StepVari={LSRDEMi,LSRSlopei,LSRTWIi,LSRLandUseli,LSRMAATi};进入步骤005。

步骤005.根据均方根误差指标(RMSE)和平均误差指标(ME),分别将上述各组验证采 样点土壤有机碳的预测值与验证采样点的土壤有机碳采集数值进行交叉验证,获得最优验证 采样点土壤有机碳预测值,并获得该最优验证采样点土壤有机碳预测值所对应的回归方法和 独立变量源数据集合,进入步骤006。

步骤006.如图4所示,若该最优验证采样点土壤有机碳预测值所对应的回归方法为地 理加权回归方法,则进入步骤007;若该最优验证采样点土壤有机碳预测值所对应的回归方 法为全局回归方法,则进入步骤011;若该最优验证采样点土壤有机碳预测值所对应的回归 方法为地理加权岭回归方法,则进入步骤014。

步骤007.根据最优验证采样点土壤有机碳预测值,获得该最优验证采样点土壤有机碳 预测值所对应的地理加权回归系数集合,即根据最优验证采样点土壤有机碳预测值的对应获 得LoR_GWR_StepVari、LoR_GWR_PcaVari中的其中一个,采用皮尔逊相关系数指标计算该地 理加权回归系数集合中两两不同种类土壤独立变量间的相关矩阵,构成该地理加权回归系数 集合的相关矩阵;并且针对该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合 的相关矩阵、该最优验证采样点土壤有机碳预测值所对应的地理加权回归系数集合,以及该 地理加权回归系数集合的相关矩阵,采用至少一种共线性诊断工具进行分析,判断获得该最 优验证采样点土壤有机碳预测值所对应回归方法和独立变量源数据集合的局部回归共线性问 题情况,并进入步骤008。

如图5所示,上述针对该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合 的相关矩阵、该最优验证采样点土壤有机碳预测值所对应的地理加权回归系数集合,以及该 地理加权回归系数集合的相关矩阵,采用至少一种共线性诊断工具进行分析,判断获得该最 优验证采样点土壤有机碳预测值所对应回归方法和独立变量源数据集合的局部回归共线性问 题情况,具体包括如下过程:

首先针对该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合的相关矩阵, 以及该最优验证采样点土壤有机碳预测值所对应的地理加权回归系数集合的相关矩阵,进行 一一对比,若该对应的地理加权回归系数集合的相关矩阵中存在50%以上相关性指数小于该 对应独立变量源数据集合的相关矩阵中同样位置的相关性指数,则说明该最优验证采样点土 壤有机碳预测值所对应回归方法和独立变量源数据集合的局部回归共线性问题并不特别严重;

获得该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合对应的方差膨胀因 子矩阵,构成局部方差膨胀因子矩阵;同时获得所述土壤采样区中所有采样点对应该独立变 量源数据集合中各变量种类的方差膨胀因子,构成全局方差膨胀因子集合,并作如下判断:

若局部方差膨胀因子矩阵中每一列的均值小于10,则说明该最优验证采样点土壤有机碳 预测值所对应回归方法和独立变量源数据集合的局部回归共线性问题不严重;

若局部方差膨胀因子矩阵中每一列的均值大于10,且全局方差膨胀因子集合中对应变量 种类的方差膨胀因子也大于10,则说明该最优验证采样点土壤有机碳预测值所对应回归方法 和独立变量源数据集合的局部回归共线性问题不严重;

否则说明该最优验证采样点土壤有机碳预测值所对应回归方法和独立变量源数据集合存 在潜在的共线性问题;

针对该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合中方差膨胀因子值 大于10的独立变量,以及该最优验证采样点土壤有机碳预测值所对应回归系数集合中方差 膨胀因子值大于10的独立变量,分别进行两两散点图分析,如果所对应回归系数集合中独 立变量的散点图比所对应的独立变量源数据集合中独立变量的散点图更无规律,则说明该最 优验证采样点土壤有机碳预测值所对应回归方法和独立变量源数据集合的共线性问题可以忽 略;否则,则说明该最优验证采样点土壤有机碳预测值所对应回归方法和独立变量源数据集 合存在较为严重的共线性问题。

步骤008.如图6所示,根据各个验证采样点的土壤有机碳采集数值和采用地理加权回 归方法获得各个验证采样点土壤有机碳的预测值,获得该各个验证采样点土壤有机碳的预测 值对应的残差集合,采用矩阵法(MOM)分析该残差集合的空间趋势,进入步骤009。

步骤009.针对该残差集合进行普通克里格插值,将采用地理加权回归方法获得各个验 证采样点土壤有机碳的预测值与该残差集合中对应的插值结果进行叠加,生成该各个验证采 样点新的土壤有机碳的预测值,即该各个验证采样点土壤有机碳的地理加权回归克里格预测 值,进入步骤010。

步骤010.将采用地理加权回归方法获得各个验证采样点土壤有机碳的预测值与该各个 验证采样点土壤有机碳的地理加权回归克里格预测值,进行交叉验证,确定最优计算方法, 进入步骤018。

步骤011.根据各个验证采样点的土壤有机碳采集数值和采用全局回归方法获得各个验 证采样点土壤有机碳的预测值,获得该各个验证采样点土壤有机碳的预测值对应的残差集合, 采用矩阵法(MOM)分析该残差集合的空间趋势,进入步骤012。

步骤012.针对该残差集合进行普通克里格插值,将采用全局回归方法获得各个验证采 样点土壤有机碳的预测值与该残差集合中对应的插值结果进行叠加,生成该各个验证采样点 新的土壤有机碳的预测值,即该各个验证采样点土壤有机碳的地理加权回归克里格预测值, 进入步骤013。

步骤013.将采用全局回归方法获得各个验证采样点土壤有机碳的预测值与该各个验证 采样点土壤有机碳的地理加权回归克里格预测值,进行交叉验证,确定最优计算方法,进入 步骤018。

步骤014.获得该最优验证采样点土壤有机碳预测值所对应的地理加权岭回归系数集合 LoR_GWRR_StepVar,采用皮尔逊相关系数指标计算该地理加权岭回归系数集合 LoR_GWRR_StepVar中两两不同种类土壤独立变量间的相关矩阵,构成该地理加权岭回归系数 集合LoR_GWRR_StepVar的相关矩阵;并且针对该最优验证采样点土壤有机碳预测值所对应独 立变量源数据集合的相关矩阵、该最优验证采样点土壤有机碳预测值所对应的地理加权岭回 归系数集合LoR_GWRR_StepVar,以及该地理加权岭回归系数集合LoR_GWRR_StepVar的相关 矩阵,采用至少一种共线性诊断工具进行分析,判断获得该最优验证采样点土壤有机碳预测 值所对应回归方法和独立变量源数据集合的局部回归共线性问题情况,并进入步骤015。

步骤015.根据各个验证采样点的土壤有机碳采集数值和采用地理加权岭回归方法获得 各个验证采样点土壤有机碳的预测值,获得该各个验证采样点土壤有机碳的预测值对应的残 差集合,采用矩阵法(MOM)分析该残差集合的空间趋势,进入步骤016。

步骤016.针对该残差集合进行普通克里格插值,将采用地理加权岭回归方法获得各个 验证采样点土壤有机碳的预测值与该残差集合中对应的插值结果进行叠加,生成该各个验证 采样点新的土壤有机碳的预测值,即该各个验证采样点土壤有机碳的地理加权回归克里格预 测值,进入步骤017。

步骤017.将采用地理加权岭回归方法获得各个验证采样点土壤有机碳的预测值与该各 个验证采样点土壤有机碳的地理加权回归克里格预测值,进行交叉验证,确定最优计算方法, 进入步骤018。

根据上述步骤006至步骤017所述,若执行步骤006的结果显示该最优验证采样点土壤 有机碳预测值所对应的回归方法为地理加权回归方法,并指出该最优验证采样点土壤有机碳 预测值所对应的地理加权回归系数集合为LoR_GWR_StepVari,独立变量源数据集合为 StepVari,则进入步骤007,继续执行步骤007至步骤010,最后执行步骤018。其中,步骤 007至步骤010具体过程如下:

步骤007.根据最优验证采样点土壤有机碳预测值,获得该最优验证采样点土壤有机碳 预测值所对应的地理加权回归系数集合LoR_GWR_StepVari,采用皮尔逊相关系数指标计算该 地理加权回归系数集合LoR_GWR_StepVari中两两不同种类土壤独立变量间的相关矩阵,构成 该地理加权回归系数集合LoR_GWR_StepVari的相关矩阵;并且针对该最优验证采样点土壤有 机碳预测值所对应独立变量源数据集合StepVari的相关矩阵、该最优验证采样点土壤有机碳 预测值所对应的地理加权回归系数集合LoR_GWR_StepVari,以及该地理加权回归系数集合 LoR_GWR_StepVari的相关矩阵,采用至少一种共线性诊断工具进行分析,判断获得该最优验 证采样点土壤有机碳预测值所对应地理加权回归方法和独立变量源数据集合StepVari的局 部回归共线性问题情况,并进入步骤008。

其中,首先针对该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合 StepVari的相关矩阵,以及该最优验证采样点土壤有机碳预测值所对应的地理加权回归系数 集合LoR_GWR_StepVari的相关矩阵,进行一一对比,若该对应的地理加权回归系数集合 LoR_GWR_StepVari的相关矩阵中存在50%以上相关性指数小于该对应独立变量源数据集合 StepVari的相关矩阵中同样位置的相关性指数,则说明该最优验证采样点土壤有机碳预测值 所对应地理加权回归方法和独立变量源数据集合StepVari的局部回归共线性问题并不特别 严重;

获得该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合StepVari对应的 方差膨胀因子矩阵VIF_GWR_StepVari={VIFDEMi,VIFSlopei,VIFTWIi,VIFLandUseli,VIFMAATi},构成局 部方差膨胀因子矩阵;同时获得所述土壤采样区中所有采样点对应该独立变量源数据集合中 各变量种类的方差膨胀因子,构成全局方差膨胀因子集合VIF_OLS={VIFDEM,VIFSlope,VIFTWI, VIFLandUse1,VIFMAAT},并作如下判断:

若局部方差膨胀因子矩阵中每一列的均值小于10,则说明该最优验证采样点土壤有机碳 预测值所对应地理加权回归方法和独立变量源数据集合StepVari的局部回归共线性问题不 严重;

若局部方差膨胀因子矩阵中每一列的均值大于10,且全局方差膨胀因子集合中对应变量 种类的方差膨胀因子也大于10,则说明该最优验证采样点土壤有机碳预测值所对应地理加权 回归方法和独立变量源数据集合StepVari的局部回归共线性问题不严重;

否则说明该最优验证采样点土壤有机碳预测值所对应地理加权回归方法和独立变量源数 据集合StepVari存在潜在的共线性问题;

针对该最优验证采样点土壤有机碳预测值所对应独立变量源数据集合StepVari中方差 膨胀因子值大于10的独立变量,以及该最优验证采样点土壤有机碳预测值所对应地理加权 回归系数集合LoR_GWR_StepVari中方差膨胀因子值大于10的独立变量,分别进行两两散点 图分析,如果所对应地理加权回归系数集合LoR_GWR_StepVari中独立变量的散点图比所对应 的独立变量源数据集合StepVari中独立变量的散点图更无规律,则说明该最优验证采样点土 壤有机碳预测值所对应地理加权回归方法和独立变量源数据集合StepVari的共线性问题可 以忽略;否则,则说明该最优验证采样点土壤有机碳预测值所对应地理加权回归方法和独立 变量源数据集合StepVari存在较为严重的共线性问题,如图10(a)、图10(b),说明土壤 高程数据(DEM)与土壤年均气温(MAAT)局部回归系数间相关性(图10(b))要显著低于 二者独立变量间相关性(图10(a)),证明当前的共线性问题可接受。

步骤008.根据各个验证采样点的土壤有机碳采集数值和采用地理加权回归方法获得各 个验证采样点土壤有机碳的预测值,获得该各个验证采样点土壤有机碳的预测值对应的残差 集合,采用矩阵法(MOM)分析该残差集合的空间趋势,分析结果如图11所示,进入步骤009。

步骤009.针对该残差集合进行普通克里格插值,将采用地理加权回归方法获得各个验 证采样点土壤有机碳的预测值与该残差集合中对应的插值结果进行叠加,生成该各个验证采 样点新的土壤有机碳的预测值,即该各个验证采样点土壤有机碳的地理加权回归克里格预测 值,进入步骤010。

步骤010.将采用地理加权回归方法获得各个验证采样点土壤有机碳的预测值与该各个 验证采样点土壤有机碳的地理加权回归克里格预测值,进行交叉验证,确定最优计算方法, 进入步骤018。

步骤018.根据获得的最优方法,以及该最优验证采样点土壤有机碳预测值所对应的独 立变量源数据集合,针对土壤采样区所在的研究区域进行土壤有机碳预测,最终输出结果文 件,如图12(a)、图12(b)所示。

综上所述,本发明设计的基于地理加权回归的土壤有机碳预测方法,综合了全局回归与 其它空间属性预测方法中独立变量的预处理技术,运用了异常值剔除机制、数据标准化机制、 哑变量转换机制对不同数据类型的独立变量进行标准化处理,最大程度地减少独立变量的冗 余度,确保局部回归方法的正确实施;提出对比使用主成分分析与逐步回归选择独立变量方 法,可以最大程度地表达目标变量的局部空间分异特征,同时,通过交叉验证结果,能够更 好地消除共线性,改善某些消除共线性方法中过分删除独立量的缺点,保留足够多的重要独 立变量,充分保证独立变量能够表达非独立变量的空间变异特征;并且在未来环境数据越加 丰富的计算背景下,可用于独立变量的客观、高效选取,提供比传统方法更高的计算效率和 预测精度;具体提出了一套通用的地理加权回归中独立变量共线性问题综合诊断与处理机制, 通过集成运用多种现有共线性诊断工具,对比分析独立变量在局部回归中的共线性程度,最 后采用交叉验证的方法,对局部回归与局部岭方法进行对比分析,判定当前地理加权回归方 法在特定数据集的适用性,提升了空间属性预测的计算效率与精度,并且该方法动态、综合 地共线性诊断方法有望克服单一诊断方法的局限性,具有较好的普适性与稳定性,具有广阔 的工业化应用前景;还涉及到黑盒对比的工作方式——通过不同的机制遴选出两种最优的回 归集合,根据不同的数学模型进行三种回归方式与一种复合地统计方法进行预测,充分考虑 了目标变量的相关性和变异性,最大程度上提升计算结果的准确性。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式, 例如采用上述设计技术方案架构,还可以应用于处理研究区域的气温预测,研究区域的人均 收入预测,按上述设计方案结构,以空间作为研究区域,预测项目做目标属性(类似本发明 设计中的土壤有机碳(SOC)),实现研究领域的目标属性预测,在本领域普通技术人员所具备 的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号