首页> 中国专利> 一种基于自适应k近邻的地球化学元素含量赋值方法

一种基于自适应k近邻的地球化学元素含量赋值方法

摘要

本发明公开了一种基于自适应k近邻的地球化学元素含量赋值方法,包括以下步骤:使用因素的自适应权重算法计算影响因素的权重;使用自适应确定k近邻算法计算未知样本的k近邻;使用k近邻样本的自适应相似度算法计算k近邻已知样本与未知样本的相似度;对未知样本赋值。本发明提出因素的自适应权重算法,有效区分化学元素变化影响因素的控制力度;并提出k近邻样本的自适应相似度算法,k近邻已知样本与未知样本越相似,相似度距离越小;根据相似度距离计算k近邻已知样本与未知样本的相似度,相似度距离越小,相似度越大,有效区分k近邻已知样本对未知样本赋值的影响程度,对异常已知样本有较高的容忍性,具有较好的抗噪能力。

著录项

  • 公开/公告号CN115114577A

    专利类型发明专利

  • 公开/公告日2022-09-27

    原文格式PDF

  • 申请/专利号CN202210856253.3

  • 申请日2022-07-13

  • 分类号G06F17/17(2006.01);

  • 代理机构湖北创融蓝图知识产权代理事务所(特殊普通合伙) 42276;

  • 代理人羊淑梅

  • 地址 430034 湖北省武汉市硚口区古田五路九号

  • 入库时间 2023-06-19 17:09:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-18

    实质审查的生效 IPC(主分类):G06F17/17 专利申请号:2022108562533 申请日:20220713

    实质审查的生效

  • 2022-09-27

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种基于自适应k近邻的地球化学元素含量赋值方法。

背景技术

土地质量地球化学评价是指使用地球化学元素等指标对土地进行评级,是合理规划利用土地资源,避免土地资源浪费,减轻环境污染的一项必不可少的工作。但是,存在客观原因导致某些样本的地球化学元素值缺失。例如,自然条件限制科研人员无法到达某些区域采样。因此,需要一种地球化学元素含量赋值方法,对未知样本赋值,以便完成土地质量地球化学评价工作。

在背景复杂、化学元素控制因素明确且控制程度强烈的区域,通常使用三因素赋值法对未知样本赋值。这种方法在未知样本指定的二维欧氏距离的范围内,结合地质背景、土壤类型、土地利用类型三因素由近及远地筛选有效样本,计算有效样本的化学元素平均值对未知样本赋值。这种方法遵循距离相近和地质属性相似的原则,符合地质演变规律,能取得较好的赋值结果。但是,这种方法需要为未知样本指定筛选有效样本的距离范围,智能化程度不高。另外,实际调查发现,地质背景、土壤类型、土地利用类型三个因素对化学元素含量变化影响程度不同,但这种方法将存在与未知样本三因素值相同的已知样本作为有效样本,没有区分三因素对化学元素变化的控制程度。并且,如果在指定的范围内无法筛选出有效样本,则无法对未知样本赋值。赋值时,没有区分不同有效样本对未知样本赋值的影响程度,且容易受异常值的影响,赋值精度有待提高。

因此,一种基于自适应k近邻的地球化学元素含量赋值方法亟待提出。

发明内容

为解决现有技术存在的缺陷,本发明提供一种基于自适应k近邻的地球化学元素含量赋值方法。

为了解决上述技术问题,本发明提供了如下的技术方案:

本发明提供一种基于自适应k近邻的地球化学元素含量赋值方法,包括以下步骤:

步骤1:使用因素权重的自适应计算方法计算地质背景、土壤类型、土地利用类型、海拔四个影响因素的权重;其中,因素权重的自适应计算方法简称因素的自适应权重算法;

步骤2:对未知样本,在所有已知样本中,使用自适应确定k近邻算法计算其k近邻;

步骤3:使用k近邻已知样本与未知样本间相似度的自适应计算方法计算k近邻已知样本与未知样本的相似度;其中,k近邻已知样本与未知样本间相似度的自适应计算方法简称k近邻样本的自适应相似度算法;

步骤4:根据k近邻已知样本及其与未知样本的相似度对未知样本赋值。

进一步的,所述步骤1中因素的自适应权重算法,针对不同化学元素,为地质背景、土壤类型、土地利用类型、海拔四个影响因素分配权重,有效区分四个因素对化学元素含量变化的影响程度;具体包括以下步骤:

步骤11:随机选择100个已知样本,记为x

步骤13:记k近邻样本与x

步骤14:统计a

步骤15:计算地质背景、土壤类型、土地利用类型、海拔四个影响因素的权重w

进一步的,所述步骤2,对所有k值等于0的未知样本,置k值等于其他未知样本的k值的平均值。

进一步的,所述步骤2和步骤12,在样本集中,使用自适应确定k近邻算法计算样本x

步骤21:初始化k=1;

步骤22:记x

步骤23:k=k+1,执行步骤22;

步骤24:

进一步的,所述步骤3,k近邻样本的自适应相似度算法包括以下步骤:

步骤31:计算k近邻已知样本到未知样本的相似度距离D:

其中,ω

若已知样本和未知样本的地质背景相同,则所述已知样本到未知样本的地质背景距离为0,否则为1;若已知样本和未知样本的土壤类型相同,则所述已知样本到未知样本的土壤类型距离为0,否则为1;若已知样本和未知样本的土地利用类型相同,则所述已知样本到未知样本的土地利用类型距离为0,否则为1;所述k近邻已知样本到未知样本的海拔距离d

步骤311:计算k近邻已知样本与未知样本的海拔之差的绝对值d′

d′

其中,h

步骤312:判断步骤41中d′

步骤313:计算k近邻已知样本到未知样本的海拔距离d

d

其中,d

步骤314:将d′

其中,min(d′

步骤32:计算k近邻已知样本与未知样本的相似度υ

其中,D

进一步的,所述步骤4,对未知样本赋值R:

其中,υ

本发明相较于现有技术,具有以下有益效果:

(1)本发明提出自适应确定k近邻算法,根据二维欧氏距离由近及远,搜索存在与未知样本三因素值相同的已知样本,确定k近邻,使得未知样本一定能搜索到k近邻已知样本进而获得赋值;另外,无需指定任何参数,智能化程度高;

(2)本发明提出因素权重的自适应计算方法(简称,因素的自适应权重算法),算法自主从已知样本中学习,针对不同的化学元素,计算影响化学元素变化的因素的权重,对化学元素变化影响程度较大的因素分配较大的权重,有效区分化学元素变化影响因素的控制力度,更为科学合理;

(3)本发明提出k近邻已知样本与未知样本间相似度的自适应计算方法(简称,k近邻样本的自适应相似度算法),定义相似度距离公式,计算k近邻已知样本的相似度距离,度量k近邻已知样本与未知样本的相似性,k近邻已知样本与未知样本越相似,相似度距离越小;根据相似度距离计算k近邻已知样本与未知样本的相似度,相似度距离越小,相似度越高,有效区分k近邻已知样本对未知样本赋值的影响程度,对异常已知样本有较高的容忍性,具有较好的抗噪能力;

(4)实际调查发现,在地质背景、土壤类型、土地利用类型三个因素相同的情况下,不同的海拔,化学元素含量差异较大,本发明考虑海拔作为影响因素之一;综合考虑地质背景、土壤类型、土地利用类型、海拔计算未知样本与k近邻已知样本的相似度,进一步提高赋值精度。

附图说明

图1是本发明一种基于自适应k近邻的地球化学元素含量赋值方法的工作流程图;

图2是本发明中因素的自适应权重算法的工作流程图;

图3是本发明中使用自适应确定k近邻算法计算未知样本的k近邻的工作流程图;

图4是本发明中k近邻样本的自适应相似度算法的工作流程图;

图5是本发明中k近邻已知样本到未知样本的海拔距离d4计算方法的工作流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

如图1至图5所示,本实施例提供一种基于自适应k近邻的地球化学元素含量赋值方法,包括以下步骤:

步骤1:使用因素权重的自适应计算方法计算地质背景、土壤类型、土地利用类型、海拔四个影响因素的权重;其中,因素权重的自适应计算方法简称因素的自适应权重算法,针对不同化学元素,为地质背景、土壤类型、土地利用类型、海拔四个影响因素分配权重,有效区分四个因素对化学元素含量变化的影响程度;如图2所示,具体包括以下步骤:

步骤11:随机选择100个已知样本,记为x

步骤12:对被选择的样本x

步骤13:记k近邻样本与x

步骤14:统计a

步骤15:计算地质背景、土壤类型、土地利用类型、海拔四个影响因素的权重w

步骤2:对未知样本,在所有已知样本中,使用自适应确定k近邻算法计算其的k近邻;对所有k值等于0的未知样本,置k值等于其他未知样本的k值的平均值;所述步骤2和步骤12,在样本集中,使用自适应确定k近邻算法计算样本x

步骤21:初始化k=1;

步骤22:记x

步骤23:k=k+1,执行步骤22;

步骤24:

步骤3:使用k近邻已知样本与未知样本间相似度的自适应计算方法计算k近邻已知样本与未知样本的相似度;其中,如图4所示,k近邻样本的自适应相似度算法具体包括以下步骤:

步骤31:计算k近邻已知样本到未知样本的相似度距离D:

其中,w

若已知样本和未知样本的地质背景相同,则所述已知样本到未知样本的地质背景距离为0,否则为1;若已知样本和未知样本的土壤类型相同,则所述已知样本到未知样本的土壤类型距离为0,否则为1;若已知样本和未知样本的土地利用类型相同,则所述已知样本到未知样本的土地利用类型距离为0,否则为1;如图5所示,所述k近邻已知样本到未知样本的海拔距离d

步骤311:计算k近邻已知样本与未知样本的海拔之差的绝对值d′

d′

其中,h

步骤312:判断步骤41中d′

步骤313:计算k近邻已知样本到未知样本的海拔距离d

d

其中,d

步骤314:将d′

其中,min(d′

步骤32:计算k近邻已知样本与未知样本的相似度v

其中,D

步骤4:根据k近邻已知样本及其与未知样本的相似度对未知样本赋值,对未知样本赋值R:

其中,v

本实施例以某地区表层土壤数据为例,说明基于自适应k近邻的地球化学元素含量赋值方法:

表1为某地区表层土壤数据,其中,S01、S02、…、S07为已知样本,S08、S09、S10为未知样本,需要给未知样本的N元素含量赋值。

表1,某地区表层土壤数据

使用本发明搜索未知样本的k近邻已知样本进行赋值:

步骤1:针对N元素,使用因素的自适应权重算法,为地质背景、土壤类型、土地利用类型、海拔四个影响因素分配权重:

1.1初始化n

1.2确定已知样本的k近邻;

例,确定样本S05的k近邻:

初始化k=1;

计算其到其余所有已知样本的二维欧氏距离,如表2:

表2,样本S05到其余所有已知样本的二维欧氏距离

按二维欧氏距离递增顺序为:S07、S01、S06、S03、S02、S04;

由于样本S07与S05的土壤类型、土地利用类型相同,k=k+1;

由于样本S01与S05的土壤类型、土地利用类型相同,k=k+1;

由于样本S06与S05的土壤类型、土地利用类型相同,k=k+1;

由于样本S03与S05的土地利用类型相同,k=k+1;

由于样本S02与S05的土地利用类型相同,k=k+1;

由于样本S04与S05的地质背景、土壤类型、土地利用类型都不相同,k=k-1;此时,k=5,确定样本S05的k近邻:样本S07、S01、S06、S03、S02。

例,确定样本S04的k近邻:

初始化k=1;

计算其到其余所有已知样本的二维欧氏距离,如表3:

表3,样本S04到其余所有已知样本的二维欧氏距离

按二维欧氏距离递增顺序为:S02、S03、S05、S07、S01、S06;

由于样本S02与S04的地质背景、土壤类型、土地利用类型都不相同,k=k-1;

此时,k=0,置k值为其他已知样本的k值的平均值,即

则,确定样本S04的k近邻:样本S02、S03、S05。

类似的,确定已知样本的k近邻,如表4:

表4,确定已知样本的k近邻

1.3统计n

例,对样本S05:

样本S05的k近邻中,N元素含量与样本S05相差最小的是样本S07;

由于样本S07与S05的地质背景不相同,土壤类型和土地利用类型相同,样本S05的k近邻中,海拔与样本S05相差最小的是样本S02,而非样本S07;从而,

n

n

n

n

类似的,统计n

表5,n

1.4计算地质背景、土壤类型、土地利用类型、海拔四个影响因素的权重w

表6,权重w

步骤2:确定未知样本的k近邻

例,确定样本S09的k近邻:

初始化k=1;

计算其到其余所有已知样本的二维欧氏距离,如表7:

表7,样本S09到已知样本的二维欧氏距离

按二维欧氏距离递增顺序为:S05、S07、S01、S06、S03、S02、S04;

由于样本S05与S09的土地利用类型相同,k=k+1;

由于样本S07与S09的土地利用类型相同,k=k+1;

由于样本S01与S09的地质背景、土地利用类型相同,k=k+1;

由于样本S06与S09的土地利用类型相同,k=k+1;

由于样本S03与S09的地质背景、土壤类型、土地利用类型相同,k=k+1;

由于样本S02与S09的地质背景、土壤类型、土地利用类型相同,k=k+1;

由于样本S04与S09的地质背景、土壤类型、土地利用类型都不相同,k=k-1;

此时,k=6,确定样本S09的k近邻:样本S05、S07、S01、S06、S03、S02。

例,确定样本S10的k近邻:

初始化k=1;

计算其到其余所有已知样本的二维欧氏距离,如表8:

表8,样本S10到已知样本的二维欧氏距离

按二维欧氏距离递增顺序为:S01、S06、S07、S05、S03、S02、S04;

由于样本S01与S10的地质背景、土壤类型、土地利用类型都不相同,k=k-1;

此时,k=0,置k值为其他已知样本的k值的平均值,即置k=6;

则,确定样本S10的k近邻:样本S01、S06、S07、S05、S03、S02。

类似的,确定未知样本的k近邻,如表9:

表9,确定未知样本的k近邻

步骤3:计算k近邻已知样本与未知样本的相似度

例,计算样本S05与S09的相似度:

计算样本S05到S09地质背景距离、土壤类型距离、土地利用类型距离:

由于样本S05与S09的地质背景距离、土壤类型距离不相同,土地利用类型相同,从而,

d

d

d

计算样本S09的k近邻已知样本到S09的海拔距离:

首先,计算样本S09与其k近邻已知样本的海拔之差的绝对值,如表10:

表10,样本S09与其k近邻已知样本的海拔之差的绝对值

由于表10海拔差的绝对值的最大值是907.9,最小值是7.8,二者不相等;

从而,将表10海拔差的绝对值进行最大值最小值归一化,得到样本S09的k近邻已知样本到S09的海拔距离d

表11,样本S09的k近邻已知样本到S09的海拔距离

则样本S05到S09的相似度距离D:

其中,w

计算样本S05与S09的相似度v:

其中,D为样本S05到S09的相似度距离,D

类似的,计算未知样本的k近邻已知样本的相似度,如表12:

表12,k近邻已知样本与未知样本的相似度

步骤4,对未知样本赋值

例,对样本S09赋值

其中,v

类似的,对未知样本赋值,如表13:

表13,对未知样本N元素赋值结果

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号