法律状态公告日
法律状态信息
法律状态
2019-10-22
未缴年费专利权终止 IPC(主分类):G06K9/46 授权公告日:20150812 终止日期:20181029 申请日:20121029
专利权的终止
2015-08-12
授权
授权
2013-03-20
实质审查的生效 IPC(主分类):G06K9/46 申请日:20121029
实质审查的生效
2013-02-13
公开
公开
技术领域
本发明涉及一种基于Cramer’s V指数的高分辨遥感影像特征选择方法。
背景技术
由于高空间分辨影像能够快速精确地获取地物的景观结构、几何形状、纹理等细节信息,在较小的空间尺度上观察地表的细节变化,因而高分辨率影像已经广泛应用于地表的精确监测和各种地类信息的获取,在土地利用更新、自然资源和环境调查、国防、管线、电信、城市规划管理、自然灾害监测、海岸带和海洋制图等各个方面已开展了广泛的应用。然而,尽管高分辨率遥感影像的空间分辨率很高,成像光谱通道却很少,这导致影像中光谱信息具有很大的不确定性。主要表现在:地物的光谱分布变化大,不同地物的光谱相互重叠,地物信息呈现高度细节化,同类地物的光谱差异变大,异类目标的光谱相互重叠。为了精度地获取地表信息,人们普遍从以下两方面进行改进:(1)采用面向对象的遥感影像处理技术,对影像进行多尺度的对象分割,并从分割斑块中提取各种光谱、形状和纹理等的对象解译特征;(2)增加辅助数据或专家经验知识以弥补遥感数据解译过程中光谱信息的模糊性和不确定性。这两个过程一方面导致待处理的数据维数大量增加,另一方面导致数据类型的复杂化,使得解译的数据包含连续型数据、离散型数据和语义型数据等混合类型。那么如何从高维复杂的特征数据中自动、快速、有效地获取最优特征子集是遥感数据处理的一个关键问题,目前这个过程通常采用人工选取的模式,由专家根据相关经验或可视化显示,人工判读地选取相关特征子集。这种作业方式费时费力,既不能保证选择的特征子集是特征的优化组合,也不利于影像的自动化解译,无法满足大规模批量影像处理的实际需求。
由于遥感信息处理具有以下特点:(1)特征维数高,遥感数据兼具光谱、形状、纹理、时空信息等多种特征;(2)数据类型复杂,可能包括连续变量、离散变量、语义变量等多种类型数据;(3)特征冗余大,由于空间相关和异质性,遥感的影像特征冗余度一般很高;(4)数据量大,遥感处理的数据通常是TB级的海量数据;(5)地学规律,地学分析通常需要结合相关领域的专家知识。这些特点导致目前的特征选择方法不能在特性选择的效率与精度,特性选择的稳定性与冗余剔除、融合和处理语义数据的简便性等方面满足遥感数据处理的要求。因而,表明发展适合遥感数据特点的特征选择技术和方法仍然是遥感信息处理的关键问题。
特征选择是指从一组已知特征集中按照某种准则选择出最有效的特征子集,以实现特征空间维数的压缩、计算资源的节省以及分类效果的稳定。特征选择可以表述为:从已获得的
一般地,特征选择分为基于滤波器(filter-based)、基于包容器(wrapper-based)和基于嵌入式(embeded-based)三种类型。基于滤波器的特征选择方法通常不依赖特定的分类器,具有计算简单,速度快和可解释性等特点,非常适合于地学相关应用。目前,常用的滤波器特征选择标准有基于特征方差最大化标准、基于特征空间点的几何距离标准、以及基于特征信息熵(信息互熵)标准等。采用方差最大标准是保留数据集中方差较大的特征,而舍弃方差较小特征的思想。这类方法计算简单,但由于仅利用了数据的方差信息,没有顾及到类别信息,在复杂数据集上获取的特征子集并不有效。基于特征空间中点的几何距离标准(如Fisher分数方法),选择有效特征的思路是选择类内相似性较大,而类间相似性较小的那组特征。虽然Fisher分数综合利用了类别的信息,实验表明该方法对于多峰性数据和离群数据处理效果较差。此外,还容易受数据中噪声干扰,不适用于那些包含“哑变量”或语义变量的数据集。基于特征信息熵标准利用信息互熵描述两个变量间的统计相关性,具有较好的理论基础,但该类方法需要特征的联合概率密度分布信息,而联合概率密度通常难以有效估计,在特征维数很大时难以计算。近年来,基于概率统计标准,如卡方检验(Chi2)和相关函数特征选择(CFS)等广泛应用在遥感特征提取与选择中。Chi2方法通过检测特征的独立性来选择特征,虽然计算较为简单,但独立性检验结果容易受样本数量大小影响。一个通过卡方检验为显著性的依存关系的两个特征可能是由于样本数目,而不是特征本身的特性引起的。CFS方法的特点在于利用特征间的相关系数来构造一个特征选择指标,选择特征计算效率很高,但实验表明它处理复杂数据时剔除冗余特征的能力不强。最近,本人提出一种最大与最小关联指数的特征子集选择方法,利用Cramer’s V的关联性来选取那些同时满足与目标属性具有最大关联性而特征子集内部具有最小关联性的特征。相关试验测试结果表明该方法具有很好效果。但目前该方法在计算Cramer’s V值时,采用等区间划分来获取连续特征的离散值,没有顾及目标属性的信息。这导致了离散结果很容易受数据分布和“离群数据”影响,一定程度上降低了特征选择的效果。在离散化过程中引入目标信息将大大地改善离散化和特征选择的结果。此外,由于该方法在特征选择中需要大量地计算特征间的列联表,导致计算效率不高。以高性能并行计算技术来增强现有搜索算法将极大地增强现有算法的计算效率。
发明内容
本发明的目的在于提供一种基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,该方法特征选择效果好,能够有效提高遥感影像的分类精度。
为实现上述目的,本发明的技术方案是:一种基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,包括以下步骤:
步骤1:对获取的遥感影像进行预处理以及影像特征提取;
步骤2:基于Cramer’s V关联指数的连续特征离散化并行处理;
步骤3:并行处理获取两两特征间的列联表;
步骤4:基于Cramer’s V关联指数的特征选择。
在本发明一实施例中,遥感影像预处理过程包括以下步骤:
步骤1.1:根据获取的遥感影像数据源的影像质量,进行相应的预处理,包括几何与辐射校正、影像拼接与裁剪、影像复原与去噪或影像增强与融合;
步骤1.2:提取影像特征:在eCognition平台下对遥感影像进行多尺度分割,或采用模式识别或数据挖掘技术对遥感影像进行分割,从分割斑块中提取影像的光谱、形状和纹理特征,结合地理数据(如规划数据、位置数据),并对非栅格数据进行栅格化处理后,共同组成一个
步骤1.3:根据影像中地物实际的分布和分类类别,利用样区工具选择N个训练样本,确认出样区的类别标示,建立这N个样本数据与类别标示的一一对应关系,形成N个
在本发明一实施例中,基于Cramer’s V的连续特征离散化并行处理过程包括以下步骤:
步骤2.1:对
步骤2.2:初始化离散化划分
步骤2.3:从B中取出一个分割点,加入到划分
计算CVD值时,需要建立特征
步骤2.3.1:获取并行处理系统中处理器的节点数目
步骤2.3.2:估计各处理器的处理时间
步骤2.3.3:根据节点的负载平衡,按照B中
步骤2.3.4:每个节点产生一个大小为
步骤2.3.5:在各节点利用列联表计算
其中,
步骤2.4:当完成B中全部可能的分割点所对应的CVD值计算后,收集器收集各处理节点计算的
步骤2.5:扫描
步骤2.6:重复步骤2.1~2.5,循环对其它的特征
步骤2.7:完成对全部特征
在本发明一实施例中,两两特征间的列联表的获取方式为:基于存储的离散化数据,在MPICH2平台下采用分布式并行计算,按如下步骤实现:
步骤3.1:获取并行处理系统中处理器的节点数目
步骤3.2:估计各处理器的处理时间
步骤3.3:根据节点的负载平衡,按照特征维数与样本数目对输入数据进行任务划分,并发送到各处理节点;
步骤3.4:每个节点产生一个大小为
步骤3.5:收集器累加各处理节点产生的列联表,得出输入数据的全体列联表;对全体列联表行和列的合计栏进行扫描,如果合计栏中某元素为零,则删除列联表中对应的行或列。
在本发明一实施例中,Cramer’s V关联系数定义为
步骤4.1:建立一个空集合
步骤4.2:利用存储的GCVD值来评估各特征
步骤4.3:以并行处理方式获取集合
步骤4.4:根据所生成的列联表,计算两两特征间的Cramer’s V关联系数值,并分别求出集合
步骤4.5:根据Cramer’s V关联指数模型,选择指数模型中最大值所对应的那个特征
步骤4.6:从
步骤4.7:重复以上步骤4.3~4.6,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
与现有技术相比,本发明的有益效果是:
1、适合于混合特征数据类型,特征选择效果好,鲁棒性强。该方法具有很好的特征选择效果,显著优于现有的同类特征选择方法mRMR,ReliefF,CFS等选择效果。由于特征关联指标采用CVD离散化变量,并利用频率值或累计值为计算依据,特征中包含的噪声或者离群数据对特征选择结果不会造成明显影响。此外,Cramer’s V统计值不受样本数量大小的影响,适合各种计算场合。
2、能够处理复杂的影像输入特征,适用性强。该方法只需要获取样本中某事件出现的频率表,此外对输入的特征数据类型没有任何限制,适用于连续型数据,离散型数据以及语义型数据的混合数据。该方法属于滤波型特征选择方法,特征选择的标准与过程与具体的分类器无关,适用于所有分类器,方便后续图像处理与应用。
3、具有很强的冗余特征剔除能力。由于Cramer’s V关联指数特征选择方法综合了特征与目标以及特征之间的关联性,所选择的特征满足特征与类别目标的关联性尽可能大,而特征之间的关联性尽可能小。这等效于对冗余特征具有很强的惩罚效果,因而特征子集中的特征冗余度很低。
4、采用并行化计算模式,特征选择效率高。该方法采用增量式的特征选择方式,计算效率很高,适用于高维数据处理。实现过程中,耗时最大的连续特征离散化与特征间的列联表计算过程或步骤均采用简单的分布式并行计算策略,极大地提高了计算效率。
5、应用范围广。本方法不仅限于遥感影像处理,可以广泛应用于各种高维度和复杂类型数据集(如文本、图像,医学诊断和基因数据等)的模式分类,数据挖掘和可视化等问题。
6、CVD离散化结果提供了对原始数据的紧凑表达,有利于领域知识规则的发现和提取,便于专家对地学规则的理解和解释,并且离散化的数据能够显著提高分类器(如Naive Bayer)的分类精度。
附图说明
图1是本发明的实现流程图。
图2是本发明基于Cramer’s V 的连续特征离散化的实现流程图。
图3是本发明采用并行计算方式获取列联表的实现流程图。
图4是本发明特征选择步骤的实现流程图。
具体实施方式
本发明基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,如图1所示,包括以下步骤:
步骤1:对获取的遥感影像进行预处理以及影像特征提取;
步骤2:基于Cramer’s V关联指数的连续特征离散化并行处理;
步骤3:并行处理获取两两特征间的列联表;
步骤4:基于Cramer’s V关联指数的特征选择。
在步骤1中,遥感影像预处理过程包括以下步骤:
步骤1.1:根据获取的光学遥感影像数据源的影像质量,进行相应的预处理,包括几何与辐射校正、影像拼接与裁剪、影像复原与去噪或影像增强与融合等过程;
步骤1.2:提取影像特征:在eCognition平台下对遥感影像进行多尺度分割,或采用模式识别或数据挖掘技术(如中值漂移分割等)对遥感影像进行分割,从分割斑块中提取影像的光谱、形状和纹理等特征,结合其他地理辅助数据(如规划数据、位置数据),并对非栅格数据进行栅格化处理后,共同组成一个
步骤1.3:根据影像中地物实际的分布和分类类别,利用样区工具选择N个训练样本,确认出样区的类别标示,建立这N个样本数据与类别标示的一一对应关系,形成N个
本方法采用Cramers’ V进行连续数据离散化(CVD),以实现离散化结果与目标属性具有最大的关联性。通常采用列联表来计算Cramers’ V值,本方法所指的列联表是由两个以上的变量进行交叉分类的频数分布表。假设
则本方法提出的基于Cramers’ V的连续特征离散化准则定义为
其中
如图2所示,在步骤2中,基于Cramer’s V的连续特征离散化过程包括以下步骤:
步骤2.1:对
步骤2.2:初始化离散化划分
步骤2.3:从B中取出一个分割点,加入到划分
计算CVD值时,需要建立特征
步骤2.3.1:获取并行处理系统中处理器的节点数目
步骤2.3.2:估计各处理器的处理时间
步骤2.3.3:根据节点的负载平衡,按照B中
步骤2.3.4:每个节点产生一个大小为
步骤2.3.5:在各节点利用列联表计算
其中,
步骤2.4:当完成B中全部可能的分割点所对应的CVD值计算后,收集器收集各处理节点计算的
步骤2.5:扫描
步骤2.6:重复步骤2.1~2.5,循环对其它的特征
步骤2.7:完成对全部特征
对每一个特征,CVD离散化算法复杂度的估计值为
如图3所示,在步骤3中,两两特征间的列联表的获取方式为:基于存储的离散和数据,在MPICH2平台下采用分布式并行计算,按如下步骤实现:
步骤3.1:获取并行处理系统中处理器的节点数目
步骤3.2:估计各处理器的处理时间
步骤3.3:根据节点的负载平衡,按照特征维数与样本数目对输入数据进行任务划分,并发送到各处理节点;
步骤3.4:每个节点产生一个大小为
步骤3.5:收集器累加各处理节点产生的列联表,得出输入数据的全体列联表;对全体列联表行和列的合计栏进行扫描,如果合计栏中某元素为零,则删除列联表中对应的行或列。
如图4所示,在步骤4中,Cramer’s V关联系数定义为
步骤4.1:建立一个空集合
步骤4.2:利用存储的GCVD值来评估各特征
步骤4.3:以并行处理方式获取集合
步骤4.4:根据所生成的列联表,计算两两特征间的Cramer’s V关联系数值,并分别求出集合
步骤4.5:根据Cramer’s V关联指数模型,选择指数模型中最大值所对应的那个特征
步骤4.6:从
步骤4.7:重复以上步骤4.3~4.6,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
选用Cramer’s V关联系数值,而不是卡方检验值来表示列联表中变量关联性是由于它不受样本数量大小的影响,其值能够更加客观反映变量之间真实的关联关系;而卡方独立性检验易受样本大小影响。具有两个优势:第一,Cramers’ V的取值与样本数量无关,解决了卡方检验对样本数目比较敏感的问题;第二,Cramers’ V的值在[0,1]之间取值,有利于通过简单的阈值来判断特征间的关联性是否显著。如果Cramers’ V大于0.1,则该两个特征为显著关联。
本产品的用途主要在于:从高维复杂的特征中挖掘和提取出少量“诊断性”的特征作为遥感数据分析(分类)的输入特征,为海量遥感数据信息自动快速处理提供技术基础,可以成为eConginition平台的插件使用,也可以单独使用。直接的用途是改善遥感影像的可视化分析,解决监督分类中面临的“Hugh”现象,提高影像分类的精度和效率。
Cramer’s V关联指数特征选择可以结合Econgition,REDAS IMAGINE和ENVI等专业软件应用。可以通过标准C++语言在MPCHI2平台下实现。结合eCongition影像分类软件的实现过程如下:
第一步,影像预处理与数据准备阶段。首先,对感影像进行必要的几何、辐射(或融合)后,在Ecognition支持下对遥感影像进行多尺度分割。从分割斑块中提取影像的光谱、形状和纹理等特征。多尺度分割过程可以参考Ecognition用户手册。通过人工解译或实地调查方式确认部分像元(样本数据)的分类情况(
第二步,为了获取Cramer’s V值,对输入特征为连续的数据进行离散化划分,将连续分为
第三步,建立一个空集合
第四步,以并行化计算方式获取集合
第五步,根据Cramer’s V关联指数模型的值,选择Cramer’s V关联指数中最大值对应的那个特征
第六步,重复以上第四步、第五步,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。
第七步,根据特征排序或选择情况,本技术可以选择原始特征数据,也可以选择离散化后的特征数据进行影像处理的后续工作。一般情况下离散化的数据能够显著改善原始数据的性能,取得更好的分类和识别效果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
机译: 设置元素结构的特征识别指数的方法和装置,设置分子或分子聚集的特征识别指数的方法和装置,用于产生光控制的光学数据的光学数据的生成方法和装置基于元素结构获得的声音信息的控制信号生成,基于元素结构获得的声音信息,基于计算机可读记录介质的光发射控制的发光器件,以及由计算机执行的程序
机译: 基于特征贡献和模型适应度的机器学习特征选择方法和系统
机译: 基于特征贡献和模型适应度的机器学习特征选择方法和系统