首页> 中国专利> 基于Cramer’s V指数的遥感影像特征选择方法

基于Cramer’s V指数的遥感影像特征选择方法

摘要

本发明涉及一种基于Cramer’sV指数的高分辨遥感影像特征选择方法,包括以下步骤:1)对获取的遥感影像进行预处理以及影像特征提取;2)基于Cramer’sV关联指数的连续特征离散化并行处理;3)并行处理获取两两特征间的列联表;4)基于Cramer’sV关联指数的特征选择。该方法特征选择效果好,效率高,适用性强,能够有效提高遥感影像的分类精度。本方法不仅限于遥感影像处理,可以广泛应用于各种高维度和复杂类型数据集(如文本、图像,医学诊断和基因数据等)的模式分类,数据挖掘和可视化等问题。

著录项

  • 公开/公告号CN102930275A

    专利类型发明专利

  • 公开/公告日2013-02-13

    原文格式PDF

  • 申请/专利权人 福州大学;

    申请/专利号CN201210419609.3

  • 发明设计人 吴波;曹森茂;

    申请日2012-10-29

  • 分类号G06K9/46(20060101);G06K9/62(20060101);

  • 代理机构35100 福州元创专利商标代理有限公司;

  • 代理人蔡学俊

  • 地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区

  • 入库时间 2024-02-19 17:52:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-10-22

    未缴年费专利权终止 IPC(主分类):G06K9/46 授权公告日:20150812 终止日期:20181029 申请日:20121029

    专利权的终止

  • 2015-08-12

    授权

    授权

  • 2013-03-20

    实质审查的生效 IPC(主分类):G06K9/46 申请日:20121029

    实质审查的生效

  • 2013-02-13

    公开

    公开

说明书

技术领域

本发明涉及一种基于Cramer’s V指数的高分辨遥感影像特征选择方法。

背景技术

由于高空间分辨影像能够快速精确地获取地物的景观结构、几何形状、纹理等细节信息,在较小的空间尺度上观察地表的细节变化,因而高分辨率影像已经广泛应用于地表的精确监测和各种地类信息的获取,在土地利用更新、自然资源和环境调查、国防、管线、电信、城市规划管理、自然灾害监测、海岸带和海洋制图等各个方面已开展了广泛的应用。然而,尽管高分辨率遥感影像的空间分辨率很高,成像光谱通道却很少,这导致影像中光谱信息具有很大的不确定性。主要表现在:地物的光谱分布变化大,不同地物的光谱相互重叠,地物信息呈现高度细节化,同类地物的光谱差异变大,异类目标的光谱相互重叠。为了精度地获取地表信息,人们普遍从以下两方面进行改进:(1)采用面向对象的遥感影像处理技术,对影像进行多尺度的对象分割,并从分割斑块中提取各种光谱、形状和纹理等的对象解译特征;(2)增加辅助数据或专家经验知识以弥补遥感数据解译过程中光谱信息的模糊性和不确定性。这两个过程一方面导致待处理的数据维数大量增加,另一方面导致数据类型的复杂化,使得解译的数据包含连续型数据、离散型数据和语义型数据等混合类型。那么如何从高维复杂的特征数据中自动、快速、有效地获取最优特征子集是遥感数据处理的一个关键问题,目前这个过程通常采用人工选取的模式,由专家根据相关经验或可视化显示,人工判读地选取相关特征子集。这种作业方式费时费力,既不能保证选择的特征子集是特征的优化组合,也不利于影像的自动化解译,无法满足大规模批量影像处理的实际需求。

由于遥感信息处理具有以下特点:(1)特征维数高,遥感数据兼具光谱、形状、纹理、时空信息等多种特征;(2)数据类型复杂,可能包括连续变量、离散变量、语义变量等多种类型数据;(3)特征冗余大,由于空间相关和异质性,遥感的影像特征冗余度一般很高;(4)数据量大,遥感处理的数据通常是TB级的海量数据;(5)地学规律,地学分析通常需要结合相关领域的专家知识。这些特点导致目前的特征选择方法不能在特性选择的效率与精度,特性选择的稳定性与冗余剔除、融合和处理语义数据的简便性等方面满足遥感数据处理的要求。因而,表明发展适合遥感数据特点的特征选择技术和方法仍然是遥感信息处理的关键问题。

特征选择是指从一组已知特征集中按照某种准则选择出最有效的特征子集,以实现特征空间维数的压缩、计算资源的节省以及分类效果的稳定。特征选择可以表述为:从已获得的                                                个原始特征中选出特征,使可分性判据的值满足=,其中个原始特征中的任意选择的个特征。

一般地,特征选择分为基于滤波器(filter-based)、基于包容器(wrapper-based)和基于嵌入式(embeded-based)三种类型。基于滤波器的特征选择方法通常不依赖特定的分类器,具有计算简单,速度快和可解释性等特点,非常适合于地学相关应用。目前,常用的滤波器特征选择标准有基于特征方差最大化标准、基于特征空间点的几何距离标准、以及基于特征信息熵(信息互熵)标准等。采用方差最大标准是保留数据集中方差较大的特征,而舍弃方差较小特征的思想。这类方法计算简单,但由于仅利用了数据的方差信息,没有顾及到类别信息,在复杂数据集上获取的特征子集并不有效。基于特征空间中点的几何距离标准(如Fisher分数方法),选择有效特征的思路是选择类内相似性较大,而类间相似性较小的那组特征。虽然Fisher分数综合利用了类别的信息,实验表明该方法对于多峰性数据和离群数据处理效果较差。此外,还容易受数据中噪声干扰,不适用于那些包含“哑变量”或语义变量的数据集。基于特征信息熵标准利用信息互熵描述两个变量间的统计相关性,具有较好的理论基础,但该类方法需要特征的联合概率密度分布信息,而联合概率密度通常难以有效估计,在特征维数很大时难以计算。近年来,基于概率统计标准,如卡方检验(Chi2)和相关函数特征选择(CFS)等广泛应用在遥感特征提取与选择中。Chi2方法通过检测特征的独立性来选择特征,虽然计算较为简单,但独立性检验结果容易受样本数量大小影响。一个通过卡方检验为显著性的依存关系的两个特征可能是由于样本数目,而不是特征本身的特性引起的。CFS方法的特点在于利用特征间的相关系数来构造一个特征选择指标,选择特征计算效率很高,但实验表明它处理复杂数据时剔除冗余特征的能力不强。最近,本人提出一种最大与最小关联指数的特征子集选择方法,利用Cramer’s V的关联性来选取那些同时满足与目标属性具有最大关联性而特征子集内部具有最小关联性的特征。相关试验测试结果表明该方法具有很好效果。但目前该方法在计算Cramer’s V值时,采用等区间划分来获取连续特征的离散值,没有顾及目标属性的信息。这导致了离散结果很容易受数据分布和“离群数据”影响,一定程度上降低了特征选择的效果。在离散化过程中引入目标信息将大大地改善离散化和特征选择的结果。此外,由于该方法在特征选择中需要大量地计算特征间的列联表,导致计算效率不高。以高性能并行计算技术来增强现有搜索算法将极大地增强现有算法的计算效率。

发明内容

本发明的目的在于提供一种基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,该方法特征选择效果好,能够有效提高遥感影像的分类精度。

为实现上述目的,本发明的技术方案是:一种基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,包括以下步骤:

步骤1:对获取的遥感影像进行预处理以及影像特征提取;

步骤2:基于Cramer’s V关联指数的连续特征离散化并行处理;

步骤3:并行处理获取两两特征间的列联表;

步骤4:基于Cramer’s V关联指数的特征选择。

在本发明一实施例中,遥感影像预处理过程包括以下步骤:

步骤1.1:根据获取的遥感影像数据源的影像质量,进行相应的预处理,包括几何与辐射校正、影像拼接与裁剪、影像复原与去噪或影像增强与融合;

步骤1.2:提取影像特征:在eCognition平台下对遥感影像进行多尺度分割,或采用模式识别或数据挖掘技术对遥感影像进行分割,从分割斑块中提取影像的光谱、形状和纹理特征,结合地理数据(如规划数据、位置数据),并对非栅格数据进行栅格化处理后,共同组成一个维特征的影像数据;

步骤1.3:根据影像中地物实际的分布和分类类别,利用样区工具选择N个训练样本,确认出样区的类别标示,建立这N个样本数据与类别标示的一一对应关系,形成N维的样本数组,作为特征选择的输入数据;其中维特征的样本数据,的第维特征,上标为矢量转置,为类别标示,表示类别数;建立一个由N个输入特征波段组成的待处理数据集合,所述待处理数据集合包含有N个输入属性和一个目标属性

在本发明一实施例中,基于Cramer’s V的连续特征离散化并行处理过程包括以下步骤:

步骤2.1:对的每一维连续型的特征,把分成由分割点定义的个离散区间,方法是在删除中可能的重复值后,按从小到大顺序排列,,则分割点B的可能取值为以及, 中剔除重复值后剩余的元素数目;

步骤2.2:初始化离散化划分,设置一个全局变量GCVD=0,的最大分割区间数,并设置初始分割区间数 k=1;

步骤2.3:从B中取出一个分割点,加入到划分中并计算该划分对应的Cramer’s V离散化值,即CVD值;按以上方法分别将B中的每一个可能的分割点加入到划分中,以分别计算出每一种划分对应的CVD值;

计算CVD值时,需要建立特征在每种可能的分割条件下与目标属性的列联表;所述列联表的建立方法为:在MPICH2平台下采用并行计算,按如下步骤实现:

步骤2.3.1:获取并行处理系统中处理器的节点数目、各节点的处理时间和CPU处理速度,并对处理器进行编码

步骤2.3.2:估计各处理器的处理时间:所需处理时间的近似估计方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,

步骤2.3.3:根据节点的负载平衡,按照B中个可能的分割点进行任务划分,并发送到各处理节点;

步骤2.3.4:每个节点产生一个大小为的数组,并按各自分割点取值情况对离散化,形成各自的列联表;

步骤2.3.5:在各节点利用列联表计算在该分割情况下与类别标示的CVD值,计算方法为:

其中,表示在离散化条件下计算特征与类别标示的Cramer’s V值;表示训练样本总数, 表示类别数,的计算公式为表示特征的实际离散化数目,为类别标示为为数目,表示位于第个离散化区间内的样本数目;

步骤2.4:当完成B中全部可能的分割点所对应的CVD值计算后,收集器收集各处理节点计算的值,为B中分割点数目;

步骤2.5:扫描值, 确定出CVD最大值所对应的划分,记为, 方法是如果 CVD()>GCVD或者k<,则用划分 替代,并设置GCVD = CVD(),设置 k=k+1,否则选择的最佳划分,存储与类别标示的GCVD值以备后用,即在最佳分割与目标类别的Cramer‘s V的值;

步骤2.6:重复步骤2.1~2.5,循环对其它的特征进行离散化;

步骤2.7:完成对全部特征的离散化后,存储全部连续数据的CVD最终离散化结果,以备后续步骤使用。

在本发明一实施例中,两两特征间的列联表的获取方式为:基于存储的离散化数据,在MPICH2平台下采用分布式并行计算,按如下步骤实现:

步骤3.1:获取并行处理系统中处理器的节点数目以及各节点的处理时间和CPU处理速度,并对处理器进行编码

步骤3.2:估计各处理器的处理时间;处理时间的方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,

步骤3.3:根据节点的负载平衡,按照特征维数与样本数目对输入数据进行任务划分,并发送到各处理节点;

步骤3.4:每个节点产生一个大小为的数组,并各自统计交叉分类的频数分布表,形成各节点的列联表;

步骤3.5:收集器累加各处理节点产生的列联表,得出输入数据的全体列联表;对全体列联表行和列的合计栏进行扫描,如果合计栏中某元素为零,则删除列联表中对应的行或列。

在本发明一实施例中,Cramer’s V关联系数定义为,基于Cramer’s V指数的特征选择按如下步骤进行:

步骤4.1:建立一个空集合,用于存放从集合中选择的特征,置表示集合中元素个数为零;

步骤4.2:利用存储的GCVD值来评估各特征与目标属性的关联系数,即选出GVCD值最大所对应的那个特征,记为,置,并从集合中删除已选特征,置;目标属性与各特征的最大关联表达为,其中是集合中的元素个数,是目标属性与特征的Cramer’s V关联系数值;

步骤4.3:以并行处理方式获取集合中的每个特征与集合中其它特征的列联表,总共产生个列联表;

步骤4.4:根据所生成的列联表,计算两两特征间的Cramer’s V关联系数值,并分别求出集合中的每个特征与集合中特征之间的平均Cramer’s V值,则特征与特征的最小关联表达为,其中是特征的Cramer’s V统计值;

步骤4.5:根据Cramer’s V关联指数模型,选择指数模型中最大值所对应的那个特征,置;选择Cramer’s V关联指数模型为商值模型或差值模型,分别表示为 或 ,其中为惩罚参数;

步骤4.6:从的候选集合中删除特征,已选特征个数

步骤4.7:重复以上步骤4.3~4.6,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。

与现有技术相比,本发明的有益效果是:

1、适合于混合特征数据类型,特征选择效果好,鲁棒性强。该方法具有很好的特征选择效果,显著优于现有的同类特征选择方法mRMR,ReliefF,CFS等选择效果。由于特征关联指标采用CVD离散化变量,并利用频率值或累计值为计算依据,特征中包含的噪声或者离群数据对特征选择结果不会造成明显影响。此外,Cramer’s V统计值不受样本数量大小的影响,适合各种计算场合。

2、能够处理复杂的影像输入特征,适用性强。该方法只需要获取样本中某事件出现的频率表,此外对输入的特征数据类型没有任何限制,适用于连续型数据,离散型数据以及语义型数据的混合数据。该方法属于滤波型特征选择方法,特征选择的标准与过程与具体的分类器无关,适用于所有分类器,方便后续图像处理与应用。

3、具有很强的冗余特征剔除能力。由于Cramer’s V关联指数特征选择方法综合了特征与目标以及特征之间的关联性,所选择的特征满足特征与类别目标的关联性尽可能大,而特征之间的关联性尽可能小。这等效于对冗余特征具有很强的惩罚效果,因而特征子集中的特征冗余度很低。

4、采用并行化计算模式,特征选择效率高。该方法采用增量式的特征选择方式,计算效率很高,适用于高维数据处理。实现过程中,耗时最大的连续特征离散化与特征间的列联表计算过程或步骤均采用简单的分布式并行计算策略,极大地提高了计算效率。

5、应用范围广。本方法不仅限于遥感影像处理,可以广泛应用于各种高维度和复杂类型数据集(如文本、图像,医学诊断和基因数据等)的模式分类,数据挖掘和可视化等问题。

6、CVD离散化结果提供了对原始数据的紧凑表达,有利于领域知识规则的发现和提取,便于专家对地学规则的理解和解释,并且离散化的数据能够显著提高分类器(如Naive Bayer)的分类精度。

附图说明

图1是本发明的实现流程图。

图2是本发明基于Cramer’s V 的连续特征离散化的实现流程图。

图3是本发明采用并行计算方式获取列联表的实现流程图。

图4是本发明特征选择步骤的实现流程图。

具体实施方式

本发明基于Cramer’s V关联指数的高分辨遥感影像特征选择方法,如图1所示,包括以下步骤:

步骤1:对获取的遥感影像进行预处理以及影像特征提取;

步骤2:基于Cramer’s V关联指数的连续特征离散化并行处理;

步骤3:并行处理获取两两特征间的列联表;

步骤4:基于Cramer’s V关联指数的特征选择。

在步骤1中,遥感影像预处理过程包括以下步骤:

步骤1.1:根据获取的光学遥感影像数据源的影像质量,进行相应的预处理,包括几何与辐射校正、影像拼接与裁剪、影像复原与去噪或影像增强与融合等过程;

步骤1.2:提取影像特征:在eCognition平台下对遥感影像进行多尺度分割,或采用模式识别或数据挖掘技术(如中值漂移分割等)对遥感影像进行分割,从分割斑块中提取影像的光谱、形状和纹理等特征,结合其他地理辅助数据(如规划数据、位置数据),并对非栅格数据进行栅格化处理后,共同组成一个维特征的影像数据;

步骤1.3:根据影像中地物实际的分布和分类类别,利用样区工具选择N个训练样本,确认出样区的类别标示,建立这N个样本数据与类别标示的一一对应关系,形成N维的样本数组,作为特征选择的输入数据;其中维特征的样本数据,的第维特征,上标为矢量转置,为类别标示,表示类别数;建立一个由N个输入特征波段组成的待处理数据集合,所述待处理数据集合包含有N个输入特征和一个目标属性

本方法采用Cramers’ V进行连续数据离散化(CVD),以实现离散化结果与目标属性具有最大的关联性。通常采用列联表来计算Cramers’ V值,本方法所指的列联表是由两个以上的变量进行交叉分类的频数分布表。假设个随机实验的结果依据两个特征AB进行分类,。属于类的个体有个。则一个大小为的列联表为

 合计合计

则本方法提出的基于Cramers’ V的连续特征离散化准则定义为

其中 , 的计算公式为。使用除于是基于以下两个考虑:1)避免离散化过程中过度训练,加快离散化的计算速度;2)减弱离散区间数目对离散化结果的影响,便于获取最小化的离散区间数目。由于CVD考虑了所有特征的分布情况,刻画了每个分布情况对整体特征的影响,因而CVD具有良好的离散化特性。

如图2所示,在步骤2中,基于Cramer’s V的连续特征离散化过程包括以下步骤:

步骤2.1:对的每一维连续型的特征,把分成由分割点定义的个离散区间,方法是在删除中可能的重复值后,按从小到大顺序排列,则分割点B的可能取值为以及, 中剔除重复值后剩余的元素数目;

步骤2.2:初始化离散化划分,设置一个全局变量GCVD=0,的最大分割区间数,并设置初始分割区间数 k=1;

步骤2.3:从B中取出一个分割点,加入到划分中并计算该划分对应的Cramer’s V离散化值,即CVD值;按以上方法分别将B中的每一个可能的分割点加入到划分中,以分别计算出每一种划分对应的CVD值;

计算CVD值时,需要建立特征在每种可能的分割条件下与目标属性的列联表;由于这个计算过程耗时相对较大,因而采用并行处理技术。所述列联表的建立方法为:在MPICH2平台下采用并行计算,按如下步骤实现:

步骤2.3.1:获取并行处理系统中处理器的节点数目、各节点的处理时间和CPU处理速度,并对处理器进行编码

步骤2.3.2:估计各处理器的处理时间:所需处理时间的近似估计方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,

步骤2.3.3:根据节点的负载平衡,按照B中个可能的分割点进行任务划分,并发送到各处理节点;

步骤2.3.4:每个节点产生一个大小为的数组,并按各自分割点取值情况对离散化,形成各自的列联表;

步骤2.3.5:在各节点利用列联表计算在该分割情况下与类别标示的CVD值,计算方法为:

其中,表示在离散化条件下计算特征与类别标示的Cramer’s V值;表示训练样本总数, 表示类别数,的计算公式为表示特征的实际离散化数目,为类别标示为为数目,表示位于第个离散化区间内的样本数目;

步骤2.4:当完成B中全部可能的分割点所对应的CVD值计算后,收集器收集各处理节点计算的值,为B中分割点数目;

步骤2.5:扫描值, 确定出CVD最大值所对应的划分,记为, 方法是如果 CVD()>GCVD或者k<,则用划分 替代,并设置GCVD = CVD(),设置 k=k+1,否则选择的最佳划分,存储与类别标示的GCVD值以备后用,即在最佳分割与目标类别的Cramer‘s V的值;

步骤2.6:重复步骤2.1~2.5,循环对其它的特征进行离散化;

步骤2.7:完成对全部特征的离散化后,存储全部连续数据的CVD最终离散化结果,以备后续步骤使用。

对每一个特征,CVD离散化算法复杂度的估计值为为并行处理的接点数。由于遥感影像中的特征划分区间数目不大于2倍的类别数目,远远小于样本数目,因而离散化计算速度比较快。由于该算法是独立地对特征的可能分割点进行离散化,可以方便地采用并行处理技术。

如图3所示,在步骤3中,两两特征间的列联表的获取方式为:基于存储的离散和数据,在MPICH2平台下采用分布式并行计算,按如下步骤实现:

步骤3.1:获取并行处理系统中处理器的节点数目以及各节点的处理时间和CPU处理速度,并对处理器进行编码

步骤3.2:估计各处理器的处理时间;处理时间的方法是保证各计算节点的负载平衡,即分配给各节点的计算量与计算速度近似一致,也就是近似相等,

步骤3.3:根据节点的负载平衡,按照特征维数与样本数目对输入数据进行任务划分,并发送到各处理节点;

步骤3.4:每个节点产生一个大小为的数组,并各自统计交叉分类的频数分布表,形成各节点的列联表;

步骤3.5:收集器累加各处理节点产生的列联表,得出输入数据的全体列联表;对全体列联表行和列的合计栏进行扫描,如果合计栏中某元素为零,则删除列联表中对应的行或列。

如图4所示,在步骤4中,Cramer’s V关联系数定义为,基于Cramer’s V指数的特征选择按如下步骤进行:

步骤4.1:建立一个空集合,用于存放从集合中选择的特征,置表示集合中元素个数为零;

步骤4.2:利用存储的GCVD值来评估各特征与目标属性的关联系数,即选出GVCD值最大所对应的那个特征,记为,置,并从集合中删除已选特征,置;目标属性与各特征的最大关联表达为,其中是集合中的元素个数,是目标属性与特征的Cramer’s V关联系数值;

步骤4.3:以并行处理方式获取集合中的每个特征与集合中其它特征的列联表,总共产生个列联表;

步骤4.4:根据所生成的列联表,计算两两特征间的Cramer’s V关联系数值,并分别求出集合中的每个特征与集合中两两特征之间的平均Cramer’s V值,则特征与特征的最小关联表达为,其中是特征的Cramer’s V统计值;

步骤4.5:根据Cramer’s V关联指数模型,选择指数模型中最大值所对应的那个特征,置;Cramer’s V关联指数模型可以选择商值或差值模型,它们分别表示为 或 ,其中为惩罚参数,其目的在于平衡特征与目标属性与特征冗余之间的关系;其特点是较大值所选择的特征子集中包含冗余特征的可能性越大,反之较小的值包含冗余特征的可能性越大;

步骤4.6:从的候选集合中删除特征,已选特征个数

步骤4.7:重复以上步骤4.3~4.6,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。

选用Cramer’s V关联系数值,而不是卡方检验值来表示列联表中变量关联性是由于它不受样本数量大小的影响,其值能够更加客观反映变量之间真实的关联关系;而卡方独立性检验易受样本大小影响。具有两个优势:第一,Cramers’ V的取值与样本数量无关,解决了卡方检验对样本数目比较敏感的问题;第二,Cramers’ V的值在[0,1]之间取值,有利于通过简单的阈值来判断特征间的关联性是否显著。如果Cramers’ V大于0.1,则该两个特征为显著关联。

本产品的用途主要在于:从高维复杂的特征中挖掘和提取出少量“诊断性”的特征作为遥感数据分析(分类)的输入特征,为海量遥感数据信息自动快速处理提供技术基础,可以成为eConginition平台的插件使用,也可以单独使用。直接的用途是改善遥感影像的可视化分析,解决监督分类中面临的“Hugh”现象,提高影像分类的精度和效率。

Cramer’s V关联指数特征选择可以结合Econgition,REDAS IMAGINE和ENVI等专业软件应用。可以通过标准C++语言在MPCHI2平台下实现。结合eCongition影像分类软件的实现过程如下:

第一步,影像预处理与数据准备阶段。首先,对感影像进行必要的几何、辐射(或融合)后,在Ecognition支持下对遥感影像进行多尺度分割。从分割斑块中提取影像的光谱、形状和纹理等特征。多尺度分割过程可以参考Ecognition用户手册。通过人工解译或实地调查方式确认部分像元(样本数据)的分类情况(个),建立特征与类别目标值的一一对应关系后,通过Import功能导出作为Cramer’s V关联指数特征选择的输入数据。

第二步,为了获取Cramer’s V值,对输入特征为连续的数据进行离散化划分,将连续分为个离散区间。离散区间的个数可以根据数据自适应地确定,设置离散化的最大区间数:。其中为类别个数,为特征维数,为样本数目。数据离散化的方式采用CVD方法进行自适应离散化。离散化后的特征集合记为

第三步,建立一个空集合,用于存放从集合中选择的特征,已选特征个数。对上述离散化集合中的每个特征,获取每个与类别的列联表,计算各特征与目标属性的Cramer’s V值来评估各特征的关联性。选择出关联性最大的那个特征,记为,置,已选特征个数,并从集合中删除已选特征。目标属性与各特征的最大关联表达为,其中是集合中的元素数目,是目标属性与特征的Cramer’s V统计值。

第四步,以并行化计算方式获取集合中的每个特征与集合中其它特征的列联表,计算集合中的每个特征与集合中特征之间的平均Cramer’s V值。各特征的平均Cramer’s V值表达为,其中是特征的Cramer’s V统计值。

第五步,根据Cramer’s V关联指数模型的值,选择Cramer’s V关联指数中最大值对应的那个特征,置。从集合中删除特征,已选特征个数。Cramer’s V关联指数可以选择商值或差值模型,分别表示为 或 ,其中为惩罚参数,其目的在于平衡特征与目标属性与特征冗余之间的关系。其特点是较大值所选择的特征子集中包含冗余特征的可能性越大,反之较小的值包含冗余特征的可能性越大,建议取值为[0.5,2]。选择Cramer’s V关联指数中最大值对应的那个特征。置。

第六步,重复以上第四步、第五步,使用增量方式顺序从候选特征集中选出指定个数的特征,或者对全部特征按照重要性从大到小排序。

第七步,根据特征排序或选择情况,本技术可以选择原始特征数据,也可以选择离散化后的特征数据进行影像处理的后续工作。一般情况下离散化的数据能够显著改善原始数据的性能,取得更好的分类和识别效果。

以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号