首页> 中国专利> 基于核心样本自适应扩充的小样本高光谱图像分类方法

基于核心样本自适应扩充的小样本高光谱图像分类方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及一种基于核心样本自适应扩充的小样本高光谱图像分类方法，首先对高光谱图像进行数据预处理，得到训练样本和测试样本；采用MCFSFDP聚类方法自适应确定测试样本中的核心样本；将核心样本加入至训练样本中，扩充得到训练样本集；将训练样本集代入至生成对抗网络中进行训练，生成与训练样本集数量一致的生成样本，并将生成样本加入至训练样本集中，扩充得到训练样本数据集；将训练样本数据集代入至BP神经网络模型中进行训练，得到最终的BP神经网络模型；将测试样本代入至最终的BP神经网络模型中，正向计算得到小样本高光谱图像的分类结果，通过对训练样本进行两次自适应样本扩充，有效提高了神经网络的泛化能力和小样本高光谱图像分类精度。

著录项

公开/公告号CN112966740A

专利类型发明专利
公开/公告日2021-06-15

原文格式PDF
申请/专利权人西安邮电大学;陕西山河明泽生态环境技术咨询有限公司;
展开▼

申请/专利号CN202110244446.9
发明设计人丁晨;陈非熊;庄旭思;陈家祯;王旭珂;李润泽;苏舸夫;石武军;吴昊;
展开▼

申请日2021-03-05
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11569 北京高沃律师事务所;
代理人杨媛媛
地址 710121 陕西省西安市西长安街618号
入库时间 2023-06-19 11:26:00

说明书

技术领域

本发明涉及高光谱图像处理领域，特别是涉及一种基于核心样本自适应扩充的小样本高光谱图像分类方法。

背景技术

近年来，由于高光谱图像的独特性质以及所包含的海量信息，对于高光谱图像的分析与处理已经成为遥感影像研究领域的热点之一，而其中的高光谱图像分类又对地质勘探、农作物检测、国防军事等领域起着实质性的重要作用。

然而，高光谱图像标注困难，费时费力，往往只存在少量标注数据作为先验，因此，高光谱图像分类问题往往是小样本问题。目前存在的小样本高光谱图像像素级分类方法主要有两类：一类是基于样本扩充的方法；另一类是基于迁移学习的方法。而在现有的高光谱图像样本生成方法，通常使用GAN生成与原始训练样本分布大致相同的高光谱图像样本加入训练样本，进而得到更多的训练样本，以提高神经网络模型的泛化能力，提高测试精度，得到有效的分类结果。然而，这种方法中，GAN生成的高光谱图像训练样本往往只是与原始少量的训练样本相关，而这些少量样本并非一定是核心样本，因此，其生成的样本一般也不是核心样本，只是增加了样本的数量而非质量，对于神经网络的泛化能力的提高是非常有限的，进而存在对于小样本高光谱图像来说一般生成的不是核心样本，难以有效提高小样本高光谱图像分类精度的问题。

因此，目前亟需一种基于核心样本自适应扩充的小样本高光谱图像分类方法，以解决现有的高光谱图像样本分类方法存在的神经网络泛化能力差、分类精度低的问题。

发明内容

本发明的目的是提供一种基于核心样本自适应扩充的小样本高光谱图像分类方法，将基于快速寻找密度峰值的聚类算法(Clustering by Fast Search and Find ofDensity Peaks，CFSFDP)引入到样本扩充中，通过将CFSFDP方法改进为MCFSFDP方法，可以自适应确定核心样本并将核心样本标注后加入到训练样本中，形成训练样本集进行神经网络训练，生成与训练样本集中样本数量相等的生成样本并将其扩充加入到训练样本集中，实现对训练样本的自适应扩充，不仅从测试样本中准确的找到了核心样本，还使训练样本的质量、数量得到同步提升，提高了神经网络的泛化能力，有效提升小样本高光谱图像分类精度。

为实现上述目的，本发明提供了如下方案：

一种基于核心样本自适应扩充的小样本高光谱图像分类方法，包括：

对高光谱图像进行数据预处理，得到训练样本和测试样本；

采用MCFSFDP聚类方法自适应确定所述测试样本中的核心样本；

将所述核心样本加入至所述训练样本中，扩充得到训练样本集；

将所述训练样本集代入至生成对抗网络中进行训练，生成与所述训练样本集数量一致的生成样本，并将所述生成样本加入至所述训练样本集中，扩充得到训练样本数据集；

将所述训练样本数据集代入至BP神经网络模型中进行训练，得到最终的BP神经网络模型；

将所述测试样本代入至所述最终的BP神经网络模型中，正向计算得到小样本高光谱图像的分类结果。

可选的，所述对高光谱图像进行数据预处理，得到训练样本和测试样本，具体包括：

随机从高光谱图像R的每一个类别中选取5％的光谱像素点作为训练样本

将剩余95％的光谱像素点作为测试样本

可选的，所述采用MCFSFDP聚类方法自适应确定所述测试样本中的核心样本，具体包括：

将所述测试样本

计算每一个数据点j的局部密度ρ

其中，ρ

对于拥有最大局部密度的数据点，其距离为所有数据点与数据点之间的距离的最大值δ

对于每个数据点j，都有与其对应的密度值ρ

num

其中，δ

对公式(3)求微分得到：

con

其中，con

对公式(4)中的距离阈值的相邻值δ

quo

当在某距离阈值区间δ

当数据点j的距离δ

可选的，所述将所述核心样本加入至所述训练样本中，扩充得到训练样本集，具体包括：

将所述核心样本的数量定义为T；

将所述核心样本加入到所述训练样本

由于所述训练样本的数量为M，所述核心样本的数量为T，则扩充后得到的训练样本集中训练样本的数量为M+T，将所述训练样本集记为

可选的，所述将所述训练样本集代入至生成对抗网络中进行训练，生成与所述训练样本集数量一致的生成样本，并将所述生成样本加入至所述训练样本集中，扩充得到训练样本数据集，具体包括：

将所述训练样本集代入至生成对抗网络中进行训练，生成与所述训练样本集数量一致的生成样本；由于所述训练样本集中训练样本的数量为M+T，所述生成样本的数量也为M+T；

将数量为M+T的所述生成样本加入至样本数量同为M+T的所述训练样本集中进行扩充，得到训练样本数量为2*(M+T)的训练样本数据集，将所述训练样本数据集记为

可选的，所述生成对抗网络包括生成器G和判别器D，所述生成器G用于捕捉潜在分布的真实数据并生成新的数据，所述判别器D是一个二值分类器，用于判断输入的训练样本的真实性。

可选的，将所述训练样本集代入至生成对抗网络中进行训练，具体包括：

假设真实数据x具备数据分布p(x)且输入噪声变量具有一个先验p(z)，所述生成器接收一个输入噪声，并产生一个到虚假数据G(z)空间的映射；D(x)估计来自训练样本的真实数据x的概率；

在生成对抗网络训练的优化过程中，所述判别器被训练为最大化log(D(x))，被训练为最大化log(D(x))的所述判别器为正确源分配正确标签的概率，此时所述生成器被训练为最小化log(1-D(G(z)))，将生成对抗网络的优化问题作为一个求解极大极小的问题，则所述生成对抗网络的目标函数为：

其中，V(D，G)表示目标函数，E为期望运算符，G表示生成器，D表示判别器，z表示输入噪声，x表示真实数据，p(x)表示数据分布，G(z)表示虚假数据，D(x)表示估算的来自训练样本的真实数据x的概率，log(D(x))表示所述判别器被训练最大化，log(1-D(G(z)))表示所述生成器被训练最小化；

则计算所述生成器G的损失函数收敛值为：

其中，F(D,G)表示损失函数收敛值，f(D,G)表示优化后的损失函数收敛值，V(D，G)表示目标函数，E为期望运算符，G表示生成器，D表示判别器，z表示输入噪声，x表示真实数据，p(x)表示数据分布，G(z)表示虚假数据，D(x)表示估算的来自训练样本的真实数据x的概率，log(D(x))表示所述判别器被训练最大化，log(1-D(G(z)))表示所述生成器被训练最小化。

对所述训练样本集中的训练样本进行一次生成对抗网络训练，得到损失函数收敛值F(D,G)，若所述损失函数收敛值F(D,G)为r，则再次进行生成对抗网络训练，直到得到的损失函数收敛值F(D,G)＞r时，即当F(D,G)＝r+A

可选的，所述收敛增值A

可选的，所述将所述训练样本数据集代入至BP神经网络模型中进行训练，得到最终的BP神经网络模型，具体包括：

将所述训练样本数据集中的各个训练样本代入至BP神经网络模型；

不断误差反馈、迭代更新所述BP神经网络模型的权重；

将最大迭代次数设置为1000次，当达到最大迭代次数时完成训练，得到最终的BP神经网络模型。

可选的，所述BP神经网络模型包括一个输入层、三个隐含层和一个Softmax分类器；所述BP神经网络模型的每一个输入节点代表高光谱图像样本中的一个元素。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过改进的基于快速寻找密度峰值的聚类算法(MCFSFDP)，对测试样本进行聚类，自适应得到核心样本并进行标记，并将其加入训练样本形成新的训练样本数据集，再利用GAN对新的训练样本数据进行训练并生成与新的训练样本数据数量相等的生成样本加入新的训练样本数据集，形成最终的训练样本数据集，最后对训练样本数据集中的训练样本进行神经网络训练及测试样本测试。

与传统的样本扩充算法相比，本发明在确定核心样本后，将核心样本加入至训练样本中，实现对训练样本的第一次扩充，得到训练样本集，然后又将训练样本集代入至生成对抗网络中训练，生成与训练样本集中样本数量相同的生成样本，再将生成样本加入至训练样本中，实现对训练样本的第二次扩充，通过对训练样本进行两次自适应样本扩充，实现对训练样本的质量和数量的同步提升，最终真实、有效的提高了神经网络的泛化能力，提升了小样本高光谱图像分类精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的基于核心样本自适应扩充的小样本高光谱图像分类方法的流程示意图；

图2为本发明实施例1提供的生成对抗网络GAN网络的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，本实施例提供了一种基于核心样本自适应扩充的小样本高光谱图像分类方法，具体包括以下步骤：

S1、对高光谱图像进行数据预处理，得到训练样本和测试样本。

本实施例中，在选择训练样本和测试样本时，随机从高光谱图像R的每一个类别中选取5％的光谱像素点作为训练样本

将剩余95％的光谱像素点作为测试样本

S2、采用MCFSFDP聚类方法自适应确定所述测试样本中的核心样本。具体包括：

将所述测试样本

计算每一个数据点j的局部密度ρ

其中，ρ

对于拥有最大局部密度的数据点，其距离为所有数据点与数据点之间的距离的最大值δ

对于每个数据点j，都有与其对应的密度值ρ

num

其中，δ

对公式(3)求微分得到：

con

其中，con

对公式(4)中的距离阈值的相邻值δ

quo

当在某距离阈值区间δ

当数据点j的距离δ

本实施例通过改进的基于快速寻找密度峰值的聚类算法(MCFSFDP)，对测试样本进行聚类，自适应得到核心样本并进行标记，可准确的确定核心样本，解决了现有的高光谱图像样本扩充方法无法确定核心样本的问题。

S3、将所述核心样本加入至所述训练样本中，扩充得到训练样本集。具体包括：

将所述核心样本的数量定义为T；

将所述核心样本加入到所述训练样本

由于所述训练样本的数量为M，所述核心样本的数量为T，则扩充后得到的训练样本集中训练样本的数量为M+T，将所述训练样本集记为

本实施例中，通过将核心样本加入至训练样本中，完成第一次训练样本的自适应样本扩充，得到的训练样本集中训练样本的数量包括M个原始训练样本和T个具有标记符号的核心样本。

S4、将所述训练样本集代入至生成对抗网络中进行训练，生成与所述训练样本集数量一致的生成样本，并将所述生成样本加入至所述训练样本集中，扩充得到训练样本数据集。具体包括：

将所述训练样本集代入至生成对抗网络中进行训练，生成与所述训练样本集数量一致的生成样本，且所述生成样本中也具有标记符号；由于所述训练样本集中训练样本的数量为M+T，所述生成样本的数量也为M+T；

本实施例中，通过将生成样本加入至训练样本集中，完成第二次训练样本的自适应样本扩充，得到的训练样本数据集中训练样本的数量包括M个原始训练样本、T个具有标记符号的核心样本和M+T个具有标记符号的生成样本，共计2*(M+T)个训练样本，使得训练样本的数量大幅增加，从而使训练样本得到数量和质量上的同步提升，解决了GAN生成的生成样本不仅不是核心样本，还在样本扩充时只增加样本的数量而非质量的问题。

图2是本发明实施例1提供的生成对抗网络的结构框图，如图2所示，所述生成对抗网络即GAN网络，包括生成器G和判别器D，所述生成器G用于捕捉潜在分布的真实数据x并生成新的数据，所述判别器D是一个二值分类器，用于判断输入的训练样本的真实性。

GAN的核心思想来源于博弈论的纳什均衡，设定参与游戏双方分别为一个生成器G和一个判别器D，生成器G的目的是尽量去学习真实的数据分布，而判别器D的目的是尽量正确判别输入数据是来自真实数据x还是来自生成器G的虚假数据G(z)；为了取得游戏胜利，生成器G和判别器D这两个游戏参与者需要不断优化，各自提高自己的生成能力和判别能力，这个学习优化过程就是寻找二者之间的一个纳什均衡的过程。

假设真实数据x具备数据分布p(x)且输入噪声变量具有一个先验p(z)，所述生成器G接收一个随机噪声作为输入，即输入噪声z，并产生一个到虚假数据G(z)空间的映射；D(x)估计来自训练样本的真实数据x的概率；

在生成对抗网络训练的优化过程中，所述判别器D被训练为最大化log(D(x))，被训练为最大化log(D(x))的所述判别器D为正确源分配正确标签的概率，此时所述生成器G被训练为最小化log(1-D(G(z)))，将生成对抗网络的优化问题作为一个求解极大极小的问题，则所述生成对抗网络的目标函数为：

其中，V(D，G)表示目标函数，E为期望运算符，G表示生成器，D表示判别器，z表示输入噪声，x表示真实数据，p(x)表示数据分布，G(z)表示虚假数据，D(x)表示估算的来自训练样本的真实数据x的概率，log(D(x))表示所述判别器D被训练最大化，log(1-D(G(z)))表示所述生成器G被训练最小化。

应说明的是，经过计算后，当判别器D发现一个真实样本的高概率分布时，判别器D的梯度消失，训练停止。为了确定当判别器D的分类精度高时生成器G有适当的梯度，生成器G的损失函数通常通过将样本判断为真的概率最大化制定，这里需要生成的样本越真实越好，而不是通过将样本判断为假的概率最小化制定，这里是说不需要判别器D判别生成样本是伪样本的概率最小。

则计算所述生成器G的损失函数收敛值为：

还应当说明的是，生成器G的参数更新是基于判别器D反馈的，而不是直接使用真实样本数据反馈的。然而，这里需要生成样本与输入GAN网络的训练样本有所区别，最好是与输入样本相似但还存在不同。因此，需要对GAN网络先训练一次得到损失函数收敛值F(D,G)。

因此，对所述训练样本集中的训练样本进行一次生成对抗网络训练，得到损失函数收敛值F(D,G)，若所述损失函数收敛值F(D,G)为r，则再次进行生成对抗网络训练，直到得到的损失函数收敛值F(D,G)＞r时，即当F(D,G)＝r+A

本实施例中，将所述收敛增值A

需要注意的是，本发明中的收敛增值A

S5、将所述训练样本数据集代入至BP神经网络模型中进行训练，得到最终的BP神经网络模型。具体包括：

将所述训练样本数据集中的各个训练样本代入至BP神经网络模型；

不断误差反馈、迭代更新所述BP神经网络模型的权重；

将最大迭代次数设置为1000次，当达到最大迭代次数时完成训练，得到最终的BP神经网络模型。

S6、将所述测试样本代入至所述最终的BP神经网络模型中，正向计算得到小样本高光谱图像的分类结果。

所述BP神经网络模型包括一个输入层、三个隐含层和一个Softmax分类器；所述BP神经网络模型的每一个输入节点代表高光谱图像样本中的一个元素，在通过训练样本数据集将BP神经网络模型训练好后，将测试样本代入至训练好的BP神经网络模型中，直接正向计算即可得到准确的小样本高光谱图像的分类结果。

简单来说，本发明提出的一种基于核心样本自适应扩充的小样本高光谱图像分类方法，首先确定训练样本和测试样本，然后对测试样本进行聚类处理，自适应选取聚类中心样本作为核心样本并进行标注；然后，将标注过的核心样本加入到训练样本中进行第一次样本扩充，得到扩充后的训练样本集；然后在对训练样本集进行生成对抗网络训练，生成与该训练样本集数量相同的生成样本并附带标签，将生成样本加入到训练样本集中进行第二次样本扩充，得到训练样本数据集；最后，将训练样本数据集对BP神经网络模型进行训练，再将训练好的BP神经网络模型对测试样本进行测试，从而实现小样本高光谱图像的分类。

本发明的方法不仅确定了核心样本，还基于核心样本对训练样本进行了两次样本扩充，针对训练样本的两次自适应样本扩充，第一次扩充加入了核心样本，第二次扩充加入了相同数量的生成样本，且核心样本和生成样本均具有标记标签，两次样本扩充使得训练样本的数量成倍增加，实现对训练样本的质量和数量的同步提升，真实有效的提高了神经网络的泛化能力，提升了小样本高光谱图像分类精度，解决现有的高光谱图像样本生成方法存在的神经网络泛化能力差、分类精度低的问题，可提升高光谱图像的分类效果，有利于高光谱图像分类的应用和发展。

本说明书中各个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。本说明书中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于核心样本自适应扩充的小样本高光谱图像分类方法 [P] . 中国专利： CN112966740A . 2021-06-15
2. 基于伪标签学习的小样本高光谱图像分类方法 [P] . 中国专利： CN111401426A . 2020-07-10
3. METHOD AND SYSTEM FOR FAULT DIAGNOSIS WITH SMALL SAMPLES OF POWER EQUIPMENT BASED ON VIRTUAL AND REAL TWIN SPACES [P] . US2021319156A1 . 2021-10-14

机译：基于虚拟和真正双胞胎空间的电力设备小样本的故障诊断方法和系统
4. method for the rapid determination of at least an oil quality of geological deposits based on small samples. [P] . NL183677C . 1988-12-16

机译：快速基于小样本快速确定地质矿床油质的方法
5. method for the rapid determination of at least an oil quality of geological deposits based on small samples. [P] . NL183677B . 1988-07-18

机译：快速基于小样本快速确定地质矿床油质的方法