首页> 中国专利> 锚框无关角点回归的遥感图像任意方向物体检测方法及装置

锚框无关角点回归的遥感图像任意方向物体检测方法及装置

摘要

本发明公开了一种遥感图像任意方向物体的检测方法及装置,包括:提取输入图像的全局特征表达;在全局特征表达的基础上,重建物体水平候选框;基于全局特征表达,提取物体水平候选框的边界采样点的原始特征表达;利用边界采样点的语义邻接节点,增强原始特征表达;获取物体水平候选框的边界关键点,并根据增强特征表达抽取边界关键点的特征表达,以估计边界关键点与任意方向物体包围框的角点偏移;基于角点偏移与边界关键点,计算任意方向物体包围框的角点坐标;基于构建好的任意方向物体包围框进行检测。本发明使得角点的定位更为精确,可以形成更紧致的四边形包围框,对不同方向、不同尺度以及不同种类的物体均具有优秀的检测性能。

著录项

  • 公开/公告号CN115240077A

    专利类型发明专利

  • 公开/公告日2022-10-25

    原文格式PDF

  • 申请/专利权人 中国科学院信息工程研究所;

    申请/专利号CN202210630115.3

  • 申请日2022-06-06

  • 分类号G06V20/13(2022.01);G06V10/22(2022.01);G06V10/40(2022.01);G06V10/74(2022.01);G06V10/766(2022.01);G06V10/80(2022.01);G06V10/82(2022.01);

  • 代理机构北京君尚知识产权代理有限公司 11200;

  • 代理人余长江

  • 地址 100093 北京市海淀区闵庄路甲89号

  • 入库时间 2023-06-19 17:25:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-11

    实质审查的生效 IPC(主分类):G06V20/13 专利申请号:2022106301153 申请日:20220606

    实质审查的生效

说明书

技术领域

本发明属于遥感信息处理技术领域,尤其涉及一种锚框无关角点回归的遥感图像任意方向物体检测方法及装置。

背景技术

随着卫星技术的发展,利用人造卫星对地面进行观测可以在非常短的时间内获取极大空间范围内的数据,因而遥感技术越来越受到国家的重视。根据人造卫星上搭载的传感器类型不同,遥感获取的图像类型也不同,目前主要分为可见光遥感图像、红外遥感图像、合成孔径雷达图像和多光谱遥感图像。由于可见光遥感图像容易获取易于人眼辨识的目标形态,因而基于可见光的遥感图像被广泛使用。从这类遥感图像中检测出感兴趣目标(如飞机、船舶、车辆、桥梁、海港、储备仓等)具有十分重要的应用价值。

如今光学遥感图像可以达到纳米级别的分辨率,能够提供十分精细的纹理和空间信息,从而有利于检测独立的目标个体。与此同时,高质量的遥感图像也凸显了无关目标和背景区域纹理,使得感兴趣目标的检测面临巨大挑战。对于感兴趣区域而言,其目标的尺度差异极大,并且涉及许多小目标的物体;另外,由于拍摄角度的因素,导致目标区域呈现任意方向的布局。这些因素都增加了光学遥感图像中目标物体检测的困难,容易造成感兴趣区域的误检和漏检。

近年来,针对自然场景图像,许多基于深度学习的物体检测方法已经达到令人振奋的性能。然而这些方法的输出通常是水平的包围框。然而在遥感图像中,由于地球不停的转动,卫星所拍摄的图像中物体会呈现不通方向的布局。利用水平的包围框来定位遥感图像中任意方向的物体会造成定位的框中包含许多背景信息,不利于下游的决策任务。因而针对遥感图像中任意方向物体的检测尤为重要,也是一项极具挑战的任务。目前遥感图像中任意方向物体检测方法大致可以分为三类:基于分割的方法、基于角度的方法及基于关键点的方法。

基于分割的方法,如CenterMap-Net,在候选框中预测物体包围框中心的概率图。然而这类方法依赖于候选框的定位精度。并且密集的像素级分割需要更多的存储空间。基于角度的方法在预测物体水平包围框中心点和水平包围框尺度的基础上再预测一个旋转角度。由于物体的任意方向,利用标准的卷积神经网络难以有效捕捉物体的特征表达,因而有些方法(如ROI-Trans,DRN,R3Det等)致力于解决旋转物体特征不对齐问题。此外,有些方法(如SCRNet,PIoU,RSDet等)致力于设计损失函数来促进角度的学习。另外CSL以及DCL采用一种循环平滑标签技术来处理角度的周期性问题,并且将角度回归转换成一个分类问题。基于关键点回归的方法可以进一步分为基于角点的方法和基于中间点的方法。基于角点的方法直接预测方向包围框的四个顶点;而基于中间点的方法通过预测方向包围框的中间点来重建任意方向物体包围框。如IENet直接预测物体前景像素到四边的距离。Gliding-Vertex和TOSO预测水平候选框四个角点到旋转矩形框四个角点的滑动距离。RIL-Q设计了一种表达不变性的损失函数来优化角点的回归。此外,O2-DNet和BBAVectors不仅预测物体中心点到四边中点的距离,并且也估计旋转矩形框的宽和高。

因此,本发明通过无先验框设计的网络产生少量候选框,然后在候选框的边界上采样多个密集的点,通过每个点语义近邻的采样点以及边界的几何拓扑结构增强关键的特征表达,从而回归得到精准的任意方向四边形包围框的角点。

发明内容

本发明针对遥感图像,提出了一种锚框无关角点回归的遥感图像任意方向物体检测方法及装置。该方法在候选框的基础上将候选框边界上的关键点直接回归到物体四边形包围框的角点上。在候选框生成过程中,本发明估计物体水平包围框的中心点以及水平包围框的高和宽以一种锚框无关的方式生成水平包围框。在角点回归过程中,本发明利用语义邻接节点来增强边界采样点的特征表达,从而使得边界上关键点回归得到更精准的角点位置。

为达到上述目的,本发明的技术方案包括:

一种锚框无关角点回归的图像任意方向物体检测方法,其步骤包括:

提取输入图像的全局特征表达;

在所述全局特征表达的基础上,预测物体水平包围框的中心点、高与宽,以重建物体水平候选框;

基于所述全局特征表达,提取所述物体水平候选框的边界采样点的原始特征表达;

利用所述边界采样点的语义邻接节点,增强所述原始特征表达;

获取所述物体水平候选框的边界关键点,并根据增强特征表达抽取边界关键点的特征表达,以估计所述边界关键点与任意方向物体包围框的角点偏移;

基于所述角点偏移与所述边界关键点,计算所述任意方向物体包围框的角点坐标;

基于构建好的所述任意方向物体包围框,对所述输入图像的物体进行检测。

进一步地,所述提取输入图像的全局特征表达

利用主干网络提取所述输入图像的全局视觉特征表达F

融合所述全局视觉特征表达F

进一步地,所述在所述全局特征表达的基础上,预测物体水平包围框的中心点、高与宽,以重建物体水平候选框,包括:

基于所述全局特征表达,分别生成物体水平框中心点响应图

对所述物体水平框中心点响应图

根据过滤后的中心点及物体外接矩形框尺度预测图

进一步地,所述基于所述全局特征表达,提取所述物体水平候选框的边界采样点的原始特征表达

在水平文字候选框的边界上均匀采样,得到N

依据所述全局特征表达,提取边界采样点的原始特征表达

进一步地,所述利用所述边界采样点的语义邻接节点,增强所述原始特征表达,包括:

利用1D卷积网络将所述原始特征表达映射为特征X,并利用不同膨胀率的1D卷积将特征X映射成不同的特征表达U;

针对每一所述特征表达U,基于边界采样点的特征相似度,为每个边界采样点选择K个语义邻接点,并根据边界采样点与K个语义邻接点之间的权重,进行特征表达聚合,以获取在该所述特征表达U下的边界采样点特征表达;

对每一边界采样点,拼接不同膨胀率下生成的边界采样点特征表达,以得到增强特征表达。

进一步地,所述获取所述物体水平候选框的边界关键点,包括:

设定边界关键点的数量N

从边界采样点中以N

进一步地,所述边界关键点的特征表达

一种实现上述任一方法的卷积网络,训练所述卷积网络的损失函数

一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一所述方法。

一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一所述方法。

本发明的有益效果:

1.本发明之间从候选框中的关键的向任意物体方向物体包围框的角点回归,可以形成更紧致的四边形包围框。

2.本发明采用动态的边界信息聚合技术,可以增强关键点的特征表达,使得角点的定位更为精确。

3.本发明无需设计先验锚框,从而使得模型对于不同尺度的物体具有更好的泛化性。

4.本发明产生的水平候选框的数量明显少于通过基于先验框回归产生的候选框数量;另外整个网络的结构也较为简洁,从而可以有效提升模型的执行速度。

5.本发明检测能力强,对于遥感图像中不同方向、不同尺度以及不同种类的物体均具有优秀的检测性能。

附图说明

图1遥感图像锚框无关角点回归的任意方向物体检测流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的遥感图像任意方向物体检测方法,如图1所示,包括:

步骤1:提取输入图像的特征表达。

本发明的一实施例中,输入为RGB图像,其大小为H*W,H为RGB图像的高,W为RGB图像的宽。

对输入网络的图像进行特征提取,其具体步骤如下:

1.1)利用主干网络(即在ImageNet上预训练的网络,如DLA34等)提取输入图像的视觉特征,其输出表示为

1.2)将特征F

其中

步骤2:预测物体水平包围框中心点以及水平包围框的高和宽,以重建物体水平候选框。

本发明的一实施例中,基于融合特征

本发明的一实施例中,基于融合特征

在训练时,该网络的损失函数含有物体水平框中心点损失

其中N表示图像中物体数量,i表示预测图

在测试过程中,根据得到的物体水平框中心点响应图

其中

步骤3:将水平候选框边界采样点映射到图像特征图上,以获取边界采样点特征表达。

本发明的一实施例中,为了得到物体水平包围框边界上采样点的特征表达,本发明首先在每个水平候选框

其中j表示采样点索引,P

步骤4:通过动态信息聚集技术利用边界点的语义邻接节点增强边界采样点特征表达。

在本发明的一实例中,为了增强水平候选框边界特征表达,本发明通过动态信息聚集技术利用边界点的语义邻接节点增强边界采样点特征表达

4.1)利用1D卷积将F

4.2)利用最近邻算法根据采样点的特征U的相似度为每个采样点选择K个语义邻接点,这些邻接点相应的特征表达表示为

4.3)计算每个节点与K个邻接点之间的权重W,计算方式为:

其中j为边界采样点索引,k为第j个采样点语义近邻点的索引。U

4.4)对每个边界采样点聚合其K个邻接点的特征表达,其聚合方式为:

其中d为特征维度索引。

4.5)将不同膨胀率下生成的边界特征表达F

步骤5:根据水平候选框边界采样点增强后的特征表达抽取边界关键点的特征表达,用以估计关键点与任意方向物体四边形包围框角点的偏移。

在本发明的一实例中,根据水平候选框边界采样点特征表达F

其中N

步骤6:根据水平框边界关键点的位置坐标以及网络预测的偏移,从而获得任意方向物体四边形包围框角点的坐标。

在本发明的一实例中,利用F

网络训练:

在训练过程中,损失函数为

其中

实验数据

本发明的锚框无关角点回归的遥感图像任意方向物体检测方法,其测试环境及实验结果为:

(1)测试环境:

系统环境:ubuntu16.04。

硬件环境:内存:15GB,GPU:NVIDIA RTX 2080Ti,CPU:4.00GHz Intel(R)Xeon(R)W-2125,硬盘:2TB。

(2)实验数据:

本发明在两个遥感图像数据集上进行了实验,分别是HRSC2016(617张训练图片,444张测试图片),DOTA(1869张训练图片,937张测试图片)。由于DOTA数据集中的图片分辨率极大,在训练和测试过程中,对于每张图像我们以步长为200大小为800*800的滑动窗口进行裁剪。对于数据集HRSC2016,在训练和测试过程中将图片缩放成640*640。

(3)优化方式:

使用Adam优化器进行优化。对于HRSC2016和DOTA模型均训练300个epoch。模型的初始学习率为0.0001。其在第120及240个epoch后学习率乘以0.1。在训练过程中图片随机旋转{0°,90°,180°,270°},并随机翻转,缩放以及颜色抖动。对于HRSC2016及DOTA,由于显存的限制,训练的批量大小分别设置为10和8。

(4)实验结果:

1)消融实验:

该实验在HRSC2016数据集上完成,实验结果如表1所示。在实验中,设置了三种基准模型,第一种是直接预测物体水平外接矩形框的中心的和尺度得到水平包围框(Horizontal Bounding Box,HBB)。第二种基准模型是通过额外预测角度(Angle)获得旋转矩形包围框。第三种基准模型是预测中心点与物体四边形包围框四个角点的偏移以重建四边形包围框(Quadrangle)。当本发明不采用动态信息聚合技术(Dynamic InformationGathering,DIG)来增强边界采样点的特征表达时,我们的模型在两种评估准则下的F-measure和mAP已显著超越基准模型。尤其当采用DIG之后,本发明的检测性能达到最佳。

表1:所提模块有效性验证

2)性能比较:

从表2和表3可以看出,本发明的方法达到最先进的性能。

表2:在HRSC2016上的性能比较

表3:在DOTA上的性能比较

以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明范围,本发明的保护范围应以权利要求书所述为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号