首页> 中国专利> 具有跳层结构的特征提取网络及特征和描述子生成的方法

具有跳层结构的特征提取网络及特征和描述子生成的方法

摘要

本发明涉及一种具有跳层结构的特征提取网络及描述子生成的方法,网络为带有跳层结构的图像特征提取网络,在VGG16的conv2_2层、conv2_3层与conv4_3层的输出特征图进行融合,得所有的细节信息,并有效提高特征点定位精度。特征点的独特性指标是指图像的某个局部区域与图像其他区域的相似程度。通过独特性得分来衡量图像中每个位置的独特性,即图像中每个位置与其他所有位置的相似程度。通过选择图像中足够独特的特征点来提高网络的匹配性能。本发明在图像检索的HPatches数据集上取得了领先的性能,特别是在它的光照序列上。

著录项

说明书

技术领域

本发明属于图像处理与计算机视觉领域,涉及一种具有跳层结构的特征提取网络及利用该网络进行图像特征点检测和描述子生成方法。

背景技术

在许多应用中,如视觉定位、目标检测、位姿估计、三维重建等,提取图像的特征点和描述子是至关重要的。在这些任务中我们期望能获得高特征匹配准确率与高特征点检测精度。其中高特征匹配准确率是指,对于两幅待匹配图片,在进行特征点匹配时误匹配尽可能少;而高特征点检测精度是指,对于成功匹配的特征点对,其在两幅图片中指向的位置确是图像中场景中的同一位置。

经典的特征点检测方法是分为两个阶段得实现的,首先检测关键点,然后为每个关键点计算一个局部描述符。第一种依靠机器学习进行关键点检测的方法是FAST。之后,SIFT法将图像特征点检测及图像局部特征描述的整个流程集成在一起,是典型的先检测、后描述的方式。Yi等人提出的LIFT首次使用卷积神经网络完整地完成了图像特征点检测及图像局部特征描述与匹配的任务,其中整合了基于卷积神经网络的特征点检测网络、图像局部特征方向确定网络与图像局部特征描述网络。其不足之处主要是网络整体复杂性较高,且训练时,LIFT网络依然使用经筛选的SIFT特征点作为特征点标注,未能脱离SIFT法的局限。Ono等人提出的Le-Net整体上延续了LIFT法的思路,但大幅简化了网络结构,不再将图像特征点检测及图像局部特征描述流程中的各个步骤看作独立的模块,而是将网络设计为一个整体。训练上,其使用无监督的方法训练特征点检测器,整体采用端到端的训练方法,改善了网络性能,降低了网络复杂度。

近年出现的先描述后检测方法较之前的先检测后描述方法普遍展现出了更好的性能,它们使用同一个网络来实现了检测和描述两个任务,他们之间的大部分参数是共享的,这样可以减少网络的复杂性。近年,Detone等人的提出的SuperPoint使用VGG-style网络来提取图像特征,经卷积后使用类似图像超分辨的方法检测特征点坐标。SuperPoint的标签是通过经合成数据集训练的特征点检测器检测得到的,消除了人工标注的偏倚。之后,Dusmanu等提出的D2-Net网络在先描述,后检测的方法中较为突出。其使用VGG-16网络作为骨干,在VGG-16的输出特征图后串联特征点检测器。D2-Net区别于其他工作最大的特点是,其特征点检测器中没有学习得到的参数,特征点仅由特定的算法检测得到。尽管结构简单,D2-Net仍在其问世时取得了与SuperPoint不相伯仲的效果,证明了其思路的可行性。Revaud等人提出的R2D2网络使用的训练数据同样没有任何人工误差,其采用光流代替MegaDepth数据集来产生点的对应,为训练数据提供了新思路。同时该方法提出了描述子的可靠性指标,来消除误匹配。

然而在许多联合学习局部特征点和描述子的方法中,我们认为有两个非常大的限制:1、特征点定位精度很低,不能有效地解决像机几何问题。2、许多工作在关键点检测器的设计上只关注于可重复性,对一些纹理相似的区域可能造成误匹配。

关键点的定位精度对许多计算机视觉任务的性能有很大的影响,如D2-Net在SFM中的大投影误差。关键点定位精度低主要是因为关键点检测是在低分辨率的特征图上进行的(例如D2-Net是在原图像的1/4上进行的)。为了保证较好的特征点精度,SuperPoint将通过VGG-like网络结构的得到低分辨率特征图进行上采样到原始分辨率,然后通过像素级的监督点进行特征点检测,而R2D2采用扩展卷积代替池化层来保证特征图的分辨率不变,这样会增加大量的计算。ASLFeat是在D2-Net的基础上做了改进,将不同分辨率得到的特征点评分进行上采样融合,以求得到所有的特征点并保持特征点的空间精度。虽然ASLFeat能使用较少的计算量解决特征点的定位精度,并且或得不同层次的特征信息,但是它只是对不同分辨率的得分图进行了融合,只能得到少量的不同层次的信息。

在许多图像中会包含大量突出纹理的部分,如自然界中的树叶、摩天大楼的窗户或海浪等,对于基于局部梯度直方图的方法来说,虽然图中具有大量梯度较大的位置,可以作为特征点,但由于它们的相似性以及不稳定性,无法进行匹配。同时,许多基于深度学习的工作在关键点检测器的设计上只关注于可重复性。另一方面,用于学习局部鲁棒描述符的度量学习技术的方法被在可重复提供的位置上进行训练,它们在可重复但不可能进行精确匹配的区域,这可能会损害性能。最近R2D2的方法通过为每个稠密描述子学习可靠性得分来去处不稳定的纹理区域。

发明内容

要解决的技术问题

为了避免现有技术的不足之处,本发明提出一种具有跳层结构的特征提取网络及特征和描述子生成的方法,针对目前流行的联合学习图像特征点和描述子的方法存在的问题两个问题加以改进,提供了一种带有跳层结构的图像特征点检测和描述子生成方法,其特征在于使用不含全连接层的卷积神经网络进行图像特征提取,对提取到的不同分辨率特征图进行融合,以提高特征点的定位精度,并且完全获得底层的丰富细节信息。之后再进行软硬特征点检测,在特征点检测中使用通道得分和独特性得分来选择正确的特征点及描述子。而且其中的独特性评分,可以有效消除误匹配。最终得到定位精确度高、准确度高的特征点和描述子。

技术方案

一种具有跳层结构的特征提取网络,其特征在于:主体结构为VGG16的conv1_1层至conv4_3层的部分,移除了全连接层;将conv3_3层与conv4_3层的输出特征图进行双线性插值,上采样为conv2_2的输出特征图的分辨率,之后对conv2_2层与上采样后的特征图进行张量拼接,使得主体结构的conv2_2层、conv3_3层与conv4_3层的输出特征图进行融合;再进行张量拼接得到具有896个通道的特征图,对特征图进行1×1卷积将其变为512通道的特征图F。

一种采用所述具有跳层结构的特征提取网络进行图像特征点检测和描述子生成的方法,其特征在于步骤如下:

步骤1:选择可见光开源数据集进行标注,对数据集中的每一张图像都使用随机单应性变化和颜色抖动进行处理,经过处理生成的图像和原来的图像形成图像对,图像对之间的像素通过单应性矩阵联系在一起;将标注好的数据集作为训练集,同时选择带有标注的数据集作为验证集;

步骤2:使用具有跳层结构的特征提取网络F对训练集中的图像进行特征提取,得到512维的特征图F=F(I),

步骤3:对512维的特征图进行描述子提取,每个通道向量看作其位置的稠密描述,之后对其进行L2正则化得到图像的稠密描述子

其中i=1,…,h,j=1,…,w,d

步骤4:采用软特征点检测器进行特征点的通道得分和独特性得分检测,最后将检测到的通道得分c

其中:

稠密描述子

其中i=1,…,h,j=1,…,w,

描述子

其中i=1,…,h,j=1,…,w,t=1,…,n,

步骤5:以损失函数对软特征点检测得分进行损失计算,之后将损失反向传播训练步骤2中的具有跳层结构的特征提取网络:

其中I

步骤6:以步骤5训练好的具有跳层结构的特征提取网络对验证集进行特征图提取,当采用硬特征检测器在提取到的512维的特征图中选择通道最大并且比其他75%像素都要独特的像素作为特征点,得到测试图像的特征点和描述子。

有益效果

本发明提出的一种具有跳层结构的特征提取网络及特征和描述子生成的方法,网络为带有跳层结构的图像特征提取网络,在VGG16的conv2_2层、conv2_3层与conv4_3层的输出特征图进行融合,得所有的细节信息,并有效提高特征点定位精度。特征点的独特性指标是指图像的某个局部区域与图像其他区域的相似程度。通过独特性得分来衡量图像中每个位置的独特性,即图像中每个位置与其他所有位置的相似程度。通过选择图像中足够独特的特征点来提高网络的匹配性能。本发明在图像检索的HPatches数据集上取得了领先的性能,特别是在它的光照序列上。

通过本发明所构思的技术方案于现有的技术相比,能够具有下列的有益效果是:

本发明通过在图像特征提取网络中增加特征融合结构,使得网络得到的特征图包含着不同层次的语义信息,其中,低层次的语义信息可以保留图像的更多低层次信息,如边或角等,这使得对图像特征进行高精度检测成为可能,而高层次语义信息可以为最终进行局部特征匹配时增强特征匹配的准确率,减少误匹配提供了保证。同时本发明通过在特征点检测阶段设计特征点的独特性检测,有效的解决了在纹理区域容易产生的误匹配。经过测试,相比于D2-Net在图像匹配中的效果,我们的方法可以将在投影误差阈值为1时的特征点的定位精度提升2倍,在较大的投影误差时,我们得方法取得了非常优秀的效果,其平均匹配精度达到了0.913,比目前最为优秀的ASLFeat提升了0.011。

附图说明

图1本发明的整体结构图,其包含图像特征提取、特征融合和特征点检测三个部分。

图2本发明的特征提取网络结构图。

图3网络训练流程图。

图4本发明在HPatches上特征点提取效果对比图。

图5本发明在HPatches匹配效果对比图。

具体实施方式

现结合实施例、附图对本发明作进一步描述:

一种带有跳层结构的图像特征点检测和描述子生成方法,步骤如下:设计方法,步骤如下:

步骤1:选择可见光开源数据集进行标注,对数据集中的每一张图像都使用随机单应性变化和颜色抖动进行处理,经过处理生成的图像和原来的图像形成图像对,图像对之间的像素通过单应性矩阵联系在一起。将标注好的数据集作为训练集,同时选择带有标注的数据集作为验证集。

步骤2:使用如下的具有跳层结构的特征提取网络F对步骤1训练集中的图像进行特征提取,得到512维的特征图F=F(I),

具有跳层结构的特征提取网络设计如下:主体结构为VGG16的conv1_1层至conv4_3层的部分,移除了全连接层。之后,我们将主体结构的conv2_2层、conv3_3层与conv4_3层的输出特征图进行融合,这样可以保持特征点的空间定位精度并融合具有不同层次的特征。首先将conv3_3层与conv4_3层的输出特征图进行双线性插值,上采样为conv2_2的输出特征图的分辨率,之后对conv2_2层与上采样后的特征图进行张量拼接。进行张量拼接后我们得到了具有896个通道的特征图。之后对这个特征图进行1×1卷积将其变为512通道的特征图F。

步骤3:对步骤2提取到的512维的特征图进行描述子提取,每个通道向量看作其位置的稠密描述,之后对其进行L2正则化得到图像的稠密描述子

其中i=1,…,h,j=1,…,w,d

步骤4:采用软特征点检测器进行特征点的通道得分和独特性得分计算,最后将检测到的通道得分和独特性得分相乘得到软特征检测器在像素(i,j)得分。

稠密描述子

其中i=1,…,h,j=1,…,w,

描述子

其中i=1,…,h,j=1,…,w,t=1,…,n,

软特征检测器在像素(i,j)得分为:

s

其中c

步骤5:采用如下的损失函数对步骤4的软特征点检测得分进行损失计算,之后将损失反向传播训练步骤2中的具有跳层结构的特征提取网络。

损失函数设计如下:为进行网络的训练,我们将特征点检测器得到的通道得分和独特性得分加入到损失函数进行训练。对于输入网络的图像对(I

其中I

我们通过在损失函数中使用特征点评分作为权重,保证了损失函数的稀疏性,有效防止了网络过拟合。减小m(c),即增加匹配特征点描述向量向的距离并增加描述向量的可辨识性;或减小

步骤6:使用步骤5中训练好的具有跳层结构的特征提取网络对步骤1中的验证集进行特征图提取,我们采用如下的硬特征检测器在提取到的512维的特征图中选择通道最大并且比其他75%像素都要独特的像素作为特征点,得到测试图像的特征点和描述子。

硬特征检测器设计如下:

我们分析影响特征点匹配性能的因素,从提高特征点匹配性能的角度出发,提出特征点的独特性指标,并结合对特征点描述向量的分析,设计基于特征独特性的特征点检测器。通过独特性得分来衡量图像中每个位置的独特性,即图像中每个位置与其他所有位置的相似程度。我们通过选择图像中足够独特的特征点来提高网络的匹配性能。

我们定义,特征的独特性是在同一幅图片中,图像的某个局部区域与图像其他区域的相似程度。图像的局部区域与其他局部区域越不相似,则其独特性越高。对稠密描述的一个位置(i,j),描述向量的独特性

其中U是u

在我们的发明中,我们认为,稠密描述符d中的特征点位置(i,j,k)应由描述符向量

对描述向量

我们发明的硬特征点检测条件为:

其中,(i,j)为特征图中的空间位置,i=1,…,h,j=1,…,w。

具体实施例:

参阅图1,本发明按下述步骤进行图像特征点的检测和局部特征描述:

步骤1:选择COCO2014的train数据集进行标注,包含82783张图像。对数据集中的每一张图像都使用随机单应性变化和颜色抖动进行处理,经过处理生成的图像和原来的图像形成图像对,图像对之间的像素通过单应性矩阵联系在一起。将标注好的COCO2014的train数据集作为训练集。测试集采用标准的HPatches数据集进行训练。

步骤2:参阅图2,使用具有跳层结构的特征提取网络对步骤1中产生的训练集进行特征提取。其中特征提取网络的主体结构为VGG16的conv1_1层至conv4_3层的部分,移除了全连接层。同时为了保持特征点的空间定位精度并融合具有不同层次的特征,我们将VGG-16网络中的conv2_2层、conv3_3层与conv4_3层的输出特征图进行融合。首先将conv3_3层与conv4_3层进行双线性插值,上采样为conv2_2的分辨率,之后进行张量拼接。进行张量拼接后我们得到了具有896个通道,即三种不同层次的语义信息的特征图。之后对该特征图进行1×1卷积,将不同层次语义特征进行融合,得到512通道的特征图F。

步骤3:对于步骤2中的特征图F,其包含了不同层次的细节信息,而且具有原图1/2的分辨率,本发明直接在其上进行描述子提取。

图像的稠密描述向量d:

其中i=1,…,h,j=1,…,w。在图像之间的比较时,这些描述子向量可以非常方便的使用欧式距离建立对应关系。像之前的工作一样,我们在进行比较之前,对描述子向量d

步骤4:参阅图1中的特征点检测部分,我们在特征图上采用软特征检测,每个稠密描述子

步骤5:我们采用如下的损失形式对步骤4的软特征点检测得分进行损失计算,其中m(c)为三重排名损失,它最小化对应描述符

其中I

参阅图3,我们按照步骤2,3,4,5的顺序进行网络的训练。在训练网络时,为了减少计算量,我们将提取到的特征图F

减小m(c),即增加匹配特征点描述向量向的距离并增加描述向量的可辨识性;或减小

步骤6:使用步骤5训练好的具有跳层结构的特征提取网络对步骤1中提供的验证集HPatches进行特征图的提取。我们选择特征图中通道最大并且比其他75%像素都要独特的像素作为特征点,得到测试图像的特征点和描述子。

测试结果参照图4。在测试时,我们使用SIFT-like边缘消除(阈值设置为10)和亚像素细化对关键点进行了后处理,然后在细化的位置对描述符进行双插值。

HPatches数据集是Balntas等人在其工作中构建的用于评估图像特征描述子的数据集。该数据集共包含116个场景的图像序列,其中有59个场景是视角组,是在同一场景不同视角拍摄的序列图像,且视角组的图片均为平面场景;另外57个场景为光照组,是同一场景在固定视角、不同光照条件的图像序列。Hpatches数据集的每个场景均有6张图像,其中第一张为基准图像。在实验中,我们剔除分辨率大于1600×1200的图片序列,使用剩余的52组光照序列、56组视角序列进行测试。我们首先使用不同的方法提取每个序列图像的特征点和描述子,之后使用最近邻搜索来进行每种方法的特征点匹配,只接受相互最近邻。我们使用平均匹配精度(MMA)作为验证指标。

对于每一幅图像对,本发明使用最近邻搜索来匹配每一种方法所提取的特征,只接受相互最近邻。如果使用数据集提供的单映性估计的重新投影误差低于给定的匹配阈值,则认为匹配是正确的。为了展现我们发明的优越性我们与不同的方法进行了对比,其中传统的有HAN+HN++和RootSIFT,联合学习特征点和描述子的方法有SuperPoint、LF-Net、D2-Net、R2D2和最新的ASLFeat。我们记录不同方法在不同阈值下的MMA值,得到表1、表2中的对比结果。

参阅图5、图6。为了更好展现我们的方法,我们在HPatches数据集上定量展现了我们的效果,我们在特征点方面选取了三组,在效果上可以明显发现,我们的方法可以有效的去除场景中重复的纹理区域,如树叶、草地和铺砌的地面,这些区域虽然存在大量的特征点,但由于其自相似性以及不稳定性非常容易引起误匹配。在特征点匹配方面,我们在光照组和视角组分别选取了一张进行对比。光照组中,我们可以明显的发现D2-Net和ASLFeat获得的匹配更多,但是,其中存在天空,树叶等不稳定的纹理区域,这些匹配都是无效的。在视角组中,我们可以明显的发现,ASLFeat和D2-Net把更多精力放在了这些不稳定的匹配上,而我们的方法得到的匹配更具有代表性。

表1本发明在HPatches验证集上的验证效果对比。

表2本发明整体效果的特征点定位精度对比结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号