首页> 中国专利> 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法

一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法

页面导航

摘要
著录项
说明书
相似文献

摘要

一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法，包括如下步骤：对每帧输入图像进行基础网络的稠密特征提取，利用池化方式生成二通道描述符。然后利用全连接层与激活函数的结构生成新的通道权重，并与原始输入的卷积特征进行重新尺度化操作，生成过滤特征。随后针对过滤后的特征图，建立完全图模型，通过信息生成网络输出每个节点的影响力信息，并以非线性组合的方式，实现节点特征的更新。最后通过子认证网络，促使同一地点的图像特征映射至相同的特征空间，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。极大地提升了机器人在大尺度场景下的视觉定位准确性，有助于开展更智能化的视觉导航等工作。

著录项

公开/公告号CN113033669A

专利类型发明专利
公开/公告日2021-06-25

原文格式PDF
申请/专利权人东北大学;
展开▼

申请/专利号CN202110331476.3
发明设计人张云洲;秦操;刘英达;刘闫;田瑞;
展开▼

申请日2021-03-29
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构21200 大连理工大学专利中心;
代理人刘秋彤
地址 110819 辽宁省沈阳市和平区文化路三巷11号
入库时间 2023-06-19 11:35:49

说明书

技术领域

本发明涉及计算机视觉及机器人领域，具体涉及一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法。

背景技术

基于视觉的场景识别方法是利用图像特征在最新一帧图像和之前看到过的图像中寻找相关性，判断是否已处于之前访问过的环境区域，从而形成闭环检测并进行地图优化。不同于基于传统特征的场景识别方法仅能处理常见的场景，基于深度卷积特征的提取方法能够保留图像的不变信息，以应对复杂的环境变化。《IEEE Transactions onRobotics,2012,28(5):1188-1197.》采用词袋模型针对图像序列实现了快速的场景识别，但是其算法中所采用的特征提取方式仅基于常见的场景，一旦环境发生显著变化，图像特征也随之变化从而导致场景识别算法失效。《IEEE/RSJ international conference onintelligent robots and systems(IROS),4297-4304,2015》利用深度卷积神经网络提取的图像特征，并在场景识别的准确率上实现了显著的提升，但是所提出的方法过于关注网络架构的设计，而忽略了不同滤波器对特征信息的编码，导致卷积特征信息冗余，不足以对场景进行表示。《IEEE International Conference on Robotics and Automation(ICRA),3223-3230,2017》将场景识别看作分类问题并通过度量学习的方式，使卷积神经网络学习到如何对图片相似程度进行判断。但是该方法仅考虑了图像对之间的信息，而忽略了大量数据之间的互相关联。因此，视觉场景识别方法的关键问题在于，针对外观变化情形下的网络训练、基于特征图过滤的特征提取和用于传播关联信息的图注意力模型。

发明内容

针对以往场景识别方法在外观变化情形、特征冗余、图像关联性利用的不足，本发明提出了一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法。首先利用原始卷积特征层的权重差异性，以学习的方式通过端对端的网络训练进行卷积特征的权重重新标定，并利用三元损失函数进行约束。然后通过图注意力网络模型进行节点间的互信息传播，采用子认证网络迫使相同地点图像的特征映射至特征空间同一点。最后通过反馈损失函数的约束来避免测试过程中图模型的时间损耗，采用优化后的特征进行图像间的相似度计算，实现视觉场景识别。该方法能够抑制针对外观变化情形不鲁棒的图像特征，从而保证生成的图像特征能够应对复杂的环境变化，提升机器人的场景重识别能力，以服务于导航、定位等应用场景。

本发明的技术方案是这样实现的：

基于可学习的特征图过滤与图注意力网络的视觉场景识别方法，包括如下步骤：

步骤一，对每帧输入图像进行基础网络的稠密特征提取，利用池化方式生成二通道描述符。

步骤二，利用全连接层与激活函数的结构生成新的通道权重，并与原始输入的卷积特征进行重新尺度化操作，生成过滤特征。

步骤三，针对过滤后的特征图，建立完全图模型，通过信息生成网络输出每个节点的影响力信息，并以非线性组合的方式，实现节点特征的更新。

步骤四，通过子认证网络，促使同一地点的图像特征映射至相同的特征空间，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。

进一步地，步骤一：利用池化方式生成二通道描述符。

特征过滤模块示意图如图1所示，首先对图像提取基于基础网络的稠密特征。随后，利用全局平均池化方式，对稠密特征提取后的空间信息进行压缩生成单通道描述符μ

其中，H为空间总高度，W为空间总宽度，

进一步地，步骤二：利用全连接层与激活函数的结构产生新的通道权重并重新构造特征。

通道权重以如下公式进行计算：

m＝σ

其中，σ

然后，利用新的通道权重对原始输入的卷积特征进行重新池化操作，得到过滤后的特征图。原始输入的步骤一稠密特征提取后的卷积特征X重新池化过程：

x′

其中，X′表示过滤后的特征，X′＝[x′

随后，过滤后的特征图通过使用三元损失函数进行约束，实现过滤特征的重新标定。

进一步地，步骤三：建立完全图模型，通过信息生成网络输出每个节点的影响力信息，并以非线性组合的方式，实现节点特征的更新。

1)完全图模型建立

对输入的过滤后的特征X′，建立完全图模型G(V,E)：

V＝{v

E＝{e

其中，V表示节点集合。每个节点v

节点之间的关联程度可以表示为：

其中，α

L1正则化方法被用于对关联程度α

2)影响力消息生成与节点更新

消息生成网络由两个全连接层，批量标准化层，以及ReLU激活函数层组成，影响力消息z

其中I(·)表示消息生成网络。

不同于一般的图注意力网络传播原始的特征的方式，本算法通过传播特征之间的影响力来对节点进行更新如图3所示。单一节点的更新方式如下：

其中

1)反馈损失函数

采用均方误差来约束原始特征与优化特征之间的差异：

其中，

进一步地，步骤四：通过子认证网络，促使同一地点的图像特征映射至相同的特征空间，并利用余弦距离计算优化特征间的相似度，实现视觉场景识别。

子认证网络接受两个特征输入，由一个全连接层与一个SoftMax激活函数组成。对于输入子认证网络的特征

其中·*表示逐元素乘操作。对于训练过程中一个小批次内的每一对图像，利用二进制交叉损失函数来计算最终的损失值：

其中，y

在完成特征的优化过程之后，利用生成的特征进行视觉场景识别，图像之间相似度计算采用了距离：

其中，

本发明的有益效果：本发明算法充分考虑了外观变化情形下的视觉场景识别，并针对特征不变性、特征间关联程度进行了特征图过滤模块、图注意力网络模型以及影响力生成网络的设计及训练，最终利用优化后的特征计算图像之间的相似度，完成准确的视觉场景识别。极大地提升了机器人在大尺度场景下的视觉定位准确性，有助于开展更智能化的视觉导航等工作。

附图说明

图1本发明特征过滤模块示意图；

图2本发明消息生成网络示意图；

图3本发明基于影响力的非线性节点更新示意图；

图4本发明算法执行流程示意图；

图5本发明权重通道响应示意图；

图6本发明相似度矩阵示意图

图7本发明不同三元损失函数性能PR曲线示意图

图8本发明不同组件性能PR曲线示意图

具体实施方式

步骤一：对Nordland数据集中，按批次的输入图像至AlexNet网络进行稠密特征提取，选择第三层卷积特征作为原始特征x

其中，H＝W＝224，

步骤二：输入步骤一生成的二通道描述符至全连接层与激活函数的结构，生成新的通道权重，新的通道权重以如下公式进行计算：

m＝σ

其中，σ

然后，利用新的通道权重对原始输入的卷积特征进行重新尺度化操作，得到过滤后的特征图。原始输入的卷积特征X重新尺度化过程：

x′

其中，X′表示过滤后的特征，X′＝[x′

随后，过滤后的特征图通过使用三元损失函数进行约束，实现过滤特征的重新标定。

步骤三：

1)完全图模型建立

对输入的特征X′，建立完全图模型G(V,E)：

V＝{v

E＝{e

其中V表示节点集合。每个节点v

节点之间的关联程度可以表示为：

其中，α

L1正则化方法被用于对关联性进行归一化：

2)影响力消息生成与节点更新

消息生成网络由两个全连接层，批量标准化层，以及ReLU激活函数层组成，影响力消息z

其中I(·)表示消息生成网络。

结合输出的过滤后的特征，通过传播特征之间的影响力来对节点进行更新。单一节点的更新方式如下：

其中

3)反馈损失函数

采用均方误差来约束原始特征与优化特征之间的差异：

其中，

步骤四：将步骤三生成的优化后的特征，输入至子认证网络中。子认证网络接受两个特征输入，由一个全连接层与一个SoftMax激活函数组成。对于输入子认证网络的特征

其中·*表示逐元素乘操作。对于训练过程中一个小批次的每一对图像，利用二进制交叉损失函数来计算最终的损失值来进行优化：

其中，y

在完成子认证网络的优化过程之后，利用生成的特征计算图像间的相似度并构成相似度矩阵如图6所示。图像之间相似度计算采用了余弦距离：

其中，

利用相似度矩阵，绘制PR曲线。实验测试了不同的三元损失函数对性能的影响如图7所示。原始的Conv3层网络的效果远远差于使用三元组损失函数优化后的实验结果。该结果还表明，基于三元组损失函数优化后的Conv3特征在判别能力上差异不是很大。

如图8所示，实验还测试了本方法中不同模块对算法性能的影响。从曲线可以看出，单独的使用特征图过滤模块，或者图注意力网络，都会对原始特征进行优化，但是还不足以满足性能要求。在同时使用特征图过滤模块与图注意网络模块之后，实验性能得到了最大的提升。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法 [P] . 中国专利： CN113033669A . 2021-06-25
2. 基于注意力机制与图注意力网络的命名实体识别方法 [P] . 中国专利： CN112183102A . 2021-01-05
3. PYRAMID HISTORY MAP GENERATING METHOD FOR CALCULATING FEATURE MAP IN DEEP LEARNING BASED ON CONVOLUTION NEURAL NETWORK AND FEATURE MAP GENERATING METHOD [P] . 韩国专利： KR20180020724A . 2018-02-28

机译：基于卷积神经网络和特征图生成方法的深度学习中特征图计算的金字塔历史图生成方法
4. Learning method and learning device for generation of virtual feature maps whose characteristics are same as or similar to those of real feature maps by using GAN capable of being applied to domain adaptation to be used in virtual driving environments [P] . 美国专利： US10373026B1 . 2019-08-06

机译：通过使用能够应用于领域适应以在虚拟驾驶环境中使用的GAN来生成其特征与真实特征图的特征相同或相似的虚拟特征图的学习方法和学习装置
5. Learning method and learning device for generating a virtual feature map having the same or similar characteristics as a real feature map by using GAN applicable to domain adaptation used in virtual driving environment, and test method using the same And test equipment [P] . 日本专利： JP2020119554A . 2020-08-06

机译：通过使用适用于在虚拟驾驶环境中使用的领域适应的GAN来生成与真实特征图具有相同或相似特征的虚拟特征图的学习方法和学习装置，以及使用该方法和测试设备的测试方法