公开/公告号CN114863131A
专利类型发明专利
公开/公告日2022-08-05
原文格式PDF
申请/专利权人 之江实验室;中国科学院自动化研究所;
申请/专利号CN202210579586.6
申请日2022-05-25
分类号G06V10/44(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06V10/774(2022.01);G06V10/82(2022.01);
代理机构杭州求是专利事务所有限公司 33200;
代理人邱启旺
地址 310023 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼
入库时间 2023-06-19 16:17:34
法律状态公告日
法律状态信息
法律状态
2022-08-23
实质审查的生效 IPC(主分类):G06V10/44 专利申请号:2022105795866 申请日:20220525
实质审查的生效
2022-08-05
公开
发明专利申请公布
技术领域
本发明涉及计算机视觉和人工智能领域,尤其涉及一种基于三条带注意机制的特征图加权方法和装置。
背景技术
注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,而后对这一区域投入更多注意力资源,以获得更多所需要的关注目标的细节信息,而抑制其他无用信息。随着深度学习的发展和普及,注意力机制在深度学习中的应用也越来越受到关注。通过注意力机制的加权操作,可以有效的优化深度学习网络提取特征图的操作。
然而,近些年来提出的注意力机制有着明显的弊端。一部分注意力机制只关注了特征的空间部分,忽略了通道;同样有一部分注意力机制只关注了通道而忽略了空间,这使得加权操作不够彻底。同时,大多数注意力机制都采用的卷积操作进行加权,而卷积操作很大程度上忽略了全局信息,使得加权效果不够明显。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于三条带注意机制的特征图加权方法和装置。
本发明的目的是通过以下技术方案来实现的:一种基于三条带注意机制的特征图加权方法,包括以下步骤:
(1)将原始特征图分离成列条带、行条带和通道条带;
(2)对列条带、行条带和通道条带均采取压缩、标准化处理、非线性激活、扩张处理和标准化处理,得到对应的加权后的列条带、加权后的行条带和加权后的通道条带;
(3)将加权后的列条带、加权后的行条带和加权后的通道条带的维度均扩充到原始特征图的尺寸大小,得到扩充后的列特征图、扩充后的行特征图和扩充后的通道特征图;随后将三个扩充后的特征图进行相加,并对相加结果进行非线性处理得到加权特征图;
(4)将将加权特征图与原始特征图进行相乘,并将相乘结果与原始特征图进行相加,得到输入特征图,并将输入特征图作为后续的输入。
进一步地,所述步骤(1)包括以下子步骤:
(1.1)对原始特征图F的行维度和通道维度进行平均池化操作,得到列条带T
(1.2)对原始特征图F的列维度和通道维度进行平均池化操作,得到行条带T
(1.3)对原始特征图F的行维度和列维度进行平均池化操作,得到通道条带T
进一步地,所述步骤(2)包括以下子步骤:
(2.1)使用多层感知机对列条带、行条带、通道条带的元素均进行压缩处理,将列条带、行条带或通道条带的隐藏层的尺寸缩减r倍;
(2.2)使用批量标准化处理对压缩处理后的元素进行标准化处理,并使用ReLU激活函数对标准化后的元素进行非线性激活;
(2.3)使用多层感知机对非线性激活后的元素进行扩张处理,将列条带、行条带或通道条带的隐藏层的尺寸扩张r倍;
(2.4)使用批量标准化处理对扩张处理后的元素进行标准化处理,得到加权后的列条带T′
进一步地,所述步骤(3)包括以下子步骤:
(3.1)将加权后的列条带T′
将加权后的行条带T′
将加权后的通道条带T′
所述扩充后的列特征图T″
(3.2)将扩充后的列特征图T″
进一步地,所述步骤(4)具体为:将加权特征图T
本发明还提供了一种基于三条带注意机制的特征图加权装置,包括一个或多个处理器,用于实现上述基于三条带注意机制的特征图加权方法。
本发明还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述基于三条带注意机制的特征图加权方法。
本发明的有益效果是:本发明提出的方法可以适用于大多数基于图像处理的深度卷积神经网络。和其他主流的深度卷积神经网络注意力加权机制相比,该发明采取了压缩和扩张机制进行注意力加权,使得对原特征图加权处理的同时只添加很少的参数量和浮点数计算量。除此之外,该发明的结构简洁,很容易实现。
附图说明
图1为一种基于三条带注意机制的特征图加权方法的流程图;
图2为一种基于三条带注意机制的特征图加权方法的整体网路结构图;
图3为一种基于三条带注意机制的特征图加权方法应用在Xception网路中的梯度变化热力图;
图4为一种基于三条带注意机制的特征图加权方法应用在Resnet50结构中插入位置展示图;
图5为一种基于三条带注意机制的特征图加权方法应用在滑坡数据集中的分割效果图;
图6为一种基于三条带注意机制的特征图加权方法应用在洪水数据集中的分割效果图;
图7为一种基于三条带注意机制的特征图加权装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加明白清楚,结合附图和实施例,对本发明进一步的详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本发明,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均在本发明保护范围。
实施例1
如图1和图2所示,本发明提供一种基于三条带注意机制的特征图加权方法,包括以下步骤:
步骤一:将原始特征图分离成列条带、行条带和通道条带,分别对应于原特征图的行、列和通道;
步骤一通过以下子步骤来具体实现:
(1.1)对原始特征图F的行维度和通道维度进行平均池化操作,得到列条带T
(1.2)对原始特征图F的列维度和通道维度进行平均池化操作,得到行条带T
(1.3)对原始特征图F的行维度和列维度进行平均池化操作,得到通道条带T
上述步骤不同于以往注意力机制对特征图直接做卷积。
步骤二:对列条带、行条带和通道条带均采取压缩、标准化处理、非线性激活、扩张处理和标准化处理,得到对应的加权后的列条带、加权后的行条带和加权后的通道条带;使得在加权的同时可以大大减少参数量;
步骤二通过以下子步骤来具体实现:
(2.1)使用多层感知机(MLP)对列条带、行条带、通道条带的元素均进行压缩处理,将列条带、行条带或通道条带的隐藏层的尺寸缩减r倍;即将列条带的维度缩减至
(2.2)使用批量标准化处理(Batch Normalization,BN)对压缩处理后的元素进行标准化处理,并使用ReLU激活函数对标准化后的元素进行非线性激活;
(2.3)使用多层感知机(MLP)对非线性激活后的元素进行扩张处理,将列条带、行条带或通道条带的隐藏层的尺寸扩张r倍;即将列条带的维度从
(2.4)使用批量标准化处理对扩张处理后的元素进行标准化处理,得到加权后的列条带T′
步骤三:将加权后的列条带、加权后的行条带和加权后的通道条带的维度均扩充到原始特征图的尺寸大小,得到扩充后的列特征图、扩充后的行特征图和扩充后的通道特征图;随后将三个扩充后的特征图进行相加,并对相加结果进行非线性处理得到加权特征图;
步骤三通过以下子步骤来具体实现:
(3.1)将加权后的列条带T′
将加权后的行条带T′
将加权后的通道条带T′
所述扩充后的列特征图T″
(3.2)将扩充后的列特征图T″
步骤四:将加权特征图与原始特征图进行相乘,并将相乘结果与原始特征图进行相加,得到输入特征图,并将输入特征图作为后续的输入;
步骤四具体为:
由于实验中我们是在ResNet残差网络中进行嵌入实验,因此需要考虑到残差机构的机制;
将加权特征图T
将输入特征图F′作为后续的输入。
图3为一种基于三条带注意机制的特征图加权方法应用在Xception网路中的梯度变化热力图;将三条带注意机制嵌入Xception网路中,并与原先没有任何嵌入的原始Xception网路作比较;通过对比训练不同轮数的热力图状态,可以看出在嵌入三条带注意机制的Xception网络收敛的更快且更准确,进一步验证了本发明提供的一种基于三条带注意机制的特征图加权方法对特征提取的促进作用。
图4为一种基于三条带注意机制的特征图加权方法应用在Resnet50结构中插入位置展示图;图4显示了三条带注意机制在ResNet网络中嵌入的位置,也是我们进行实验的具体嵌入位置。实验证明,在图中位置嵌入三条带注意机制可以起到更好的效果。
图5为一种基于三条带注意机制的特征图加权方法应用在滑坡数据集中的分割效果图;采取的基准网络是Unet网络,并将SE,CBAM,BAM等主流的注意力机制分别嵌入Unet网络,并和三条带注意机制进行对比。可以看出,三条带注意机制比其他注意力机制对Unet网络性能的提升更加有效。
图6为一种基于三条带注意机制的特征图加权方法应用在洪水数据集中的分割效果图;采取的基准网络是Unet网络,并将SE,CBAM,BAM等主流的注意力机制分别嵌入Unet网络,并和三条带注意机制进行对比。可以看出,三条带注意机制比其他注意力机制对Unet网络性能的提升更加有效。
参见图7,本发明实施例提供的一种基于三条带注意机制的特征图加权装置,包括一个或多个处理器,用于实现上述实施例中的基于三条带注意机制的特征图加权方法。
本发明基于三条带注意机制的特征图加权装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本发明基于三条带注意机制的特征图加权装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于三条带注意机制的特征图加权方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
机译: 一种注意力驱动的图像分割学习方法和利用用于满足自动车辆测试方法的高级4和使用相同的测试设备所需的高度自适应丢失加权值图的学习设备
机译: 车辆,即机动车辆,一种操作方法,涉及基于道路操纵程序的特征图,通过检测到的车顶负载来控制和调节驾驶特征,该特征图由控制单元存储
机译: 基于注意力机制和相关设备的路图象目标检测方法