首页> 中国专利> 一种知识产权图形识别中增强分类模型抗背景变化能力的方法

一种知识产权图形识别中增强分类模型抗背景变化能力的方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种知识产权图形识别中增强分类模型抗背景变化能力的方法，属于图像分类技术领域，该方法包括利用背景替换后的第三原始数据集对第一原始数据集进行增强和利用增强后的第四原始数据集对分类模型进行训练，对第一原始数据集进行增强是通过将候选背景集与第一原始数据集处理得到消去背景的第二原始数据集和替换背景的第三原始数据集，并用替换背景的第三原始数据集对第一原始数据集进行扩充，进而获得增强后的第四原始数据集；再利用消去背景的第二原始数据集和增强后的第四原始数据集共同训练分类模型，本发明在遇到训练场景与实际场景中出现的背景差异较大时依然可以获得较为稳定的分类性能。

著录项

公开/公告号CN112926679A

专利类型发明专利
公开/公告日2021-06-08

原文格式PDF
申请/专利权人江苏大学;
展开▼

申请/专利号CN202110323176.0
发明设计人陆虎;蒋可;姚尧;耿霞;王婷婷;
展开▼

申请日2021-03-26
分类号G06K9/62(20060101);
代理机构
代理人
地址 212013 江苏省镇江市京口区学府路301号
入库时间 2023-06-19 11:19:16

说明书

技术领域

本发明属于图像分类领域，更具体地说，是涉及一种知识产权图形识别中增强分类模型抗背景变化能力的方法。

背景技术

随着人工智能的普及，日常生活中我们已经在许多地方利用到分类算法，如人脸识别、拍照识别物品属于什么垃圾、拍照搜索相似商品等，分类算法的普及给我们的生活带来了巨大的便利。

目前，知识产权图形AI识别领域中，需要识别的图形包括可认读的文字(中文及英文或拼音)以及图形logo、外观专利等，目前这一领域取得了不错识别效果，但是现行的分类算法大多基于深度学习技术来实现，而深度学习模型的训练则依赖于模型的设计和训练集的提供，只有良好的模型设计和包含面广泛的数据集才能给分类模型带来优越的性能，从而胜任设计场景下的分类任务。虽然在大部分场景下这些分类算法都能够正常运行，但因为现实场景的复杂多变，同一个分类对象，出现在不同的场景下分类结果可能会有所差异。也即，目前的分类算法无法在现实中复杂的场景下保持稳定的分类性能，不利于分类模型在知识产权图形识别中更进一步的应用。

发明内容

本发明的目的在于提供一种增强知识产权图形(外观专利图形或者商标、版权图形)分类模型抗背景变化能力的方法，用以解决目前的分类算法无法在现实中复杂的场景下保持稳定的分类性能，不利于分类模型在知识产权图形识别中更进一步的应用的问题。

为解决上述技术问题，本发明采用的技术方案是：一种知识产权图形查询中增强分类模型抗背景变化能力的方法，包括以下步骤：消去背景的第二原始数据集和替换背景的第三原始数据集是由候选背景集和第一原始数据集通过处理算法处理得到；增强后的第四原始数据集是由第一原始数据集和替换背景的第三原始数据集联合后得到；消去背景的第二原始数据集和增强后的第四原始数据集成对的输入用来进行模型训练。

进一步，所述候选背景集是由用户设置的与第一原始数据集中的样本的背景存在一定差异的背景图片所组成。

进一步，所述处理算法具体过程为：

处理后得到的第二原始数据集中样本背景皆被消去；处理后得到的第三原始数据集中新的背景来自所述候选背景集；第三原始数据集由消去背景的第二原始数据集和背景数据集合成而来。

进一步，所述的模型训练，将增强后的第四原始数据集样本以及与该样本中的前景相对应的所述消去背景的第二原始数据集样本成对的作为输入送入模型；

所述的模型训练中，模型网络由第一分支和第二分支两个部分组成，两个分支的损失相加构成整个模型网络的分支，所述单个输入样本损失构成如下：

其中，λ

所述的第一分支，输入为增强后的第四原始数据集样本，抽取出最终特征后，将该最终特征送入全连接层获得最终分类结果；

所述的第二分支，输入为增强后的第四原始数据集样本中的前景相对应的消去背景的第二原始数据集样本，并将最终特征进行解码，得到解码后样本，并将解码后样本与消去背景的第二原始数据集样本进行重构损失的计算。

进一步，所述的模型训练中，第一分支输入的批样本由所述增强后的第四原始数据集中采样得到，所述第二分支输入的批样本由所述第一分支输入的批样本中的每张样本在消去背景的第二原始数据集中的对应样本组成。

进一步，两个分支的样本在送入模型进行训练之前，经过完全一致的数据增强处理。

与现有技术相比，本发明提供的一种增强分类模型抗背景变化能力的方法的有益效果在于：该方法通过数据集背景替换和模型训练两部分组成，数据集背景替换部分通过将候选背景集与第一原始数据集利用处理算法进行处理，生成消去背景的第二原始数据集和替换背景的第三原始数据集，最后再将第一原始数据集和第三原始数据集一并作为增强后的第四原始数据集。其中，第一原始数据集与第二原始数据集中的样本一一对应，第二原始数据集与第四原始数据集中的样本是一对多的关系，总体上该数据集背景替换方法易于实现、成本低廉、可以批量的大规模的生成替换背景的样本从而对数据集进行扩充。该模型训练方法由两个分支的网络构成，其中，第一分支利用上述第四原始数据集中的样本作为输入，第二分支利用上述第二原始数据集中的样本作为输入，二者的输入样本一一对应，进行完全一致的数据增强。第一分支用于对上述第四原始数据集中的样本抽取特征并送入全连接层得到分类结果，第二分支用于对第一分支抽取出的特征进行重构，并将重构后的样本与第二分支的输入进行比较，促使第一分支学习到与背景无关的特征。分类损失与重构损失加权相加作为分类模型的最终损失，使得分类模型最终能够更好的学到与背景无关的、对背景变化更为鲁棒的、性能更好的特征，从而提高分类模型抗样本背景变化的能力，确保分类模型在各个知识产权图形识别场景下都能有稳定的性能表现。

附图说明

为更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中方法流程示意图；

图2是本发明实施例中样本生成顺序示意图；

图3是本发明实施例中模型训练示意图；

图4是本发明实施例中无背景样本到替换背景样本流程图。

其中，附图中的标号如下：

02-第二原始数据集、04-第四原始数据集；

000-候选背景集样本、010-第一原始数据集样本、020-第二原始数据集样本、030-第三原始数据集样本、050-检测算法标注的样本；

100-特征抽取模型、101-最终特征、102-全连接层、103-分类标签；

110-解码器模型、111-解码后样本；

120-真实标签；

130-交叉熵损失、131-均方差损失。

具体实施方式

为使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合具体附图及具体实施例，进一步对本发明作详细说明。其中，本发明具体实施例的附图中相同或相似的标号表示相同或相似的元件，或者具有相同或类似功能的元件。应当理解地，下面所描述的具体实施例旨在用于解释本发明，并不用于限定本发明。

需说明的是，术语“第一”、“第二”、“第三”、“第四”仅为便于描述，而不能理解为指示或暗示相对重要性或者隐含指明技术特征的数量。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

以下结合附图1至图4对本发明提供的一种增强分类模型抗背景变化能力的方法的实现进行详细的描述。

该数据集背景替换方法基本步骤如图2所示，主要利用所述候选背景集对所述第一原始数据集样本010进行背景替换，具体在本实施例中，该候选背景集拥有十张候选背景样本，第一原始数据集为Market-1501数据集。

在本实施例中，我们选用MaskR-CNN作为检测算法，首先采用MaskR-CNN对第一原始数据集样本010进行实例分割，将分割出的前景覆盖上像素值为(0，0，0)的掩码，使得前景部分被处理为纯黑色，并将该样本记作黑色检测算法标注的样本050。优选的，为了防止(0，0，0)像素在样本中的其他像素中出现，我们再次利用MaskR-CNN对所述第一原始数据集样本010进行实例分割，将分割出的前景覆盖上像素值为(255，255，255)的掩码，使得前景部分被处理为纯白色，并将该样本记作白色检测算法标注的样本050。

进一步的，分别创建与所述第一原始数据集样本010相同尺寸的纯白背景图片和纯黑背景图片，再逐像素的进行如下操作：判断是否黑色检测算法标注的样本050当前位置的像素值为(0，0，0)并且白色检测算法标注的样本050当前位置的像素值为(255，255，255)，若是则说明当前像素属于前景，并将纯白图片和纯黑图片的当前像素位置都置为所述第一原始数据集样本010当前位置的像素，否则保留纯白背景图片当前位置为纯白像素、纯黑背景图片当前位置为纯黑像素。对所有像素点处理完毕后，我们将两张图片分别记为白色消去背景样本和黑色消去背景样本，并将黑色消去背景样本作为第二原始数据集样本020，用于后续的模型训练过程。

进一步的，对所述候选背景集中的每一张背景样本，将其缩放到与所述第一原始数据集样本010同样的高度，若缩放后背景样本更宽，则通过随机选取起点的方式，从中剪裁出一块与所述第一原始数据集样本010同尺寸的背景区域作为用来合成的背景样本；若缩放后的背景样本更窄，则强行将其宽度缩放到与所述第一原始数据集样本010同宽，并将该背景样本作为用来合成的背景样本。

进一步的，无背景样本到替换背景样本基本流程如图4所示，对每一张所述用来合成的背景样本，创建与所述第一原始数据集样本010相同尺寸的空白图片，再逐像素的进行如下操作：判断是否黑色消去背景样本当前位置的像素值为(0，0，0)并且白色消去背景样本样本当前位置的像素值为(255，255，255)，若是则说明当前像素属于背景，并将空白图片的当前位置像素置为所述用来合成的背景样本当前位置的像素，否则置为所述第一原始数据集样本010当前位置的像素。对所有像素点处理完毕后，我们将处理后的图片作为第三原始数据集样本030，用于后续的数据集扩充过程。

进一步的，当完成了全部的背景替换工作，我们便得到了第一原始数据集、第二原始数据集02和第三原始数据集。再将第一原始数据集中的样本和第三原始数据集中的样本放到一起，我们便得到了第四原始数据集04，第二原始数据集02和第四原始数据集04一起作为输入用于后续的数据集训练过程。

需说明的是，上述操作中检测算法并不局限于MaskR-CNN，只要能区分出样本的前景与背景即可。同样的，标记颜色也并非一定要取黑色和白色，只要能便于后续程序进行处理即可，人们可以根据需要自行改变标注颜色。

该模型训练方法基本组件如图3所示，分类模型的主要组件包括特征抽取模型100、全连接层102、解码器模型110，损失项由交叉熵损失130和均方差损失131两部分组成。

在本实施例中，编码器模型选用Resnet-50，拿掉最后的池化层，并在加上全连接层，全连接层输入为2048个节点，输出为751个节点，最后再经由Softmax运算，使得Resnet-50输出的2048维特征转换为Market-1501测试集中751类的预测概率。解码器模型由六层反卷积层和一层卷积层组成，现将2048维的特征转换为512*4*1的特征，前六层反卷积层参数一致，卷积核尺寸为(1，2)，步长为(1，2)，填充为0，采用Batch Normalization进行归一化，激活函数为Tanh，其中前三层通道数为1，后三层通道数为3。最后一层卷积层卷积核尺寸为4，步长为2，填充为1，通道数为3，不进行归一化与激活，直接输出，得到256*128*3的输出样本。

进一步的，如图3所示，所述模型的第一分支输入为所述第四原始数据集04中的批样本，所述模型的第二分支输入为所述第四原始数据集04中的批样本中的样本依次对应的第二原始数据集02中的样本所组成的批。

进一步的，所述第一分支的批输入与所述第二分支的批输入一一对应，每一对样本采取相同的数据增强操作。在本实施例中，数据增强操作为：以0.5的概率对两张样本同步进行水平翻转操作；统一将128*64的输入样本缩放到256*128；统一对两张样本的四周填充10个像素的空白；选择剪裁的起点，两张样本采用同样的起点进行剪裁，重新回到256*128的大小；对两张样本进行同样的归一化。

进一步的，所述第一分支通过特征抽取模型100对第四原始数据集04中的样本抽取特征后，将Resnet-50最后一层输出的2048*1的特征作为最终特征101，并将该最终特征101送入全连接层102，得到分类模型对该样本的分类标签103。所述第二分支通过将上述最终特征101送入上述解码器模型110，并进行解码得到解码后样本111。

进一步的，所述第一分支的分类标签103和该样本对应的真实标签120进行交叉熵计算，得到该样本的交叉熵损失L

其中，λ

在本实施例中，采用动态权重优化，20个epoch后逐渐提升为1。

通过将上述背景替换方法与模型训练方法的联合，便得到了一种增强分类模型抗背景变化能力的方法。损失项约束网络的第一分支可以学到精确的特征抽取方法，损失项通过网络的第二分支反馈给解码器模型110和网络的第一分支使得特征抽取模型100除了要学到精确的特征抽取方法，还要更进一步的将注意力集中于第四原始数据集04中样本的前景部分，给背景部分更小的权重，进而使得分类模型可以对现实中复杂的场景中样本所处的背景变化拥有更好的鲁棒性，使得分类算法可以在现实中复杂的场景下保持稳定的分类性能。

本发明属于图像分类技术领域，旨在提供一种可以增强分类模型在实际应用场景的样本背景与训练场景的样本背景差距较大时的分类效果的方法。该方法包括利用背景替换后的第三原始数据集对第一原始数据集进行增强和利用增强后的第四原始数据集对分类模型进行训练，其中，对第一原始数据集进行增强是通过将候选背景集与第一原始数据集处理得到消去背景的第二原始数据集和替换背景的第三原始数据集，并用替换背景的第三原始数据集对第一原始数据集进行扩充，进而获得增强后的第四原始数据集；再利用消去背景的第二原始数据集和增强后的第四原始数据集共同训练分类模型，进而使得分类模型获得更好的分类性能，且在遇到训练场景与实际场景中出现的背景差异较大时依然可以获得较为稳定的分类性能，从而提高分类模型抗样本背景变化的能力。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种知识产权图形识别中增强分类模型抗背景变化能力的方法 [P] . 中国专利： CN112926679A . 2021-06-08
2. 一种基于对抗样本增强模型抗攻击能力的方法和系统 [P] . 中国专利： CN111046380B . 2022.02.15
3. Enhanced background model employing object classification for improved background-foreground segmentation [P] . 美国专利： US7190809B2 . 2007-03-13

机译：使用对象分类的增强背景模型可改善背景-前景分割
4. Enhanced background model employing object classification for improved background-foreground segmentation [P] . 美国专利： US2004001612A1 . 2004-01-01

机译：使用对象分类的增强背景模型可改善背景-前景分割
5. AUGMENTED REALITY VISUALIZING SYSTEM CAPABLE OF CLEARLY CLASSIFYING CONTENT FROM A BACKGROUND IMAGE BY RENDERING AUGMENTED CONTENT IN A VIRTUAL ENVIRONMENT AND A METHOD THEREOF [P] . 韩国专利： KR20120091749A . 2012-08-20

机译：通过在虚拟环境中呈现增强内容，能够从背景图像中清晰分类内容的增强现实可视化系统及其方法