首页> 中国专利> 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法

一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法

摘要

本发明公开了一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法,用于解决无监督行人重识别跨域识别精度不高,行人特征表示辨别力不强的问题,提升模型的可扩展性。首先引入多粒度特征提取模块,得到行人图像具有更丰富判别信息的多粒度特征表示;对于源数据集中有标签的行人图像,源域分类模块对其进行分类学习,为域自适应学习模块提供源域的行人判别知识;域自适应模块基于从源域中获得的判别知识,充分挖掘目标数据集中潜在的判别信息。本发明能够获得较强的行人特征表示,考虑目标域与源域的差异因素,在无标签的目标域识别精度较高,并保持稳定的识别效果。

著录项

  • 公开/公告号CN113052017A

    专利类型发明专利

  • 公开/公告日2021-06-29

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202110258611.6

  • 申请日2021-03-09

  • 分类号G06K9/00(20060101);G06K9/62(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人沈波

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 11:39:06

说明书

技术领域

本发明属于图像处理和计算机视觉领域,涉及行人重识别的方法,尤其涉及一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法。

背景技术

行人重识别是跨越不同摄像头的行人图像检索任务。近几年,随着深度卷积网络的引入,行人重识别技术快速发展,尤其是有监督的行人重识别技术获得了较高的重识别精度。但是,有监督的行人重识别技术需要手动标识训练数据,而对于深度学习模型,需要大量有标签的行人图像,以训练得到较为鲁棒的行人重识别模型,这不仅需要耗费大量的精力和时间,也限制了行人重识别技术的进一步发展。无监督的行人重识别技术旨在解决行人重识别模型的可扩展性问题,即如何将行人重识别模型从有标签的源数据集扩展到其它无标签的目标数据集。对于无标签的目标数据集,行人重识别模型如何有效地学习到目标域的判别信息,是无监督行人重识别技术的一项重要挑战。

一般的无监督行人重识别方法首先在有标签的源数据集预训练模型,只学习行人图像的一般特征表示,然后将无标签的目标数据集输入模型进行聚类或分配伪标签,最后基于得到的聚类结果或伪标签,对预训练模型进行微调,得到最终的重识别模型。通过从源域传递判别知识给目标域,这种方法可以使模型学习到目标数据集的分布,从而更好地适应目标域的变化。但是,由于模型提取的行人特征表示辨别力不足,并且通过预训练模型得到的聚类结果或伪标签与目标数据集的真实行人标签存在偏差,模型并不能真正学习到目标域的判别信息,因此导致模型没有达到令人满意的效果。

为了解决上述问题,本发明提出一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法。

发明内容

本发明用于解决无监督行人重识别跨域识别精度不高、行人特征表示辨别力不强的问题。为了解决上述问题,本发明提供了一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法。首先设计多粒度特征提取模块,提取更多的行人局部细节信息,得到具有更丰富判别信息的多粒度行人特征表示;为有效提高行人重识别模型的可扩展性,设计域自适应模块,基于从源域中获得的判别知识,考虑目标域与源域之间的差异对模型进行适应性学习,充分挖掘目标数据集中潜在的判别信息。通过模块间的相互协作,本发明在无标签的目标域可以达到良好的行人重识别效果。具体包括以下步骤:

1)将行人图像输入多粒度特征提取模块,该模块把池化后的行人特征划分为不同粒度大小,不同粒度的特征首尾相连得到具有更丰富判别信息的多粒度特征表示;

2)将源域的行人图像经过多粒度特征提取模块得到的多粒度特征输入源域分类模块进行分类学习,计算具有行人标签的源域分类损失,使模型获得源域行人的判别信息并为域自适应学习模块提供源域的行人判别知识;

3)将目标域无标签的行人图像经过多粒度特征提取模块得到的多粒度特征输入域自适应模块,基于从源域中获得的判别知识,考虑目标域与源域之间的差异对模型进行适应性学习,充分挖掘目标数据集中潜在的判别信息。

4)将源域分类损失与域自适应损失的加权和作为总损失训练整个模型。

5)在测试阶段,目标域的行人图像经过多粒度特征提取模块,得到不同粒度的行人特征后,将其首尾连接作为最终的多粒度行人特征表示,通过计算查询图像与图像库中图像的相似度,返回重识别结果。

进一步,所属步骤1)中的多粒度特征提取模块,获得多粒度特征,具体为:

1.1)首先将源域与目标域的行人图像分别输入backbone得到初始行人特征图,然后将输出的特征图分别在水平方向上划分为两个和三个大小相等的局部区域,作为粒度为2和3的局部特征图,并保留两个初始特征图作为不同粒度的全局特征图。经过全局和局部的最大池化操作,得到四个不同大小的特征向量P

1.2)经过对特征图进行不同粒度的划分,共得到P

进一步,所属步骤2)中的源域分类模块,将源数据集行人图像的特征向量输入源域分类模块进行有监督的分类学习,具体为:

2.1)首先将输入的七个2048×1×1特征向量分别压缩为:2048维向量,然后,经过全连接层FC

2.2)对于全局特征P

2.3)最后,将所有特征的Softmax损失求平均作为源域分类模块的损失L

进一步,所属步骤3)中的域自适应模块,通过基于源域分类模块学习到的一般行人判别信息,对目标域中光照、摄像头视角等可能与源域存在较大差异的因素进行适应性学习。具体为:

3.1)首先将输入的七个256×1×1特征向量分别压缩为:256维向量,然后,将这七个256维向量进行首尾连接得到一个1792维特征向量MGF,再将MGF经过全连接层FC_4096,升维为4096维的特征向量MGF_ex,以提取更加细节的判别信息,最后,计算其域自适应损失L

3.2)由于目标域缺失行人图像的标签,域自适应模块直接将目标数据集中图像的索引index作为图像伪标签。

3.3)考虑到不同摄像头的视角问题,利用摄像头的风格转换对目标数据集进行数据增强,以提高行人重识别模型对不同摄像头的泛化能力。由于摄像头的序号易于获取,假设目标域的摄像头序号已知,视每一个摄像头为一种风格。若目标数据集具有n

3.4)假设与行人图像x

本发明提供了一种基于多粒度特征表示与域自适应学习的无监督行人重识别方法。首先引入多粒度特征提取模块,将池化后的行人特征划分为不同粒度大小,不同粒度的特征首尾相连得到具有更丰富判别信息的多粒度特征;源域分类模块对源数据集中有标签的行人图像进行分类学习,为域自适应学习模块提供源域的行人判别知识;域自适应模块基于从源域中获得的判别知识,考虑目标域与源域之间的差异对模型进行适应性学习,充分挖掘目标数据集中潜在的判别信息。通过三个模块的相互协作,本发明在无标签的目标域可以达到良好的行人重识别效果。

有益效果

首先,本发明将多粒度特征的思想引入无监督的行人重识别,设计多粒度特征提取模块,提取更多的行人局部细节信息,能够得到具有更丰富判别信息的多粒度行人特征表示;其次,设计的域自适应模块,基于从源域中获得的判别知识,充分挖掘目标数据集中与源域不同的光照、行人、环境等潜在差异信息,进一步提升行人重识别模型的可扩展性。除此之外,本发明跨域识别效果稳定,在行人重识别的公共数据集上取得了良好的识别效果。

附图说明

图1是本发明基于多粒度特征提取和域适应学习的无监督行人重识别方法的流程图;

图2是本发明基于多粒度特征提取和域适应学习的无监督行人重识别方法的网络结构图;

图3是本发明中域自适应学习的示例图;

图4是本发明基于多粒度特征提取和域适应学习的无监督行人重识别方法在Market-1501上测试的结果图。

具体实施方式

本发明提出一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法。在训练阶段,将源数据集行人图像与目标数据集行人图像同时作为模型的输入,多粒度特征提取模块用来提取不同粒度的行人特征,以获得具有丰富判别信息的行人特征表示;然后,源数据集的行人特征输入源域分类模块进行分类学习,计算具有行人标签的源域分类损失,使模型获得源域行人的判别信息;而目标数据集的行人特征输入域自适应模块进行迁移学习,以捕获目标域中与源域有差异的判别信息;最后,将源域分类损失与域自适应损失的加权和作为总损失训练整个模型。在测试阶段,目标域的行人图像经过多粒度特征提取模块,得到不同粒度的行人特征后,将其首尾连接作为最终的多粒度行人特征表示,从而进行行人重识别。应用本发明,解决了现有无监督行人重识别方法特征表示力不强、无法深入挖掘目标域判别信息的问题。本发明适用于目标域无标签的行人重识别,具有良好的鲁棒性,跨域识别精度较高。

下面结合具体实例以及附图对本发明进行更详细阐述。

本发明包括以下步骤:

1)首先获取ImageNet数据集作为多粒度特征提取模块的预训练模型ResNet50的训练集,并获取Market-1501和DukeMTMC-reID数据集作为整体模型的训练集和测试集;

2)对数据集进行预处理。对于给定尺寸大小为H×W的输入行人图像,当前初始图像大小为H×W×3,首先将其调整为384×128×3的图像大小,并通过随机擦除、随机翻转和随机裁剪的方式进行数据增强。

3)构建多粒度特征提取模块,输入源域和目标域的行人图像经过backbone后,将得到的初始行人特征图,在水平方向进行不同粒度的划分,以表示行人图像的多粒度局部特征,并与全局特征相结合,得到具有丰富外观信息的行人特征表示,具体为:

3.1)首先,对于给定大小为384×128×3的行人图像,首先经过backbone得到初始特征图。模型的backbone采用基于ResNet50的网络结构,并去掉conv_5中的下采样层,以学习更细节的特征,在不改变特征图大小的情况下将通道数从1024增加到2048。

3.2)然后初始特征图分别使用卷积核大小为24×8的全局最大池化层Global_Max_Pooling得到2048×1×1的全局特征P

3.3)将局部特征P

3.4)经过对特征图进行不同粒度的划分,共得到P

3.5)在训练阶段,将对应源数据集行人图像的特征向量输入源域分类模块进行有标签的分类学习;对应目标数据集行人图像的特征向量则进一步经过Reduction操作,将其维度降为:256×1×1,并输入域自适应模块进行目标域的自适应学习。Reduction操作包含256个1×1的卷积层,一个归一化层和一个ReLU函数,将七个不同粒度的2048×1×1特征向量降维到256×1×1。

4)构建源域分类模块,由于源域的行人ID可用,源域分类模块可以在相同分布的测试集上产生高精度的判别知识向目标域传递。为使模型学习到源域行人图像的判别信息,源数据集的行人特征被送入源域分类模块进行分类学习,计算具有行人标签的源域分类损失,使模型获得源域行人的一般判别信息。具体为:

4.1)首先将从多粒度特征提取模块得到的P

y=fc

其中,x是来自多粒度特征提取模块的特征向量,维数为2048×1×1;squeeze(·)表示通道缩减操作,去除维数为1的通道;fc

4.2)然后,将全局特征P

其中,f

5)构建域自适应模块,首先计算目标域行人图像多粒度特征之间的余弦相似度,经过多次迭代使其稳定在高维特征空间中,并且彼此保持一定的距离。这时离特征f

5.1)为了得到多粒度特征MGF,需要对多粒度特征提取模块输出的目标域行人特征进行压缩和连接。压缩操作的公式如下:

y=squeeze(x)

其中,x是来自多粒度特征提取模块的维数为256×1×1的特征向量,squeeze(·)表示通道压缩操作,将第二和第三通道压缩;x依次为P

5.2)然后,连接以上7个256维特征,得到1792维多粒度特征MGF;

5.3)MGF通过一个全连接层FC_4096,得到具有更丰富判别信息的4096维特征MGF_ex。

5.4)在域自适应学习中,主要有以下内容:

5.4.1)由于目标域缺少行人图像的标签,域自适应模块直接将目标数据集中图像的索引index作为图像的伪标签;

5.4.2)其次,考虑到不同摄像头的视角问题,利用摄像头的风格转换对目标数据集进行数据增强,以提高行人重识别模型对不同摄像头的泛化能力。首先获得目标域的摄像头编号(1,2,3…n

5.4.3)将目标域带有伪标签index的多粒度特征向量MGF_ex进行损失计算。域自适应模块的损失函数设计如下:

其中,F

由于距离图像x

6)对整个无监督行人重识别模型进行训练,假设以Market-1501作为源数据集,DukeMTMC-reID作为目标数据集,训练的具体方式如下:

6.1)首先进行数据预处理。在ImageNet上预训练ResNet50以初始化模型参数,然后,对Market-1501和DukeMTMC-reID中的行人图像进行预处理,将输入图像的尺寸调整为384×128,并使用随机擦除、随机翻转和随机裁剪的方式进行数据增强。

6.2)读取DukeMTMC-reID的摄像头数量为8个,对于bounding_box_train中的每一幅图像,使用StarGAN生成其余7个摄像头风格的图像,共获得115654张生成图片,并为每一幅生成的图像分配与原始图像相同的索引号。

6.3)将有标签的Market-1501、无标签的DukeMTMC-reID和StarGAN生成的图像一起送入模型进行训练。

6.4)设置训练参数,每批次训练样本数batch-size设置为32,采用一阶动量动力β

6.5)将有标签的Market-1501中的图像送入源于分类模块使用4.2)的损失函数L

L

其中,β为权重系数,在具体实施中设为0.7。

7)在测试阶段阶段,将DukeMTMC-reID的测试集bounding_box_test送入模型进行测试。行人图像经过多粒度特征提取模块,得到不同粒度的行人特征后,将其首尾连接作为最终的多粒度行人特征表示,通过计算查询图像与图像库中图像的余弦相似度,得到行人重识别结果。

本发明在GTX 1080Ti GPU和Windows10.0.18363.125664位操作系统下,采用PyTorch开源框架和Python语言实现该方法。

本发明提供了一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法,适用于目标域无标签的行人重识别。根据实验结果表明,本发明鲁棒性好,跨域识别效果稳定,识别精度较高。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号