首页> 中国专利> 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置

基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请揭示了一种基于Deep‑Sort跟踪框架的在线多行人跟踪方法及装置，该方法包括：利用视频帧输入生成目标检测框；计算目标检测框的余弦距离；将目标检测框输入至融合的Vgg‑16网络模型中，将提取的特征值和轨迹输入至KCF中，计算出目标检测框的欧氏距离；根据余弦距离和欧氏距离，结合每个目标检测框的总距离以及Deep‑Sort跟踪框架的匹配级联方式，输出跟踪结果。本申请将Deep‑Sort跟踪算法中的卡尔曼滤波换成高斯核相关滤波，使运动模型可建立在更加丰富的运动场景中，同时加快估计行人运动位置的计算时间，提升算法性能；通过针对高斯核相关滤波器跟踪行人运动产生的漂移现象，提出峰值旁瓣比，将多个相关滤波器衔接起来，以达到更高的跟踪准确率和精确率。

著录项

公开/公告号CN112734809A

专利类型发明专利
公开/公告日2021-04-30

原文格式PDF
申请/专利权人高新兴科技集团股份有限公司;西安电子科技大学;
展开▼

申请/专利号CN202110083052.X
发明设计人陈颖萱;林焕凯;王祥雪;陈利军;董振江;刘双广;
展开▼

申请日2021-01-21
分类号G06T7/246(20170101);
代理机构44511 广州国鹏知识产权代理事务所(普通合伙);
代理人葛红
地址 510530 广东省广州市黄埔区科学城开创大道2819号六楼
入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明属于多行人跟踪技术领域，涉及一种基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置。

背景技术

多行人跟踪是视频监控领域中常见场景之一，其含义是将行人运动视频输入至多行人跟踪算法中，得到各个行人的运动轨迹，包括轨迹的起始与终结。对这些行人轨迹可根据实际用途进行进一步的分析，如行人异常行为分析，因此多行人跟踪在监控视频分析中具有承上启下的作用，使监控信息更具有价值。随着深度学习的蓬勃发展，一大批基于深度学习的多行人跟踪方法也快速涌现，如C-COT，DeepSort，MOTDT，DeepMOT等，这使得跟踪效能大大提升。其中，DeepSort是在Sort算法的基础上进行一些改进，加入了外观特征相似度分量以及更加完备的跟踪逻辑，这些使得跟踪器的性能大幅度提高。Deep-Sort分为特征提取，建立运动模型和轨迹分配三部分，其中第二部分的运动模型采用卡尔曼滤波。

在实际应用中，除卡尔曼滤波外还可采取相关滤波及粒子滤波等运动模型。卡尔曼滤波是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。简而言之，即先由状态方程进行估计，再由观测方程对估计进行纠正。卡尔曼滤波的使用是有前提的，那就是系统噪声必须符合高斯分布及必须是线性系统。然而在实际场景中，这两点不容易同时满足，于是有学者提出了粒子滤波，粒子滤波的优势在于对运动系统没有什么要求。粒子滤波的核心思想就是基于强化学习的优化，其性能可以在去掉高斯假设和线性假设之后仍然保持最优。但其需要通过多次迭代来计算最优，所以复杂程度很高，因此卡尔曼滤波相对于粒子滤波，仍是用途较广的算法。除对运动系统有要求外，当运动目标长时间被遮挡时卡尔曼滤波很可能存在目标跟踪丢的情况，于是很多学者都在研究更鲁棒性的算法。为实现高精确度和快速的目标跟踪，相关滤波是近年来比较热门的方法。相关滤波跟踪的基本思想是设计一个滤波模板，利用该模板与目标候选区域做相关运算，最大输出响应的位置即为当前帧的目标位置。但是目前所有的相关滤波跟踪方法仍然无法解决遮挡和光照变化等因素造成的干扰，这对跟踪性能的MOTA和MOTP的提高带来一定的影响。因此，需要进一步解决遮挡和光照的干扰，以更好地提升跟踪器性能。

Deep-Sort是一种tracking-by-detection的跟踪方法，即先检测出某一帧中出现的所有行人，然后判断这些行人是否是与前一帧有关联的目标。以某一个行人为例：在Deep-Sort中先使用卡尔曼滤波计算出当前帧该行人(设为轨迹i)在下一帧视频中可能出现的位置，记为y

核相关滤波(简称KCF)以其简单、快捷、准确的特性在视觉跟踪中广受好评。其主要思想是通过样本训练一个分类器，即找到一个函数f(z)＝w

接下来更新新一帧目标的位置，然后继续在新的一帧上训练核相关滤波。

现有技术存在以下缺点：

(1)Deep-Sort在建立行人运动模型时采用卡尔曼滤波，此方法原理简单，计算简便，但其对行人的运动有一定要求：行人的运动必须在线性系统中，当行人运动长时间被遮挡时会存在行人跟踪丢失的情况。

(2)KCF因为在跟踪过程当中目标框是已经设定好的，从始至终大小未发生变化，但是在一般的跟踪序列当中，目标大小很难长时间保持恒定，这会导致跟踪器在跟踪过程中目标框出现漂移，即所谓的跟踪漂移。除此之外，如果目标的外观比较稳定，单个KCF跟踪器将顺利定位目标。但在真正场景中跟踪时，外观虽在短期内可能保持稳定，但从长期来看，外部环境中断是时有发生，这部分变化必须予以足够的重视，如遮挡、光照等问题。

发明内容

本申请提供了一种新的基于Deep-Sort跟踪框架的在线多行人跟踪方法，技术方案如下：

第一方面，本申请提供了一种基于Deep-Sort跟踪框架的在线多行人跟踪方法，所述方法包括：

将采集到的视频帧输入至行人检测模型中，生成包含行人的目标检测框；

利用所述目标检测框输入至行人再识别网络中提取第一特征值，利用所述第一特征值计算所述目标检测框的余弦距离；

将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹，将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中，计算出所述目标检测框的欧氏距离，所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态；

根据所述余弦距离和所述欧氏距离，计算每个目标检测框的总距离；

结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式，输出跟踪结果。

可选地，所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8，所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练，所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构，以将Comv3_3特征图的尺度降维至输入图像的1/8；所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构，以将Comv5_3特征图的尺度升维至输入图像的1/8。

可选地，所述将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中，计算出所述目标检测框的欧氏距离，包括：

对KCF进行优化，将所述第二特征值和所述轨迹输入至优化后的KCF中，计算出所述目标检测框的响应值；

利用所述响应值计算峰值旁瓣比PSR的分数值，所述PSR的分数公式为：

当所述分数值大于预定阈值时，利用响应值最高的坐标和各轨迹的坐标计算欧氏距离，输出计算得到的所述欧氏距离，所述预定阈值为5.99；

当所述分数值小于所述预定阈值时，停止更新，并在线训练新的KCF。

可选地，所述对KCF进行优化，包括：

根据第t帧轨迹的状态提取特征x

在第t+1帧时，在所述第t帧的轨迹位置处进行采样得到目标模板x

可选地，所述结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式，输出跟踪结果，包括：

匹配级联，利用匈牙利算法对跟踪目标和所述目标检测框进行匹配；

在匹配成功时，输出跟踪结果；

在匹配未成功时，计算所述目标检测框和各轨迹间的IOU值，再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。

第二方面，本申请还提供一种基于Deep-Sort跟踪框架的在线多行人跟踪装置，所述装置包括：

生成模块，被配置为将采集到的视频帧输入至行人检测模型中，生成包含行人的目标检测框；

第一计算模块，被配置为利用所述目标检测框输入至行人再识别网络中提取第一特征值，利用所述第一特征值计算所述目标检测框的余弦距离；

第二计算模块，被配置为将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹，将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中，计算出所述目标检测框的欧氏距离，所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态；

第三计算模块，被配置为根据所述余弦距离和所述欧氏距离，计算每个目标检测框的总距离；

输出模块，被配置为结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式，输出跟踪结果。

可选的，所述融合的Vgg-16网络模型中Comv4_3的输出端特征图为输入图像的1/8，所述融合的Vgg-16网络模型在训练时固化除融合模块的参数并仅对融合模块进行训练，所述融合模块对所述Vgg-16网络中Conv3_3输出的特征图加入Max poing结构，以将Comv3_3特征图的尺度降维至输入图像的1/8；所述融合模块对所述Vgg-16网络中Conv5_3输出的特征图加入Upscale结构，以将Comv5_3特征图的尺度升维至输入图像的1/8。

可选的，所述第二计算模块还被配置为执行如下操作：

对KCF进行优化，将所述第二特征值和所述轨迹输入至优化后的KCF中，计算出所述目标检测框的响应值；

利用所述响应值计算峰值旁瓣比PSR的分数值，所述PSR的分数公式为：

当所述分数值大于预定阈值时，利用响应值最高的坐标和各轨迹的坐标计算欧氏距离，输出计算得到的所述欧氏距离，所述预定阈值为5.99；

当所述分数值小于所述预定阈值时，停止更新，并在线训练新的KCF。

可选的，所述第二计算模块还被配置为执行如下操作：

根据第t帧轨迹的状态提取特征x

在第t+1帧时，在所述第t帧的轨迹位置处进行采样得到目标模板x

可选的，所述输出模块还被配置为：

匹配级联，利用匈牙利算法对跟踪目标和所述目标检测框进行匹配；

在匹配成功时，输出跟踪结果；

在匹配未成功时，计算所述目标检测框和各轨迹间的IOU值，再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。

本申请至少可以实现如下有益效果：

通过将Deep-Sort跟踪算法中的卡尔曼滤波换成高斯核相关滤波，使运动模型可建立在更加丰富的运动场景中，同时加快估计行人运动位置的计算时间，提升算法性能；通过针对高斯核相关滤波器跟踪行人运动产生的漂移现象，提出峰值旁瓣比，将多个相关滤波器衔接起来，以达到更高的跟踪准确率和精确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法的流程图；

图2A是本申请一个实施例提供的Vgg-16网络在融合时的示意图；

图2B是是本申请一个实施例中提供的计算欧式距离的示意图

图3是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法的流程图，本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法可以包括如下步骤：

步骤101，将采集到的视频帧输入至行人检测模型中，生成包含行人的目标检测框；

行人检测模型可以对图像中的人体目标进行识别，并输出识别到的人体目标所在的方框，并将该方框记为目标检测框。

步骤102，利用目标检测框输入至行人再识别网络中提取第一特征值，利用第一特征值计算目标检测框的余弦距离；

步骤103，将目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹；

步骤104，将第二特征值和轨迹输入至优化后的高斯核相关滤波器KCF中，计算出目标检测框的欧氏距离，KCF引入峰值旁瓣比PSR以监测KCF的跟踪状态；

卷积神经网络提取的卷积特征已经替代了传统的手工特征。较高层的卷积特征具有更丰富的语义特征，更利于跟踪目标。同时随着网络层数增多，池化层使卷积特征丧失了特征之间的位置信息并且降低了卷积特征的空间分辨率，而较低的分辨率会影响跟踪的精度。故在本专利中，提取特征采用一个融合的Vgg-16网络结构。

对于Pooling和Upscale结构，在Vgg-16网络中，Conv3_3、Conv4_3、Conv5_3的输出端特征图大小分别为输入图像的1/4、1/8、1/16，但在融合时必须使得三层卷积特征的尺度保持一致。因此选用Conv4_3为基准，分别对Conv3_3和Conv5_3的特征图进行降维和升维。对Conv3_3输出的特征图加入Max pooling结构，Max pooling结构可将Conv3_3特征图的尺度降维至输入图像的1/8；对于Conv5_3特征图的Upscale结构，使用2*2的Deconv层来实现上采样效果，将Conv5_3特征图的尺度变为原图像的1/8。

Concatenation层将尺度一致的卷积特征以连接的方式构建为新的多通道特征。Convf层是卷积核大小为1*1的卷积层，1*1的卷积核可对Concatenation层产生的冗余特征进行降维，得到冗余信息更少的综合特征。

在训练网络时，采用迁移学习提高模型的泛化能力。故本申请使用的预训练的Vgg-16模型对除融合模块之外的模型参数进行初始化，并固定此部分参数，仅对融合模块所涉及到的参数进行训练。完整的深度卷积融合网络架构见表1和图2A。

表1

请参见图2B所示，其是本申请一个实施例中提供的计算欧式距离的示意图，本申请在将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中，计算出所述目标检测框的欧氏距离时，包括如下：

步骤S1、对KCF进行优化，将第二特征值和轨迹输入至优化后的KCF中，计算出目标检测框的响应值；

本申请中的滤波器采用改进后的高斯核相关滤波器KCF，引入峰值旁瓣比(PSR)，以监测KCF的跟踪状态。

在对KCF进行优化时，首先，根据第t帧轨迹的状态提取特征x

步骤S2、利用响应值计算峰值旁瓣比PSR的分数值；

PSR的分数公式为：

目标y的峰值和方差衡量了待选择目标和已生成轨迹之间的相似性，也反映了跟踪的可靠性。即PSR得分越高，表明y的更多样本将会集中在峰值区域，这进一步说明KCF运行得很好。反之，PSR下降反应y方差变大，这表明观测值的特征与参考值差异性较大，特征的变化增加了相似度度量空间中候选样本与参考样本之间的距离。

因此，我们使用PSR上的阈值S

步骤S3、当分数值大于预定阈值时，利用响应值最高的坐标和各轨迹的坐标计算欧氏距离，输出计算得到的欧氏距离；

预定阈值为5.99。

步骤S4、当分数值小于预定阈值时，停止更新，并在线训练新的KCF。

步骤105，根据余弦距离和欧氏距离，计算每个目标检测框的总距离；

步骤106，结合每个目标检测框的总距离以及Deep-Sort跟踪框架的匹配级联方式，输出跟踪结果。

在结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式，输出跟踪结果时，匹配级联，利用匈牙利算法对跟踪目标和所述目标检测框进行匹配；在匹配成功时，输出跟踪结果；在匹配未成功时，计算所述目标检测框和各轨迹间的IOU值，再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。

本申请中的跟踪器以Deep-Sort在线多目标跟踪算法为框架，用高斯核相关滤波器替代原本的卡尔曼滤波器，其余部分如计算检测与轨迹余弦相似度和关联匹配逻辑等保持不变。

为了关联跟踪集和检测集，通过结合运动信息和外观信息构造代价矩阵，其中通过KCF计算最大响应值确定位置，该运动信息可使短期预测达到理想效果；同时计算外观的余弦距离有助于考虑长时间遮挡问题，这些信息对恢复跟踪ID的身份非常有用。该代价矩阵中的元素定义为c

每个轨迹分为三种状态，分别是暂定状态、已确定状态及已删除状态。如果某次检测结果中的某个检测始终无法与已经存在的轨迹进行关联，那么则认为可能出现了新轨迹。在新创建的轨迹没有收集到足够的证据之前都是暂定状态。新轨迹的前三帧的状态是暂定状态，三帧后可确定为已确定状态或已删除状态。若该轨迹连续三帧都可找到相应的检测与其配对，则该轨迹被标记为已确定状态，反之被确定为已删除状态。若已确定状态的轨迹超过预定义的最大范围Amax(设为30帧)仍未出现相匹配的检测，则该轨迹被认为已经离开了场景并且被从轨迹集中删除。

跟踪具体流程属于本领域技术人员均可以实现的，本申请中就不再赘述。

本提案用于参考的评价指标是MOT数据集的常见评价指标，主要包括MOTA、MOTP、MT、ML、ID、FM等。

MOTA是多目标跟踪准确率，该指标综合评价跟踪器误报、漏报、身份变换等方面。MOTP是跟踪精确率，表明标注与预测的边界框的不匹配度。MT为跟踪部分大于80％的跟踪轨迹占真实总轨迹数的比例。ML是丢失部分大于80％的跟踪轨迹数占真实总轨迹数的比例。ID表示真实轨迹的预计身份发生变化的次数。FM表明一个轨迹因漏检而中断的次数。

MOTA与MOTP的计算公式分别为：

其中：m

综上所述，本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪方法，基于Deep-Sort跟踪算法的改进，将线性的卡尔曼滤波换成高斯核相关滤波，使运动模型可建立在更加丰富的运动场景中，同时加快估计行人运动位置的计算时间，提升算法性能，使跟踪算法鲁棒性更强且更有效率。

通过引入卷积神经网络特征融合提取特征及峰值旁瓣比，使相关滤波适应性更强，精确度越高。从而使跟踪算法效果更加优良。

图3是本申请一个实施例提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置的结构示意图，本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置可以包括：生成模块310、第一计算模块320、第二计算模块330、第三计算模块340和输出模块350。

生成模块310，被配置为将采集到的视频帧输入至行人检测模型中，生成包含行人的目标检测框；

第一计算模块320，被配置为利用所述目标检测框输入至行人再识别网络中提取第一特征值，利用所述第一特征值计算所述目标检测框的余弦距离；

第二计算模块330，被配置为将所述目标检测框输入至融合的Vgg-16网络模型中提取每个目标检测框的第二特征值和轨迹，将所述第二特征值和所述轨迹输入至优化后的高斯核相关滤波器KCF中，计算出所述目标检测框的欧氏距离，所述KCF引入峰值旁瓣比PSR以监测所述KCF的跟踪状态；

第三计算模块340，被配置为根据所述余弦距离和所述欧氏距离，计算每个目标检测框的总距离；

输出模块350，被配置为结合每个目标检测框的总距离以及所述Deep-Sort跟踪框架的匹配级联方式，输出跟踪结果。

可选的，所述第二计算模块330还被配置为执行如下操作：

对KCF进行优化，将所述第二特征值和所述轨迹输入至优化后的KCF中，计算出所述目标检测框的响应值；

利用所述响应值计算峰值旁瓣比PSR的分数值，所述PSR的分数公式为：

当所述分数值大于预定阈值时，利用响应值最高的坐标和各轨迹的坐标计算欧氏距离，输出计算得到的所述欧氏距离，所述预定阈值为5.99；

当所述分数值小于所述预定阈值时，停止更新，并在线训练新的KCF。

可选的，所述第二计算模块330还被配置为执行如下操作：

根据第t帧轨迹的状态提取特征x

在第t+1帧时，在所述第t帧的轨迹位置处进行采样得到目标模板x

可选的，所述输出模块350还被配置为：

匹配级联，利用匈牙利算法对跟踪目标和所述目标检测框进行匹配；

在匹配成功时，输出跟踪结果；

在匹配未成功时，计算所述目标检测框和各轨迹间的IOU值，再次执行所述利用匈牙利算法对跟踪目标和所述目标检测框进行匹配的步骤。

综上所述，本申请提供的基于Deep-Sort跟踪框架的在线多行人跟踪装置，基于Deep-Sort跟踪算法的改进，将线性的卡尔曼滤波换成高斯核相关滤波，使运动模型可建立在更加丰富的运动场景中，同时加快估计行人运动位置的计算时间，提升算法性能，使跟踪算法鲁棒性更强且更有效率。

通过引入卷积神经网络特征融合提取特征及峰值旁瓣比，使相关滤波适应性更强，精确度越高。从而使跟踪算法效果更加优良。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置 [P] . 中国专利： CN112734809A . 2021-04-30
2. 一种基于时空关注度机制的多行人在线跟踪方法 [P] . 中国专利： CN109344725A . 2019-02-15
3. SINGLE LENS-BASED MULTI-PEDESTRIAN ONLINE TRACKING METHOD AND APPARATUS, DEVICE, AND STORAGE MEDIUM [P] . WO2021223367A1 . 2021-11-11

机译：基于单镜头的多行人在线跟踪方法和设备，设备和存储介质
4. MULTIPLE-PEDESTRIAN TRACKING METHOD AND SYSTEM USING TEACHER-STUDENT RANDOM FERN [P] . 世界知识产权组织专利： WO2020085653A1 . 2020-04-30

机译：师生随机蕨类的多行人跟踪方法及系统
5. FACE RECOGNIZING AND FACE TRACKING METHOD USING RADIAL BASIS FUNCTION NEURAL NETWORKS (RBFNN) PATTERN CLASSIFIER AND OBJECT TRACKING ALGORITHM AND SYSTEM FOR EXECUTING SAME [P] . 韩国专利： KR101589149B1 . 2016-02-03

机译：基于径向基神经网络模式分类器和对象跟踪算法的人脸识别和人脸跟踪方法