首页> 中国专利> 一种基于智能选择策略的目标检测与自动跟踪算法

一种基于智能选择策略的目标检测与自动跟踪算法

摘要

本发明公开了一种基于智能选择策略的目标检测与自动跟踪算法,属于计算机视觉领域,该方法由多尺度检测网络,智能选择策略,模板匹配网络和预测模块构成。首先采用多尺度检测网络对目标进行实时检测,然后根据智能选择策略,对检测候选框进行目标选择,其能根据不同的需求设置不同的影响因子,具有较高的灵活性和扩展性。最后,再通过模板匹配网络对感兴趣的目标进行实时的跟踪。同时,为了解决目标被遮挡或暂时消失的问题,本发明提出了一种预测模块对目标进行预测,最后通过定量评估测试表明,在复杂背景环境下,本发明提出的算法实现了目标的实时检测,智能选取以及自动跟踪等功能,对计算机视觉领域的发展具有较好的促进作用和参考价值。

著录项

  • 公开/公告号CN113052871A

    专利类型发明专利

  • 公开/公告日2021-06-29

    原文格式PDF

  • 申请/专利权人 广西师范大学;

    申请/专利号CN201911371576.8

  • 发明设计人 钟叶秀;丘森辉;罗晓曙;赵书林;

    申请日2019-12-26

  • 分类号G06T7/246(20170101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11531 北京汇捷知识产权代理事务所(普通合伙);

  • 代理人张丽

  • 地址 541004 广西壮族自治区桂林市七星区育才路15号广西师范大学

  • 入库时间 2023-06-19 11:39:06

说明书

技术领域

本发明涉及领域,尤其涉及一种基于智能选择策略的目标检测与自动跟 踪算法。

背景技术

视觉目标检测与跟踪是计算机视觉领域的一个研究热点,其在云台跟踪、 无人飞行器、智能视频监控和智能交通系统等领域具有较高的应用价值。由 于传统的单目标跟踪算法不能检测和智能选择感兴趣的目标,且多目标跟踪 算法还存在漏检和误检等缺点。因此,需要设计一种基于智能选择策略的目 标检测与自动跟踪算法,实现对目标的实时检测,智能选取以及自动跟踪等 功能,对计算机视觉领域的发展具有较好的促进作用和参考价值。

发明内容

本发明的目的在于提供一种基于智能选择策略的目标检测与自动跟踪算 法,解决传统的单目标跟踪算法不能检测和智能选择感兴趣的目标,且多目 标跟踪算法还存在漏检和误检等缺点的技术问题。经测试和实验表明:与现 有的目标跟踪方法相比,本发明提出的算法实现了目标的实时检测,智能选 取以及自动跟踪等功能,能够适应各种复杂的应用场合。

一种基于智能选择策略的目标检测与自动跟踪算法,所述算法包括如下 步骤:

步骤1:构建目标检测与跟踪网络模型,网络模型由多尺度检测网络、智 能选择策略、模板匹配网络和预测模块组成;

步骤2:训练目标检测与跟踪网络模型,分别在COCO数据集和ImageNet 数据集上对多尺度检测网络以及模板匹配网络进行训练;

步骤3:测试目标检测与跟踪网络模型,利用上述已经训练好的目标检测 与跟踪网络模型,进行目标检测和跟踪测试,实现对目标的智能选择和自动 实时跟踪。

进一步地,所述步骤1中,所述多尺度检测网络由darknet-53网络和三个 预测层组成,用于对输入的视频图像进行特征提取及目标的预测和定位,多 尺度检测网络完成对输入的视频图像预测后,智能选择策略对目标进行选择, 智能选择策略选择目标的原则由四个因素组成,其分别是:目标类别、目标 面积、目标检测精度和目标运动速度,智能选择策略框定感兴趣目标后,将 感兴趣目标输入给模板匹配网络并对其进行实时跟踪,模板匹配网络由两个 子网组成,模板匹配网络共享相同的参数,且两个子网的作用分别是对目标图像和搜索图像的特征进行提取,在复杂背景下,当目标发生形变、被遮挡 时,预测模块预测目标的状态和位置。

进一步地,所述darknet-53网络共有53层卷积层,其分别是由1x1和3x3 卷积层组成,Darknet-53的性能反映在网络基本单元的差异上,其采用ResNet 作为跳层连接方式,其性能完全优于resnet-152和resnet-101,多尺度检测通 过三个不同尺度预测层的预测方法,增强对不同大小的物体和被阻挡物体的 检测,同时,darknet-53引入跳层连接的方法来增强收敛,并采用随机多尺度 训练的方法来增强鲁棒性。

进一步地,所述智能选择策略的选择原理如下式:

f(x)=max[ω

其中,c

进一步地,所述模板匹配网络由子网组成,子网包括目标子网和搜索子 网,分别对目标图像和搜索图像进行特征提取,并共享相同的权重和偏置, 其中,目标子网和搜索子网均采用的是基于瓶颈残差块的内部裁剪单元,内 部裁剪单元在块内部裁剪出受填充补零影响的特征,防止卷积滤波器学习位 置偏差,其中,残差单元是模板匹配网络的关键模块,其由3个堆叠的卷积 层和三层快捷连接组成,这三层快捷连接分别是1*1,3*3和1*1卷积,其中 1*1卷积层负责减少然后恢复尺寸,使3*3卷积层成为具有较小输入和输出尺寸的瓶颈,

进一步地,所述预测模块由状态预测子网和状态更新子网组成,其中, 状态预测子网根据前一个时间的后验估计来估计当前时间的状态,并获得当 前时间的先验估计,然后,使用当前时间的测量值来校正预测阶段的估计, 并获得当前时间的后验估计。

进一步地,所述步骤2中的多尺度检测网络的训练过程为:

将输入图像的尺寸设置为416*416*3,并将其输入到多尺度检测网络,通 过特征提取网络对其提取特征;把该输入图像被划分为s*s网格,每个网格单 元将预测三个边界框,将与有标注数据的交并比最大的边框来预测该目标。

进一步地,所述步骤2中的模板匹配网络的训练过程为:

从ImageNet数据集中选取样本对,从同一视频的两个帧中提取目标图像 和搜索图像,其中目标图像的尺寸为127*127*3,搜索图像的尺寸为 255*255*3;

然后,将成对的目标图像和搜索图像输入到模板匹配网络对应的子网, 以获得目标特征层和搜索特征层,将目标特征层和搜索特征层卷积的结果与 标签真实值进行相似度匹配;

同时,利用目标损失函数计算上述匹配结果与标签真实值之间的误差, 并将该误差逐层反向传播至输入层;

最后,基于小批量随机梯度下降优化算法调整网络中的权重和偏置,以 获取最优的误差值,从而完成一次网络模型训练;

重复上述步骤,直至目标损失函数的误差值收敛于最小值;

边界框坐标的公式如下:

b

b

其中,(c

进一步地,所述步骤3的具体过程为:

(1)将摄像机获取的原始视频序列输入到已经训练得到的目标检测与跟 踪网络模型的检测器中,以获取检测结果;

(2)将上述检测器的结果输入到智能选择策略结构中,以获取感兴趣的 目标;

(3)将上述获取的感兴趣目标输入到模板匹配网络的目标子网中,并将 原始视频序列下一帧输入到模板匹配网络的搜索子网中;

(4)若上述输出的结果得分小于阈值,则将其输入到预测模块中,并将 其输出的结果输入到模板匹配网络的目标子网中,原始视频序列中的下一帧 输入到模板匹配网络的搜索子网中;

(5)重复上述(3)到(4)步骤,实现对目标的智能选择和自动实时跟 踪。

进一步地,所述智能选择策略的过程为:

首先,给类别一个权重,不同的类别以匹配不同的值,根据感兴趣的类 别分配更高的值,假设我们对瓶子感兴趣,则分配给瓶子的值是所有类别中 最大的分值,可以根据不同的需求自由分配每个类别的值,将类别分值的方 程式设置为

其中c(x

将类别进行排序并分别给各个别类赋予分值;

检测到的多个目标中,由于每个目标的面积不同,对每个目标的面积赋 予第二权重,权重与目标区域面积的乘积是选择目标的第二个因素,目标区 域的大小设置为

s

其中,ω

选择最佳的目标,对目标的准确性给予第三权重,权重与准确性的乘积 是目标的第三个因素,表明对目标的准确性更高;

通过多尺度检测对前三个帧的检测,对目标的速度赋予第四权重,表明 目标越快,对其越感兴趣,速度方程设置为

其中,d

Δt=t

其中x

本发明采用了上述技术方案,本发明具有以下技术效果:

(1)本发明提出了新颖的目标检测与跟踪网络模型,由于该模型采用了 性能较好的检测器和跟踪器,因此该网络模型具有实时检测并自动跟踪的性 能;

(2)本发明提出了一种智能选择策略,该策略可实现自动获取感兴趣的 目标,且其可根据需求设置相应的参数,具有高度的灵活性和可扩展性;

(3)本发明提出了预测模块,使得本发明能够在目标被遮挡时具有较准 确的跟踪结果,为此,基于上述创新点和优点本发明所设计的基于智能选择 策略的目标检测和自动跟踪算法具有较高的应用价值。

附图说明

图1是本发明的的网络结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,举出优选实施例, 对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节 仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有 这些特定的细节也可以实现本发明的这些方面。

如图1所示,本发明一种基于智能选择策略的目标检测与自动跟踪算法, 所述跟踪方法包括如下步骤:

一、构建目标检测与跟踪网络模型:

(1)本发明构建的目标检测与跟踪网络模型主要由多尺度检测网络,智能 选择策略,模板匹配网络和预测模块组成。其中,多尺度检测网络主要有 darknet-53网络和三个预测层组成,其作用是对输入的视频图像进行特征提取 及目标的预测和定位。

(2)多尺度检测网络完成对输入的视频图像预测后,本发明将构建的智 能选择策略对其进行目标选择,该策略选择目标的原则由四个因素组成,其 分别是:目标类别,目标面积,目标检测精度和目标运动速度。

(3)智能选择策略框定感兴趣目标后,本发明将感兴趣目标输入给模板 匹配网络并对其进行实时跟踪。其中,模板匹配网络由子网组成,该模板匹 配网络共享相同的参数,且两个子网的作用分别是对目标图像和搜索图像的 特征进行提取。

(4)在复杂背景下,当目标发生形变、被遮挡等时,本发明采用预测模 块预测目标的状态和位置。

其中:

所述的多尺度检测网络主要由darknet-53网络和三个预测层组成。其中darknet-53网络共有53层卷积层,其分别是由1*1和3*3卷积层组成。 Darknet-53的性能反映在网络基本单元的差异上,其采用ResNet作为跳层连 接方式,其性能完全优于resnet-152和resnet-101。多尺度检测通过三个不同 尺度预测层的预测方法,有效地增强了对不同大小的物体和被阻挡物体的检 测效果。同时,darknet-53引入了跳层连接的方法来增强收敛效果,并采用随 机多尺度训练的方法来增强鲁棒性。

所述的智能选择策略公式如(1)所示:

f(x)=max[ω

所述的智能选择策略主要由目标类别,目标面积,目标检测精度和目标 运动速度四个因素组成。其中,以上四个因素分别被赋予四个相应的参数, 其分别是ω

其中,智能选择策略的原理如下:

1)首先,给类别一个权重。本发明设置了不同的类别以匹配不同的值, 因此我们可以根据感兴趣的类别分配更高的值。例如,假设我们对瓶子感兴 趣,则分配给瓶子的值是所有类别中最大的分值。同样,假设我们感兴趣的 目标是汽车,则分配给汽车的值最大。显然,该方法具有高度的灵活性,并 且可以根据不同的需求自由分配每个类别的值。本发明将类别分值的方程式 设置为

其中c(x

本发明将类别分类如下:

本发明将类别进行排序并分别给各个别类赋予分值,根据公式(2)。其 中,number代表总类别的数量,根据COCO数据集可知,共有80种类别, 从0开始对其进行排序;category代表类别,value代表类别的分值。

2)在多尺度检测网络检测到的多个目标中,由于每个目标的面积不同,因 此,本文对每个目标的面积赋予第二权重。权重与目标区域面积的乘积是选 择目标的第二个因素,这意味着我们对大面积目标更加感兴趣。目标区域的 大小设置为

s

其中,ω

3)为了进一步选择最佳的目标,我们对目标的准确性给予第三权重。权 重与准确性的乘积是我们选择关注目标的第三个因素,这表明我们对目标的 准确性更高。

4)通过多尺度检测对前三个帧的检测,我们可以计算每个目标的速度, 因此我们对目标的速度赋予第四权重,这表明目标越快,我们对其越感兴趣。

速度方程设置为

其中,d

Δt=t

其中x

所述的模板匹配网络由子网组成,它们分别被称为目标子网和搜索子网, 其分别对目标图像和搜索图像进行特征提取,并共享相同的权重和偏置。其 中,目标子网和搜索子网均采用的是基于“瓶颈”残差块的内部裁剪(CIR) 单元。CIR单元在块内部裁剪出受填充补零(padding)影响的特征,从而防 止卷积滤波器学习位置偏差。其中,残差单元是模板匹配网络的关键模块, 其由3个堆叠的卷积层和绕过它们的快捷连接组成,这三层快捷连接分别是 1*1,3*3和1*1个卷积,其中1*1卷积层负责减少然后恢复尺寸,使3*3卷积 层成为具有较小输入和输出尺寸的瓶颈。

所述的预测模块主要由状态预测子网和状态更新子网组成。其中,状态 预测子网根据前一个时间的后验估计来估计当前时间的状态,并获得当前时 间的先验估计。然后,使用当前时间的测量值来校正预测阶段的估计,并获 得当前时间的后验估计。

其中,状态预测方程设置为

其中,

其中,状态更新方程设置为

其中,R

二、训练目标检测与跟踪网络模型:

由于多尺度检测网络和模板匹配网络是两个不同功能的模块且使用不同 的训练集。因此,本发明分别训练多尺度检测网络以及模板匹配网络。

1、训练多尺度检测网络:

(1)首先,本发明将输入图像的尺寸设置为416*416*3,并将其输入到 多尺度检测网络;

(2)接着,通过特征提取网络对其提取特征;

(3)然后,该输入图像被划分为s*s网格,每个网格单元将预测三个边 界框;

(4)最后,将与ground truth的IOU最大的bounding box来预测该目标。

2、训练模板匹配网络:

(1)首先,本发明从ImageNet数据集中选取样本对,从同一视频的两 个帧中提取目标图像和搜索图像。其中目标图像的尺寸为127*127*3,搜索图 像的尺寸为255*255*3;

(2)然后,将成对的目标图像和搜索图像输入到模板匹配网络对应的子 网,以获得目标特征层和搜索特征层。将目标特征层和搜索特征层卷积的结 果与标签真实值进行相似度匹配;

(3)同时,利用目标损失函数计算上述匹配结果与标签真实值之间的误 差,并将该误差逐层反向传播至输入层;

(4)最后,基于小批量随机梯度下降优化算法调整网络中的权重和偏置, 以获取最优的误差值,从而完成一次网络模型训练;

(5)重复上述步骤,直至目标损失函数的误差值收敛于最小值。

其中:

所述的边界框坐标的公式如下:

b

b

其中,(c

三、测试目标检测与跟踪网络模型:

利用上述已经训练好的目标检测与跟踪网络模型,进行目标跟踪测试, 具体步骤如下:

(1)将摄像机获取的原始视频序列输入到本发明已经训练得到的目标检 测与跟踪网络模型的检测器中,以获取检测结果;

(2)将上述检测器的结果输入到智能选择策略结构中,以获取感兴趣的 目标;

(3)将上述获取的感兴趣目标输入到模板匹配网络的目标子网中,并将 原始视频序列下一帧输入到模板匹配网络的搜索子网中;

(4)若上述输出的结果得分小于阈值,则将其输入到预测模块中,并将 其输出的结果输入到模板匹配网络的目标子网中,原始视频序列中的下一帧 输入到模板匹配网络的搜索子网中;

(5)重复上述(3)到(4)步骤,从而实现对目标的智能选择和自动实 时跟踪。

本发明提出了一种基于智能选择策略的目标检测与自动跟踪算法。该方 法由多尺度检测网络,智能选择策略,模板匹配网络和预测模块构成。本文 首先采用多尺度检测网络对目标进行实时检测,然后根据智能选择策略,对 检测候选框进行目标选择,其能根据不同的需求设置不同的影响因子,具有 较高的灵活性和扩展性。最后,再通过模板匹配网络对感兴趣的目标进行实 时的跟踪。同时,为了解决目标被遮挡或暂时消失的问题,本发明加入了预 测模块,当目标匀速运动被遮挡时,该算法可预测目标后面几个时刻的状态和位置,有效地解决目标被遮挡以及暂时消失的问题。通过定量评估测试表 明,在复杂背景环境下,本发明提出的算法实现了目标的实时检测,智能选 取以及自动跟踪等功能,对计算机视觉领域的发展具有较好的促进作用和参 考价值。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普 通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润 饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号