首页> 中国专利> 一种关注目标时空位置关系的异常事件检测方法

一种关注目标时空位置关系的异常事件检测方法

摘要

本发明属于人工智能技术与应用技术领域,且公开了一种关注目标时空位置关系的异常事件检测方法,包括如下步骤:S1:通过注意力模块监视目标之间间的时空位置关系,通过编码器获得输入视频帧序列中目标之间时空位置关系的注意力特征表示;S2:将编码器的输出信息输送至解码器中,再分别输送至动态模式生成器模块和预测端输出头中,本发明基于目标之间时空位置关系定义异常视频检测问题,可有效适应处理视频异常事件的多样化,并且本发明构建了一个即插即用的注意力模块来关注目标之间的时空位置关系,以增强了异常检测模型对连续帧中目标间时空对应关系的理解。

著录项

  • 公开/公告号CN116630861A

    专利类型发明专利

  • 公开/公告日2023-08-22

    原文格式PDF

  • 申请/专利权人 淮阴师范学院;

    申请/专利号CN202310648785.2

  • 申请日2023-06-02

  • 分类号G06V20/40(2022.01);G06V20/52(2022.01);G06V10/62(2022.01);G06V10/82(2022.01);G06N3/045(2023.01);G06V10/80(2022.01);G06N3/0455(2023.01);G06N3/0464(2023.01);G06N3/048(2023.01);G06N3/084(2023.01);

  • 代理机构北京奇眸智达知识产权代理有限公司 11861;

  • 代理人陈彩云

  • 地址 223300 江苏省淮安市长江西路111号

  • 入库时间 2024-01-17 01:23:59

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-08

    实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2023106487852 申请日:20230602

    实质审查的生效

  • 2023-08-22

    公开

    发明专利申请公布

说明书

技术领域

本发明属于人工智能技术与应用技术领域,具体涉及一种关注目标时空位置关系的异常事件检测方法。

背景技术

视频监控是社会公共安全管理的重要支撑手段。通常视频监控主要是通过人工方式完成,这种操作模式费时费力。随机器视觉技术和深度学习技术的飞速发展,RCNN、Faster RCNN、YOLO、SSD、RefineDet等一批有影响力的目标检测模型为场景视频智能监控提供了可行的技术方案。不过,这些模型偏向于识别常规性目标或事件,很难有效发现稀疏/突发的异常目标或者异常事件。为处理从大量常规场景事件中发现非常态性或者突发性事件问题,一批有影响力的异常检测算法如HybridAE、Mem-guided、MemAE、AEP、AMDN及MT-FRCN等相继诞生。总体上,异常检测是发现或者识别场景中异常或者突发事件的视频检测技术。例如在公布号为“CN 109034092A”的中国专利中,公开了一种用于监控系统的异常事件检测方法,该专利描述到根据异常事件特征,进行数据前期预处理。该过程首先将AVS格式的视频流解码,将视频文件转换成图像文件,然后对图像进行ROI处理,下采样处理以及光流处理。处理完毕后,为了防止后期模型训练出现过拟合现象,在原处理好的数据集基础上又进行翻转变换、反射变换和椒盐噪声处理,对数据集中的数据数量进行了扩充,最终完成数据前期处理。这种前期数据处理的过程,能够将多种异常特征凸显出来,便于后阶段的模型训练,但是异常现象/事件通常具有抽象性、不确定性、随机性和稀疏性等特点,故通常不能给出一个统一的异常标准定义异常以及收集所有的异常样本数据。这不仅导致了现有异常检测模型的泛化性低,而且引发了异常检测任务中样本收集困难和样本不平衡问题。

发明内容

本发明的目的在于提供一种关注目标时空位置关系的异常事件检测方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种关注目标时空位置关系的异常事件检测方法,包括如下步骤:

S1:通过注意力模块监视目标之间的时空位置关系,通过编码器获得输入视频帧序列中目标之间时空位置关系的注意力特征表示;

S2:将编码器的输出信息输送至解码器中,再分别输送至动态模式生成器模块和预测端输出头中;

S3:根据输入信息通过动态模式生成器模块生成样本模式特征,指导输出预测帧;

S4:将动态模式生成器模块生成的样本模式特征和解码器的输出特征融合并输送至输出头中,通过输出头预测未来帧图像。

优选地,所述的通过注意力模块监视目标之间的时空位置关系,通过编码器获得输入视频帧序列中目标之间时空位置关系的注意力特征表示步骤之前包括:

S11:基于编码器、解码器和预测端构建异常视频检测模型。

优选地,所述的通过注意力模块监视目标之间间的时空位置关系,通过编码器获得输入视频帧序列中目标之间时空位置关系的注意力特征表示步骤具体包括:

S12:首先,给定输入

最后,利用每一个通道特征抽取帧序列在时间t上的变化特征如下所示:

其中,σ和F分别代表标准化操作和卷积操作,3×3和1×1都代表卷积核大小,输入

优选地,所述异常视频检测模型采用损失函数。

优选地,所述损失函数由未来帧预测损失函数和动态模式重建损失函数组成。

优选地,所述损失函数为:

优选地,所述

优选地,所述

优选地,所述

优选地,所述

与现有技术相比,本发明的有益效果是:

(1)本发明基于目标之间时空位置关系定义异常视频检测问题,可有效适应处理视频异常事件的多样化;

(2)本发明构建了一个即插即用的注意力模块来关注目标之间的时空位置关系,以增强了异常检测模型对连续帧中目标间时空对应关系的理解;

(3)本发明构建了一个动态模式发生器来记忆目标之间的时空位置关系,以增加目标间时空位置关系信息的利用率。

附图说明

图1为本发明异常视频检测模型的框架结构图;

图2为本发明注意力模块的结构图;

图3为本发明动态模式生成器模块的结构图;

图4为现有异常视频检测方法的性能对比图;

图5为本发明与基准模型的性能对比图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-图5所示,本发明提供如下技术方案:

本发明构建的异常视频检测模型的框架结构如图1所示。该异常视频检测模型主要分为编码器、解码器和预测端3个部分。异常视频检测模型运行的基本流程是:

S1:通过注意力模块监视目标之间间的时空位置关系,通过编码器获得输入视频帧序列中目标之间时空位置关系的注意力特征表示;

S2:将编码器的输出信息输送至解码器中,再分别输送至动态模式生成器模块和预测端输出头中;

S3:根据输入信息通过动态模式生成器模块生成样本模式特征,指导输出预测帧;

S4:将动态模式生成器模块生成的样本模式特征和解码器的输出特征融合并输送至输出头中,通过输出头预测未来帧图像。。

另外,在本发明中,关注目标间时空位置关系的注意力模块以及记忆目标间时空位置关系特征的动态模式发生器模块,以及模型所采用的损失函数。

现有注意力模块倾向于通过构建模型的信道相互关系,并利用全局池化帮助模型捕捉全局信息。但就视频异常事件检测问题而言,更重要的是关注视频帧序列的目标间的时空位置关系。因此,本发明设计了一个关注目标间时空位置关系的注意力模块,以捕捉视频帧序列中目标之间的时空位置关系。关注目标间时空位置关系的注意力模块结构如图2所示。该注意力模块可看作是一个计算单元,其目的是增强神经网络学习功能的表现力。该模块可以使用任何中间特征张量作为输入,其输出是对输入张量的相应动作的增强表示。

现有方法通常使用全局池对通道中的空间信息进行编码,将全局空间信息压缩成单一通道的加权表示,但这种方法不能保留位置信息。为获得时空位置信息,本发明构建的注意力模块通过结合空间和时间分别提取和聚集维度特征。首先,给定输入

最后,利用每一个通道特征抽取帧序列在时间t上的变化特征如下所示:

这里σ和F分别代表标准化操作和卷积操作,3×3和1×1都代表卷积核大小,输入

根据视频异常事件识别任务的关注物体与物体之间联系的特性,本发明主要围绕两点设计该注意力模块:

1、可以捕获并利用平面位置信息,突出感兴趣区域。

2、可以捕获并利用时间维度上的长范围依赖关系,突出感兴趣区域。在具体实现上首先将公式1和公式2得到的特征图进行连接,然后使用一个共享卷积核大小为1×1卷积F

公式中[.,.]代表在同一维度上的张量串联操作,F

g

g

上式中F

关注目标时空位置关系的动态模式生成器的结构图如图3所示。模式发生器经过训练,利用两个注意通道,即对空间关系的注意和对时间关系的注意,分别实时学习和压缩正常特征,构建正常模式库,最后通过模式库检索重建正常模式编码发生器的输出。动态模式生成器的输入来自于前部分异常视频检测网络对T个(FL-T+1,FL-T+2,FL-T+3,…,FL)输入视频帧(以XL表示)的前馈处理。动态模式生成器不改变输入输出结构大小,其输入输出结构大小是

首先,在注意力获取阶段XP分别输入时间和空间坐标注意力模块。在通过时间注意力模块处理后得到输出

通过注意力模块处理后得到输出

接下来使用注意力阶段得到的输入作为正常模式动态编码的输入

其中,

最后,在检索过程中,来自前部分网络的输入编码向量

其中:

本发明采用的损失函数由未来帧预测损失和动态模式重建损失组成。

未来帧预测损失:未来帧预测损失通过约束重构差异使从解码器重建的预测视频帧与其真实帧相似。总而言之,损失函数最小化解码器输出

其中,T表示帧序列的总长度,本发明设置为5。

动态模式重构损失:动态模式重构损失目的是使通过动态模式生成器得到的正常模式编码具有紧凑性和多样性的特性。我将们这两个性质分别对应

其中λ

其中k是查询

为进一步表征模式之间的多样性,用多样性

其中α代表模式池中模式的期望距离。利用上述

另外,在本发明中,用2个常用的基准数据集和一个自建的钓鱼行为数据集测试本发明的模型性能,并与常用的几个异常检测模型进行比较。所用基准数据集包括:UCSDPed2数据集和ShanghaiTech数据集。UCSD Ped2数据集包含16个训练视频以及12个测试视频,涉及自行车和三轮车人行道违章等异常事件。ShanghaiTech数据集包含13个场景的330个训练视频和107个测试视频,是现有异常检测基准中最大的数据集。自建的钓鱼行为数据集属于本发明自建的钓鱼事件数据集,数据集来源不同场所监控云台和志愿者手机拍摄的钓鱼视频数据集。

在模型训练过程中,本发明将输入的连续帧的分辨率大小统一为256×256,并归一化到[-1,1]的范围内。在训练期间,模型以0.0004的学习率、batch size为4和epoch为1000进行训练,并且将查询动态模式池设置为数量N=255*256,长度P=10的大小的矩阵。使用全衰减系统为0.05的Adam优化器,对每一个数据集的batch size设置为4。对于未来帧预测任务,本发明将初始学习率设置为0.0004退火方法对其进行衰减。用ROC曲线下面积(AUC)来评估模型性能。

由图4可知,与现有文献公开的7种视频检测方法(HybridAE、Mem-guided、MemAE、AEP、AMDN、Unmasking及MT-FRCN)相比,本发明提出的异常事件检测方法取得最好的性能优势。图5是本发明与基准模型的性能比较,A:注意力模块;B:动态模式发生器模块。

本发明进一步用自建的钓鱼行为数据集测试本发明与基准模型的性能差异,以评估关注目标间时空位置关系的注意力模块以及记忆目标间时空位置关系特征的动态模式发生器模块添加对模型性能的影响。试验结果显示,无论是单独或者同时加入本发明构建的关注目标间时空位置关系的注意力模块/记忆目标间时空位置关系特征的动态模式发生器模块,本发明的预测性能都明显高于基准模型。这进一步说明本发明的有效性。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号