法律状态公告日
法律状态信息
法律状态
2020-05-22
未缴年费专利权终止 IPC(主分类):G06K9/00 授权公告日:20180828 终止日期:20190603 申请日:20150603
专利权的终止
2018-08-28
授权
授权
2015-09-30
实质审查的生效 IPC(主分类):G06K9/00 申请日:20150603
实质审查的生效
2015-09-02
公开
公开
技术领域
本发明涉及计算机视觉领域,尤其是涉及一种基于多特征时空关系融合的人类行为识别方法。
背景技术
随着计算机科学的发展,视频开始成为人们生活的一部分,如何让计算机“理解”视频中的人类行为,对基于内容的视频检索、智能监控、人机交互和虚拟现实等领域都具有重要作用。
一般而言,一个经典的人类行为识别框架主要包括三个步骤:特征抽取、视频编码以及分类器的训练和识别,此外,对于采用多种特征的情况,还包括一个可选的多特征前期融合或后期融合步骤,其中的视频编码是决定识别准确率的关键步骤。
目前,被广泛使用和改进的编码方法之一是词袋(BagofWords,简称BoW)方法,经典的BoW方法首先对特征进行聚类,接着把视频表示成特征出现在每一个质心中的频次直方图向量,虽然BoW编码已经在很多文献中显示了很好的泛化能力和健壮性,但该方法也有很多缺点:比如费时的特征聚类过程,KMEANS算法的有监督参数k以及质心之间时空关系信息的丢失。
为了消除KMEANS算法的参数k依赖经验确定的问题,“LiuJ,ShahM.Learninghumanactionsviainformationmaximization[C].ComputerVisionandPatternRecognition,2008.CVPR2008.IEEEConferenceon.IEEE,2008:1-8.”使用互信息最大化聚类算法无监督的确定最合适的质心数量,该算法首先用一个较大的k进行KMEANS聚类,以减少由于KMEANS聚类造成的信息丢失,之后通过互信息最大化聚类算法在尽可能少的丢失信息的前提下减少质心数量,以此提高后续步骤的计算速度。
为了解决时空关系信息丢失的问题,许多研究者们提出了基于BoW的扩展方法,按照所保留信息的不同,这些方法被分为两类:保留绝对时空信息的BoW表示和保留相对时空信息的BoW表示。前者通常需要对视频的时空体进行全局分割,这使得计算得到的视频编码与特征的绝对时空坐标相关,缺乏平移不变性。“LaptevI,MarszalekM,SchmidC,etal.Learningrealistichumanactionsfrommovies[C].ComputerVisionandPatternRecognition,2008.CVPR2008.IEEEConferenceon.IEEE,2008:1-8.”把视频的时空体积分割成预定义的时空网格,之后分别在每个网格中计算BoW并把所有网格的BoW向量串联起来作为最终的视频编码。然而,为了确定最佳的网格组合,该方法需要用交叉验证进行贪心搜索,而这个步骤是非常费时的,此外,通过串联不同网格的BoW得到的超长向量进一步增加了计算复杂度。“SunJ,WuX,YanS,etal.Hierarchicalspatio-temporalcontextmodelingforactionrecognition[C].ComputerVisionandPatternRecognition,2009.CVPR2009.IEEEConferenceon.IEEE,2009:2004-2011.”以一种层级的方式获取三层时空上下文信息。而后者,即保留相对时空信息的方法,通常是利用BoW质心或特征之间的相对时空距离进行视频编码。“KovashkaA,GraumanK.Learningahierarchyofdiscriminativespace-timeneighborhoodfeaturesforhumanactionrecognition[C].ComputerVisionandPatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010:2046-2053.”首先用原特征点周围的点构造新特征,之后结合新特征所属质心信息和新特征方向信息构造视频编码。由于需要构造多层级的质心,该方法的计算复杂度相对较高。“WangJ,ChenZ,WuY.Actionrecognitionwithmultiscalespatio-temporalcontexts[C].ComputerVisionandPatternRecognition(CVPR),2011IEEEConferenceon.IEEE,2011:3185-3192.”通过在原特征的多个时空尺度中获取特征之间的时空上下文交互信息进行视频编码。。
发明内容
本发明主要解决的技术问题是提供一种基于多特征时空关系融合的人类行为识别方法,该方法对两种特征对应质心之间的时空关系信息进行显式编码,能够更好的挖掘不同特征的有效信息进行人类行为识别。
为解决上述技术问题,本发明采用的一个技术方案是:一种基于多特征时空关系融合的人类行为识别方法,具体步骤包括:
步骤1:对视频进行密集轨迹特征抽取,并以光流直方图和运动边界直方图两种方法对抽取的轨迹特征进行表示,得到两种特征表示;
步骤2:用KMEANS算法构建两种特征对应质心之间的时空二部图;
步骤3:采用K路二部图分割技术将步骤2中的时空二部图分割为具有强时空关系的质心和具有弱时空关系的质心,将分割后具有强时空关系的质心融合起来,将具有弱时空关系的质心分开;
步骤4:计算具有强时空关系的质心之间的时空距离矩阵,并采用基于条件概率的表示方法对距离矩阵进行压缩,得到两种特征融合后的视频级编码;
步骤5:训练分类器并进行识别。
在本发明一个较佳实施例中,所述步骤2中KMEANS算法将所述步骤1中得到的两种特征进行聚类,从而得到若干个质心,通过计算每个视频中任意两个特征对应时空坐标之间的L1距离来衡量两个特征之间的时空关系,利用两种特征之间的时空关系计算其质心之间的时空关系,并得到两种特征对应质心之间的时空二部图。
在本发明一个较佳实施例中,所述的步骤4中所述条件概率表示方法首先对质心之间的距离向量进行离散化,然后以条件概率描述任意两个融合后质心之间的时空距离分布信息。
本发明的有益效果是:本发明一种基于多特征时空关系融合的人类行为识别方法,该方法通过计算每个视频中特征之间的时空距离,从而构建两种特征对应质心之间的时空二部图,并采用K路二部图分割技术对时空二部图进行分割,以此将具有强时空关系的质心融合,更好的挖掘了不同特征的有效信息,提升了识别准确率。
附图说明
图1为一种基于多特征时空关系融合的人类行为识别方法的流程图。
具体实施方式
下面对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
本发明实施例包括:一种基于多特征时空关系融合的人类行为识别方法,具体步骤包括:
步骤1:对视频进行密集轨迹特征抽取,首先在一个密集型网格中进行特征点采样。为了使得采集的特征点能适应尺度变换,将同时在多个不同空间尺度的网格中进行采样,然后密集轨迹特征通过估计每一帧的光流场对每个采样点进行跟踪,并且每个采样点只在其对应的空间尺度内跟踪L帧,最后分别对特征计算光流直方图和运动边界直方图作为两种不同的特征;
步骤2:设所述步骤1中抽取的两种特征为fea1和fea2,对这两种特征分别进行KMEANS聚类得到的质心分别为
其中V=
其中,S为整个训练集中两种特征之间时空距离矩阵之和,即:
其中,
步骤3:采用K路二部图分割技术将步骤2中的时空二部图分割为具有强时空关系的质心和具有弱时空关系的质心给定一个二部图G(V,E),二部图的K路分割将顶点集合V分割成k个子集
首先构造拉普拉斯矩阵
并使用奇异值分解求出L的
设
对
步骤4:设融合前视频V的距离矩阵为
其中
则质心融合后视频V的距离矩阵为
首先计算fea1的质心
其中,
然后,对称的计算fea2的质心
最后,整个视频V可以被编码成2m*k的矩阵:
步骤5:最后,利用获得的融合后视频级编码,训练一个多类支持向量机用于新视频的识别。
与现有技术相比,本发明一种基于多特征时空关系融合的人类行为识别方法,该方法通过计算每个视频中特征之间的时空距离,从而构建两种特征对应质心之间的时空二部图,并采用K路二部图分割技术对时空二部图进行分割,以此将具有强时空关系的质心融合,更好的挖掘了不同特征的有效信息,提升了识别准确率。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
机译: 基于人眼图像的多特征融合识别方法
机译: 基于视频的人类行为识别方法,装置,装置和存储介质
机译: 基于兴趣度的Agent模型的人类行为模式识别方法