首页> 中国专利> 基于骨架序列的人类动作识别的语义自适应图网络方法

基于骨架序列的人类动作识别的语义自适应图网络方法

摘要

本发明提供的基于骨架序列的人类动作识别的语义自适应图网络方法,涉及计算机视觉技术领域,该方法包括:将数据预处理后的目标骨架序列的数据分为动力学特征数据、骨骼数据和语义数据;将目标骨架序列的动力学特征数据、骨骼数据和语义数据进行数据融合;对数据融合操作得到的结果进行自适应GCN操作;对自适应GCN操作得到的结果进行时间维度CNN操作。该方法通过引入语义信息、数据融合自适应GCN有效平衡了行为识别模型的准确率和参数量,且能够适配轻量级应用,更有利于应用于实际场景。

著录项

说明书

技术领域

本发明涉及计算机视觉技术领域,尤其涉及一种基于骨架序列的人类动作识别的语义自适应图网络方法。

背景技术

人类行为识别是计算机视觉领域的基本问题之一,在视频监控、人机交互、智能机器人、虚拟现实等领域被广泛应用。人类行为识别可根据动作特征模态分为:图像人体轮廓特征、深度图、视频人体运动光流以及人体骨架。近年来,人体骨架数据的获取随着低成本设备(Kinect V2)的发展变得更加容易,而人体骨架数据相较于RGB数据和深度数据,不容易受到外观影响,表征的是人体的高级特征。此外,人体骨架数据能够避免背景遮挡、光照变化以及视角变化产生的噪声影响,更适用于研究。

在已有的研究中,通过手动设计表征视频动作特征的传统分类模型不能适应高识别精度和复杂场景应用的要求,基于深度学习的方法是当前的主流算法。人体骨架数据一般表示为伪图像、向量序列和拓扑图,常见处理骨架数据的深度学习方法有卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、图卷积网络(Graph Convolutional Network,GCN)。CNN通过从数据中学习到的局部卷积滤波器和内核来识别,类似于图像分类。为了方便使用CNN,会将骨架数据进行转置,行表示不同的关节点,列表示不同的时间帧,(x,y,z)的3D坐标值被视为三个通道,构造出的图像成为伪图像,然后进行卷积操作。RNN通过将上一时刻的输出作为当前时刻的输入来形成其结构内部的递归连接,这被证明是一种处理序列数据的有效方法。人体骨架关节本身是一种拓扑图,GCN对拓扑图有着天然的适配性。

然而,现有的行为识别模型参数量和准确率综合效果并不理想,参数量与准确率的平衡性差,不利于产品的实际推广应用。

发明内容

针对上述技术问题,本发明提供基于骨架序列的人类动作识别的语义自适应图网络方法,有效平衡了行为识别模型的准确率和参数量,且能够适配轻量级应用,更有利于应用于实际场景。

为实现上述目的,本发明采取的技术方案为:

本发明提供的基于骨架序列的人类动作识别的语义自适应图网络方法,该方法包括以下步骤:

S3将目标骨架序列的数据分为动力学特征数据、骨骼数据和语义数据;

S4将目标骨架序列的动力学特征数据、骨骼数据和语义数据进行数据融合;

S6对数据融合操作得到的结果进行自适应GCN操作;

S7对自适应GCN操作得到的结果进行时间维度CNN操作。

具体地,所述步骤S3中的动力学特征数据包括:关节点数据、运动数据和速度差数据;骨骼数据包括:骨长数据和基于速度差的骨长数据;语义数据包括关节类型和帧序号。

具体地,对于目标骨架序列

选取关节点坐标位置

计算相邻两帧相同关节的差值得到运动数据

计算前T-1帧与后T-1帧的速度差值数据得到速度差数据,即

计算源关节点与目标关节点的差值,得到骨长数据为

计算骨长数据的前T-1帧与后T-1帧的差值得到基于速度差的骨长数据

对关节类型进行one-hot编码,得到关节类型向量数据S,再根据

对帧序号进行one-hot编码,得到帧序号向量数据T,再根据

将编码后的关节点数据、运动数据、速度差数据、骨长数据、基于速度差

的骨长数据和关节类型进行拼接,得到初始的数据融合结果为:

优选地,所述步骤S6前还包括:S5根据I计算邻接矩阵A,A=softmax(θ(I)

具体地,所述步骤S6为:根据公式f

具体地,所述步骤S7包括:将帧序号的编码结果

优选地,所述步骤S3前还包括:S1通过NTU-RGB+D 60和NTU-RGB+D120获得骨架序列数据集。

优选地,所述步骤S1后还包括:S2对骨架序列数据集进行数据预处理,去除骨架序列数据集中有缺失值的数据和噪声数据;并将骨架序列数据集中的多人行为现象拆分成多帧。

优选地,该方法训练过程中使用Adam优化器进行方法优化。

上述技术方案具有如下优点或者有益效果:

本发明提供的基于骨架序列的人类动作识别的语义自适应图网络方法,涉及计算机视觉技术领域,通过数据拼接、引入语义信息和自适应GCN有效平衡了行为识别模型的准确率和参数量,且能够适配轻量级应用,更有利于应用于实际场景。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未刻意按照比例绘制附图,重点在于示出本发明的主旨。

图1是本发明实施例1提供的基于骨架序列的人类动作识别的语义自适应图网络方法的简要流程图;

图2是本发明实施例1提供的基于骨架序列的人类动作识别的语义自适应图网络方法的语义自适应网络架构图;

图3是本发明实施例1提供的基于骨架序列的人类动作识别的语义自适应图网络方法的自适应GCN流程图;

图4是基于本发明实施例1提供的基于骨架序列的人类动作识别的语义自适应图网络方法的NTU-RGB+D 60在X-sub上的不同模型参数量和准确率对比图。

具体实施方式

下面结合附图和具体的实施例对本发明作进一步的说明,但是不作为本发明的限定。

实施例1:

本发明实施例1提供的基于骨架序列的人类动作识别的语义自适应图网络方法在实施时,参照图1,首先通过NTU-RGB+D 60和NTU-RGB+D120获得骨架序列数据集。接着对骨架序列数据集进行数据预处理,去除骨架序列数据集中有缺失值的数据和噪声数据;并将骨架序列数据集中的多人行为现象拆分成多帧,以确保本方法处理的数据都是单人模式,提高模型的准确率。然后将目标骨架序列的数据分为动力学特征数据、骨骼数据和语义数据;具体地,动力学特征数据包括:关节点数据、运动数据和速度差数据;骨骼数据包括:骨长数据和基于速度差的骨长数据;语义数据包括关节类型和帧序号。引入关节类型能够更好帮助行为分类,当有两个行为,它们的动作幅度都是一样的,都是从底部到顶部,如果知道了关节类型,就能够进行细粒度的区分。而帧序号可以帮助在时间维度对行为进行理解,即不同的行为表征的时间幅度是不同的。因此引入这两个语义信息能够更好地表征行为的空间和时间结构。

接着将目标骨架序列的动力学特征数据、骨骼数据和语义数据进行数据融合;具体地,对于目标骨架序列

将编码后的关节点数据、运动数据、速度差数据、骨长数据、基于速度差

的骨长数据和关节类型进行拼接,得到初始的数据融合结果为:

接着根据I计算邻接矩阵A,A=softmax(θ(I)

下一步参照图2及图3,根据公式f

接下来我们需要在时间维度CNN阶段将数据融合阶段未拼接的语义信息帧序号

本发明实施例1提供的基于骨架序列的人类动作识别的语义自适应图网络方法结合语义信息,通过拼接的方式进行数据融合,并设计了自适应GCN模块与时间维度CNN模块,有效帮助模型学习人类动作的空间与时间结构,将针对对抗攻击与意外攻击的防御能力提高了百分之二十左右。此外,参见图4,NTU-RGB+D 60在X-sub上的不同模型参数量和准确率对比图,横轴为参数量,纵轴为准确率,红色五角星标示的为本方法模型,显而易见,在本方法模型左侧的模型参数量较小,但是模型的准确率低,在本方法模型右侧的准确率不稳定且参数量大,计算相对复杂,难以落实应用。因此本模型在现有技术中,对于参数量和准确率的平衡性处于较优地位。平衡了行为识别模型的准确率和参数量,并能通过消融实验证明拼接、语义信息、自适应GCN的有效性。同时,该方法可适配轻量级应用,其实际适用场景得到极大扩展,更有利于再实际场景中进行推广。

以上对本发明的较佳实施例进行了描述;需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容;因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号