首页> 中国专利> 一种基于时间移位框架的动态手势识别方法及系统

一种基于时间移位框架的动态手势识别方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于时间移位框架的动态手势识别方法及系统，其构建了一个动态手势识别网络模型，所述动态手势识别网络模型的基础网络为残差网络，所述残差网络中包含注意力模块和时间移位模块，所述注意力模块用于优化残差块提取得到的中间特征，所述时间移位模块用于对每层残差块之间的注意力特征进行时间维度建模融合；从而使用复杂度更低的二维卷积神经网络代替三维卷积神经网络，并能够在RGB图像模式下达到RGB‑D图像模式下的识别效果，采用动态手势识别网络模型对动态手势视频进行检测识别，能够解决目前三维动态手势识别方法中训练数据量大和算法复杂度高的问题。

著录项

公开/公告号CN113850135A

专利类型发明专利
公开/公告日2021-12-28

原文格式PDF
申请/专利权人中国船舶重工集团公司第七0九研究所;
展开▼

申请/专利号CN202110973739.0
发明设计人吴心怡;胡超;李恒;
展开▼

申请日2021-08-24
分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构42212 武汉河山金堂专利事务所(普通合伙);
代理人胡清堂
地址 430205 湖北省武汉市东湖新技术开发区凤凰产业园藏龙北路1号
入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明涉及计算机视觉与人机交互技术领域，尤其是涉及一种基于时间移位框架的动态手势识别方法及系统。

背景技术

手势识别的主要任务是从图像或视频中提取特征并进行分类得出相应的标签和解释，应用范围十分广泛，如人机交互、视觉监控、视频检索等。根据手势本身是否运动，手势识别可以分为静态手势识别与动态手势识别，相比静态手势识别，动态手势的识别任务可能更为艰巨，往往需要通过连续的视频序列来学习和训练手势动作的时空特征，进而对不同的动态手势进行分类识别。目前动态手势识别中精度较高的深度学习模型通常使用深度图像或RGB-D融合数据作为输入，采用三维卷积神经网络进行训练来得到动态手势识别模型，往往存在数据量大和算法复杂度较高的问题，给动态手势识别模型的训练和测试带来了一定的难度。

目前在三维动态手势识别方法领域中有如下一些方法：

专利文件“基于双通路深度卷积神经网络的动态手势识别方法”(CN201710990519.2)中提出了一种双通路深度卷积网络，通过多级的深度卷积层和深度池化层，分别提取并融合动态手势在深度空间和彩色空间上的时域特征和空间特征。该方法通过前后帧图像像素相减的方法获取图像序列中的运动信息，再通过中值滤波和先腐蚀后膨胀的方法去除噪声，分别获取前景与运动信息，但该方法容易疏导光照和背景的影响，当人手与背景颜色相近或背景杂乱时，容易将前景与运动信息混淆，降低动态手势识别准确率；

专利文件“一种基于深度神经网络的动态手势识别方法及系统”(CN201810745350.9)，该方法采集RGB图像与深度信息的动态手势视频片段生成训练样本数据集，设计了一种动态手势识别网络模型，该网络模型由特征提取网络、前后帧关联网络与分类识别网络构成，其中前后帧关联网络用于对每一个手势含义的样本经过特征提取网络得到的特征向量进行前后时间帧的关联映射，并将其合并为每一个手势含义的融合特征向量。该方法不属于端到端的网络，可能存在计算瓶颈，在实时性上有一定限制，同时该方法采用的前后帧关联网络为LSTM长短时网络，其训练过程容易受到内存和贷款等约束，并且对时间维度较长的图像识别效果较差，缺乏适用性；

专利文件“一种基于轻量3D残差网络和TCN的多模态动态手势识别方法”(CN202011467797.8)中提出了一种多模态动态手势识别方法，使用RGB-D图像序列作为输入，轻量3D残差网络和时间卷积网络作为基础模型进行长短期的时空特征的提取，该方法使用RGB-D数据作为网络输入存在数据量大，并且需要后期对两种模态的特征分别进行提取和融合操作，增大了网络的复杂度和训练难度；

专利文件“一种基于自注意力机制的动态手势识别方法和系统”(CN202010607626.4)中提出多模输入策略来描述动态手势的发生过程，并且利用非局部信息统计的空间自注意力机制计算出特征图上任意距离的两个元素之间的依赖关系，进而直接获取整个特征图上全局信息对任意元素的影响，该方法需要使用提取RGB特征、深度特征以及光流特征，识别效果较好但复杂度较高，所需数据模式复杂且不易获取，难以推广至实际场景。

发明内容

本发明提出一种基于时间移位框架的动态手势识别方法及系统，以克服上述技术不足。

为达到上述技术目的，本发明的技术方案第一方面提供一种基于时间移位框架的动态手势识别方法，其包括如下步骤：

采集动态手势视频样本,对动态手势视频样本进行标注并制作动态手势图像数据集；

构建动态手势识别网络模型，所述动态手势识别网络模型的基础网络为残差网络，所述残差网络中包含注意力模块和时间移位模块，所述注意力模块用于优化残差块提取得到的中间特征，所述时间移位模块用于对每层残差块之间的注意力特征进行时间维度建模融合；

利用动态手势图像数据集对动态手势识别网络模型进行训练；

采用训练完成的动态手势识别网络模型对动态手势视频进行检测识别。

本发明第二方面提供一种基于时间移位框架的动态手势识别系统，其包括如下功能模块：

数据采集模块，用于采集动态手势视频样本,对动态手势视频样本进行标注并制作动态手势图像数据集；

网络构建模块，用于构建动态手势识别网络模型，所述动态手势识别网络模型的基础网络为残差网络，所述残差网络中包含注意力模块和时间移位模块，所述注意力模块用于优化残差块提取得到的中间特征，所述时间移位模块用于对每层残差块之间的注意力特征进行时间维度建模融合；

网络训练模块，用于利用动态手势图像数据集对动态手势识别网络模型进行训练；

检测识别模块，用于采用训练完成的动态手势识别网络模型对动态手势视频进行检测识别。

本发明第三方面提供一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于时间移位框架的动态手势识别方法的步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于时间移位框架的动态手势识别方法的步骤。

与现有技术相比，本发明所述一种基于时间移位框架的动态手势识别方法及系统，其采用残差网络作为二维卷积神经网络的基础网络，通过增设注意力模块对残差网络的中间特征进行改进，以及增设时间移位模块来基于时间移位框架对改进后的特征进行时间维度建模融合，从而使用复杂度更低的二维卷积神经网络代替三维卷积神经网络，并能够在RGB图像模式下达到RGB-D图像模式下的识别效果，以解决目前三维动态手势识别方法中训练数据量大和算法复杂度高的问题。

附图说明

图1是本发明实施例所述一种基于时间移位框架的动态手势识别方法的流程框图；

图2是本发明实施例所述动态手势识别网络模型的结构示意图；

图3是本发明实施例所述一种基于时间移位框架的动态手势识别系统的模块框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

基于上述内容，本发明实施例提供一种基于时间移位框架的动态手势识别方法，如图1所示，其包括如下步骤：

S1、采集动态手势视频样本,对动态手势视频样本进行标注并制作动态手势图像数据集。

即，从摄像头中录制C种含义不同的动态手势RGB视频片段，每种动态手势至少采集50段不同的视频片段，按照手势类别分别保存和标注。

对采集的动态手势视频片段进行逐帧抽取形成图像序列，具体的，对输入的一段视频片段{F

还可以对动态手势动作的图像样本集进行采样，将输入的图像序列均匀分成n段，每个片段采样一帧，即将输入的图像序列采样为n张图片，这n张图片作为动态手势识别网络模型的输入样本集。

S2、构建动态手势识别网络模型，所述动态手势识别网络模型的基础网络为残差网络，所述残差网络中包含注意力模块和时间移位模块，所述注意力模块用于优化残差块提取得到的中间特征，所述时间移位模块用于对每层残差块之间的注意力特征进行时间维度建模融合。

具体的，所述动态手势识别网络模型的基础网络为残差网络resnet5，用于提取图像序列中的手势动作特征。如图2所示，将注意力模块插入到resnet50网络的每个残差块之间，在不改变中间特征图尺寸以及不会破坏resnet50的网络结构的前提下，所述注意力模块能够让原始特征重新进行分布，加强重要特征的权重，压缩不必要的特征。其中，所述注意力模块包括通道注意力单元和空间注意力单元。具体如图2所示，残差网络resnet50通过残差块提取得到的中间特征图F的尺寸为W×H×C，经过通道注意力模块M

F′’再经过一个空间注意力模块M

由于该特征图的尺寸与输入相同，该注意力特征直接输入resnet50网络中的下一残差块。

如图2所示，所述时间移位模块设置在每层残差块的注意力特征输出块之间，其具体用于：在时间维度T上，分别用某一帧图像特征的前后两帧图像特征的部分通道来替换当前帧图像特征的部分通道。例如时间移位模块可以在时间维度T上分别用前后两帧各1/8的通道来替换当前帧1/4的通道，具体如公式所示，X

把经过注意力模块优化的特征进行时间维度建模融合后，将新特征信息输入到全连接层，全连接层将权重矩阵与输入向量相乘再加上偏置，分别输出C种动态手势类别的分数，计算公式如下：

y(Z)＝Softmax(Z)＝Softmax(Wz+b) (4)

其中，W表示权重，b表示偏置项，z为输入向量，Softmax函数把这C个分数映射为(0，1)的概率y，概率最大的类别即为模型预测的动态手势类别。

S3、利用动态手势图像数据集对动态手势识别网络模型进行训练。

具体的，所述步骤S3包括如下分步骤：

S31、对动态手势图像数据集中的每一类手势的图像序列以7:3的比例划分训练集和测试集。

S32、利用训练集对动态手势识别网络模型进行训练，并使用交叉熵损失函数计算动态手势识别网络模型的损失函数值，计算方式如下：

其中，m表示神经网络单次处理的样本数，n表示训练集中所包含的动态手势类别数，y

S33、根据得到的损失函数值，利用反向传播算法对动态手势识别网络模型的所有权重参数进行更新和优化，以获得优化更新后的动态手势识别网络模型。

S34、重复上述分步骤S32、S33，对更新后的动态手势识别网络模型进行迭代训练，直到损失函数达到最小值，得到迭代训练或的动态手势识别网络模型。对于上述训练过程，其初始化参数如下：初始化网络参数设定，主要完成对训练迭代次数设置、初始学习率的设置、预训练模型选择和优化算法选择，根据本发明所研究场景，训练迭代次数设置为100，优化器使用Adam，初始学习率设置为0.01，每迭代20次学习率衰减10倍，使用resnet50预训练模型，每次迭代完成之后都将测试准确率与上一次迭代的测试准确率进行对比，如果当前的测试准确率大于上次的测试准确率，就把当前生成的训练模型作为最优模型，并进行保存，直到完成所有的迭代。

S35、利用测试集对迭代训练后的动态手势识别网络模型进行识别准确率验证，直到识别准确率达到最优为止，获得训练好的动态手势识别网络模型。

S4、采用训练完成的动态手势识别网络模型对动态手势视频进行检测识别。

本发明所述一种基于时间移位框架的动态手势识别方法，其采用残差网络作为二维卷积神经网络的基础网络，通过增设注意力模块对残差网络的中间特征进行改进，以及增设时间移位模块来基于时间移位框架对改进后的特征进行时间维度建模融合，从而使用复杂度更低的二维卷积神经网络代替三维卷积神经网络，并能够在RGB图像模式下达到RGB-D图像模式下的识别效果，以解决目前三维动态手势识别方法中训练数据量大和算法复杂度高的问题。

如图3所示，本发明实施例还提供一种基于时间移位框架的动态手势识别系统，其包括如下功能模块：

数据采集模块10，用于采集动态手势视频样本,对动态手势视频样本进行标注并制作动态手势图像数据集；

网络构建模块20，用于构建动态手势识别网络模型，所述动态手势识别网络模型的基础网络为残差网络，所述残差网络中包含注意力模块和时间移位模块，所述注意力模块用于优化残差块提取得到的中间特征，所述时间移位模块用于对每层残差块之间的注意力特征进行时间维度建模融合；

网络训练模块30，用于利用动态手势图像数据集对动态手势识别网络模型进行训练；

检测识别模块40，用于采用训练完成的动态手势识别网络模型对动态手势视频进行检测识别。

本实施例一种基于时间移位框架的动态手势识别系统的执行方式与上述基于时间移位框架的动态手势识别方法基本相同，故不作详细赘述。

本实施例服务器为提供计算服务的设备，通常指具有较高计算能力，通过网络提供给多个消费者使用的计算机。该实施例的服务器包括：存储器、处理器以及系统总线，所述存储器包括存储其上的可运行的程序，本领域技术人员可以理解，本实施例的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行终端的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在存储器上包含一种基于时间移位框架的动态手势识别方法的可运行程序，所述可运行程序可以被分割成一个或多个模块/单元，所述一个或多个模块/单元被存储在所述存储器中，并由处理器执行，以完成信息的获取及实现过程，所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述服务器中的执行过程。例如，所述计算机程序可以被分割为数据采集模块10、网络构建模块20、网络训练模块30、检测识别模块40。

处理器是服务器的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器可包括一个或多个处理单元；优选的，处理器可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器中。

系统总线是用来连接计算机内部各功能部件，可以传送数据信息、地址信息、控制信息，其种类可以是例如PCI总线、ISA总线、VESA总线等。处理器的指令通过总线传递至存储器，存储器反馈数据给处理器，系统总线负责处理器与存储器之间的数据、指令交互。当然系统总线还可以接入其他设备，例如网络接口、显示设备等。

所述服务器应至少包括CPU、芯片组、内存、磁盘系统等，其他构成部件在此不再赘述。

在本发明实施例中，该终端所包括的处理器执行的可运行程序具体为：一种基于时间移位框架的动态手势识别方法，其包括如下步骤：

采集动态手势视频样本,对动态手势视频样本进行标注并制作动态手势图像数据集；

利用动态手势图像数据集对动态手势识别网络模型进行训练；

采用训练完成的动态手势识别网络模型对动态手势视频进行检测识别。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于时间移位框架的动态手势识别方法及系统 [P] . 中国专利： CN113850135A . 2021-12-28
2. 一种基于手机陀螺仪和动态时间规整的动作手势识别方法 [P] . 中国专利： CN108108015A . 2018-06-01
3. A method for detecting a movement path of at least one moving object within a detection area, a process for the gesture recognition system with the use of such a recognition method and apparatus for carrying out such a recognition method [P] . 德国专利： DE102014201313A1 . 2015-07-30

机译：一种用于检测至少一个运动物体在检测区域内的运动路径的方法，一种使用这种识别方法的手势识别系统的过程以及一种用于执行这种识别方法的设备
4. Gesture recognition system and gesture recognition method based on sharpness values [P] . 美国专利： US9628698B2 . 2017-04-18

机译：基于清晰度值的手势识别系统和手势识别方法
5. GESTURE RECOGNITION SYSTEM AND GESTURE RECOGNITION METHOD BASED ON SHARPNESS VALUES [P] . 美国专利： US2016028943A9 . 2016-01-28

机译：基于锐度值的手势识别系统和手势识别方法