首页> 中国专利> 一种手势识别装置、手势识别方法及手势识别系统

一种手势识别装置、手势识别方法及手势识别系统

摘要

本发明公开了一种手势识别装置、手势识别方法及手势识别系统,手势识别装置采用纸为基底的传感器,同时将基底做成纸弹簧结构,利用纸通过折叠、压印等工艺制备微纳结构用于传感器的敏感单元,降低了传感器的制作成本,提高了传感器的环保等级且易回收,同时微纳结构及褶皱的存在促使传感器的灵敏度得到大幅度提高;手势识别中采用深度残差网络解决CNN模型训练难的问题,通过批量标准化进行加速训练,利用传感器获取手指运动信息和角度变化,同时与RGB网络摄像头视觉数据融合,可较快速有效率地判断手势。

著录项

  • 公开/公告号CN114816059A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 西安电子科技大学;

    申请/专利号CN202210430787.X

  • 申请日2022-04-22

  • 分类号G06F3/01;G06V40/20;G06K9/00;G06V10/82;G06V10/80;G06K9/62;G06N3/04;G06N3/08;A61B5/11;

  • 代理机构北京博识智信专利代理事务所(普通合伙);

  • 代理人刘巍

  • 地址 710126 陕西省西安市长安区西安电子科技大学南校区

  • 入库时间 2023-06-19 16:08:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及手势识别技术领域,具体是指一种手势识别装置、手势识别方法及手势识别系统。

背景技术

手势识别技术可提供良好的人机互动性,并提高操作便利性,已受到业界广泛的重视。目前能够识别手势的镜头可区分为远距离镜头与近距离镜头两种,远距离镜头可设置于使用者前方而与使用者面对面,如设置于电视或游戏机,而近距离镜头可设置于使用者身上的穿戴装置。两种距离的镜头虽然都可以识别手势,但距离与位置不同,能取得的手势信息与使用习惯当然不同,导致这两种距离会有不同的手势。

随着虚拟现实(VirtualReality,VR)装置或增强现实(AugmentedReality,AR)装置的开发,近距离镜头可装设于VR装置或AR装置上。VR装置或AR装置均可利用手势来进行操作,而目前多以特定的手势来取代特定的功能,达到如快捷键一般的效果。举例来说,拇指与食指捏取(Pinch)的手势为使用者很自然就可实现的手势,其可用来指示VR装置或AR装置进行特定操作。

目前通过光学设备来完成手势识别的技术方案识别一个手势通常需要10秒钟,这种速度很难满足电子设备与计算机之间的人机交互。所以,一种手势识别装置、手势识别方法及手势识别系统成为人们亟待解决的问题。

发明内容

本发明要解决的技术问题是提供一种能够按照预定义手势识别的手势识别装置、手势识别方法及手势识别系统

为解决上述技术问题,本发明提供的技术方案为一种手势识别装置,包括设置于手指位置对应的至少一个传感器,所述传感器用于识别运动手指相对于其他手指的运动信息和角度变化信息;

所述传感器包括包括基底、导电层以及导线,所述基底材料为纸且折叠成弹簧形状,所述导电层形成在所述基底上,通过导线与外部测量仪器或电路连接。

作为改进,所述纸基上设有用于塑封的石墨层。

作为改进,所述导电层通过粘贴、打印工艺制备。

一种手势识别方法,包括以下步骤:

1)利用手势图片集建立不同手势的数据库,分别建立储存图片信息图片数组以及储存标签信息的标签数组;

2)建立CNN模型,计算机通过训练集计算梯度下降进行拟合模型;

3)收集配戴在用户的手指上传感器的运动信息和角度变化信息;

4)将运动信息和角度变化信息输入模型并判断用户手势所执行的操作。

作为改进,所述步骤3中拟合模型包括以下步骤:

1)在深度残差网络中提出了残差结构,并搭建超深的网络结构;

2)通过批量标准化进行加速训练。

作为改进,所述步骤5输入模型前,包括以下步骤:将每根手指上的传感器通过数据选择器后进行降维处理,把高维的数据映射到低维的空间,并且保持数据在高维空间的局部结构。

作为改进,所述步骤4中包括与RGB网络摄像头视觉数据融合:

1)集成来自传感器与RGB网络摄像头的不同信息源的矢量化特征;

2)使用基于注意力的融合机制融合不同信息源的矢量化特征来优化模型;

3)使用双线程池化来进一步提高模型性能,将视觉特征向量与文本特征向量融合,通过计算其外积来创建联合表示空间的输出向量。

作为改进,传感器与RGB网络摄像头信息集成方法采用级联或加权总和。

一种手势识别系统:包括传感器以及处理器;

所述传感器至少设有一个且设于手指位置,用于识别运动手指相对于其他手指的运动信息和角度变化信息;

所述处理器与传感器电性连接,获取传感器的检测检测数据并判断用户手势。

作为改进,还包括取像装置,用于获取不同手势产生的影像,并将影像数据发送给处理器。

本发明与现有技术相比的优点在于:

1)手势识别装置采用纸为基底的传感器,同时将基底做成纸弹簧结构,利用纸通过折叠、压印等工艺制备微纳结构用于传感器的敏感单元,降低了传感器的制作成本,提高了传感器的环保等级且易回收,同时微纳结构及褶皱的存在促使传感器的灵敏度得到大幅度提高;

2)手势识别中采用深度残差网络解决CNN模型训练难的问题,通过批量标准化进行加速训练,利用传感器获取手指运动信息和角度变化,同时与RGB网络摄像头视觉数据融合,可较快速有效率地判断手势。

附图说明

图1是本发明一种手势识别装置的展开结构示意图。

图2是本发明一种手势识别装置的使用参考图。

图3是本发明一种基底的弹簧结构图。

图4是本发明一种手势识别方法的流程图。

图5是本发明一种手势识别系统的结构框图。

图6是残差学习单元原理图。

图7是批量标准化添加位置图。

图8是一维纸基的柔性传感器及其相应曲线。

图9是本发明传感器动态响应曲线。

如图所示:1、传感器,2、基底,3、导电层,4、导线,5、石墨层。

具体实施方式

下面结合附图对本发明一种手势识别装置、手势识别方法及手势识别系统做进一步的详细说明。

一种手势识别装置,包括设置于手指位置对应的至少一个传感器,所述传感器用于识别运动手指相对于其他手指的运动信息和角度变化信息;

所述传感器包括包括基底、导电层以及导线,所述基底材料为纸且折叠成弹簧形状,所述基底上设有用于塑封的石墨层,所述导电层形成在所述基底上,通过导线与外部测量仪器或电路连接;所述导电层通过粘贴、打印工艺制备。

实施例一:一种手势识别方法,包括以下步骤:

1)利用手势图片集建立不同手势的数据库,分别建立储存图片信息图片数组以及储存标签信息的标签数组;

2)建立CNN模型,并使用了relu和softmax作为激活函数;

3)计算机通过训练集计算梯度下降进行拟合模型;拟合模型中在深度残差网络中提出了残差结构,并搭建超深的网络结构,通过批量标准化进行加速训练。

4)收集配戴在用户的手指上传感器的运动信息和角度变化信息,将每根手指上的传感器通过数据选择器后进行降维处理,把高维的数据映射到低维的空间,并且保持数据在高维空间的局部结构;

5)将运动信息和角度变化信息输入模型并判断用户手势所执行的操作。

实施例二:一种手势识别方法,包括以下步骤:

1)利用手势图片集建立不同手势的数据库,分别建立储存图片信息图片数组以及储存标签信息的标签数组;

2)建立CNN模型,并使用了relu和softmax作为激活函数;

3)计算机通过训练集计算梯度下降进行拟合模型;拟合模型中在深度残差网络中提出了残差结构,并搭建超深的网络结构,通过批量标准化进行加速训练。

4)收集配戴在用户的手指上传感器的运动信息和角度变化信息,将每根手指上的传感器通过数据选择器后进行降维处理,把高维的数据映射到低维的空间,并且保持数据在高维空间的局部结构;设置RGB网络摄像头采集视觉数据,采用加权总和法集成来自传感器与RGB网络摄像头的不同信息源的矢量化特征,基于注意力的融合机制融合不同信息源的矢量化特征来优化模型;

5)使用双线程池化来进一步提高模型性能,将视觉特征向量与文本特征向量融合,通过计算其外积来创建联合表示空间的输出向量,将输出向量输入模型并判断用户手势所执行的操作。

本发明的工作原理:。

结合附图6,ResNet的一个残差学习模块,该模块包含多个卷积层,多个卷积层对这个残差学习模块的输入数据进行的变化,同时原始输入信息跳过多个卷积层直接传导到后面的层中,最终将的整体作为输入,并用激活函数激活,从而得到这个残差学习模块的输出结果。所以本质上是输出结果和输入结果之间的差值,即残差,也类似于一种短路连接。

对于一个堆积层结构(几层堆积而成)当输入为x时其学习到的特征记为H(x),现在我们希望其可以学习到残差F(x)=H(x)-x,这样其实原始的学习特征是F(x)+x。之所以这样是因为残差学习相比原始特征直接学习更容易。当残差为0时,此时堆积层仅仅做了恒等映射,至少网络性能不会下降,实际上残差不会为0,这也会使得堆积层在输入特征基础上学习到新的特征,从而拥有更好的性能。

结合附图7,批量标准化在反向传播过程中,每层权重的更新是在假定其他权重不变的情况下,向损失函数降低的方向调整自己。问题在于,在一次反向传播过程中,所有的权重会同时更新,而且层数越多,相互配合越困难,即Internal Covariate Shift导致学习率很小、学习缓慢。

如果batch size为m,则在前向传播过程中,网络中每个节点都有m个输出,所谓的Batch Normalization,就是对该层每个节点的这m个输出进行归一化再输出。

实现方法可概括为两步1)Standardization:首先对m个x进行Standardization,得到zero mean unit variance的分布x^。2)scale and shift:然后再对x^进行scale andshift,缩放并平移到新的分布y,具有新的均值β方差γ。

使用批量标准化,可以获得如下好处:

1)可以使用更大的学习率,训练过程更加稳定,极大提高了训练速度。2)可以将bias置为0,因为Batch Normalization的Standardization过程会移除直流分量,所以不再需要bias。3)对权重初始化不再敏感,通常权重采样自0均值某方差的高斯分布,以往对高斯分布的方差设置十分重要,有了Batch4)Normalization后,对与同一个输出节点相连的权重进行放缩,其标准差σ也会放缩同样的倍数,相除抵消。5)对权重的尺度不再敏感,理由同上,尺度统一由γ参数控制,在训练中决定。6)深层网络可以使用sigmoid和tanh了,理由同上,BN抑制了梯度消失。7)Batch Normalization具有正则作用,不需要太依赖dropout,减少过拟合。

基于CNN的传感器反馈的应变数据与RGB网络摄像头所获取的视觉数据相融合:

首先可以使用简单的操作(例如级联或加权总和)集成来自不同信息源的矢量化特征,这些操作通常很少或没有关联的参数,因为深度模型的联合训练可以使各层适应高层特征提取的调整进行所需的操作。串联可用于组合低级输入特征或预训练模型提取的高级特征。对于具有标量权重的加权总和,已经提出了一种迭代方法,该方法要求预训练的矢量表示具有相同数量的元素,且其排列顺序适合于逐元素加法。这可以通过训练一个完全连接的层来进行尺寸控制并为每个模态重新排序来实现。

其次可以使用基于注意力的融合来优化模型。注意机制被广泛用于融合。注意机制通常指的是一组标量权重的向量的加权总和,这些向量由一个小的“注意”模型在每个时间步长动态生成。通常使用多个输出来生成用于求和的多组动态权重,这些加权可以通过合并从每个瞥见得出的结果来保留其他信息。当将注意力机制应用于图像时,与不同区域相关的图像特征向量被不同地加权以产生关注的图像向量。

最后可以使用双线程池化来进一步提高模型性能。双线性池化是一种通常用于将视觉特征向量与文本特征向量融合以通过计算其外积来创建联合表示空间的方法,这有利于两个向量中所有元素之间的乘法交互。这种方法也称为二阶合并。与简单的向量组合运算(假设每个向量具有hasnelements)(例如加权总和,逐元素乘法或级联)会产生n维或2n维表示相比,双线性池通过线性化n来生成n2维表示。由外部乘积生成的矩阵转化为向量,这意味着该方法更具表现力。通常使用二维权重矩阵将双线性表示形式线性转换为输出向量,这等效于使用”三维”张量算子将两个输入特征向量融合在一起。计算外部乘积时,可以将每个特征向量扩展为一个附加值1,以在双线性表示中保留单模式输入特征。

以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号