首页> 中国专利> 基于合作网络视线估计方法

基于合作网络视线估计方法

摘要

本发明请求保护一种基于合作网络的视线估计方法,该方法包括步骤:S1,对人脸图像进行预处理,利用MTCNN算法进行人脸检测与人眼区域定位,并提取人眼特征信息;S2,利用基于空间权重的卷积神经网络估计头部姿态;S3,将双眼和面部图像作为输入搭建合作网络CI‑Net;S4,利用C‑Net网络,通过训练,预测眼睛的一致性;S5,利用预测出的一致性通过交叉注意力模块对I‑Net预测出的不一致性进行指导,从而获取双眼视线方向。通过在公开数据集Eyediap和MPIIGaze上进行验证,结果表明,在面部遮挡和双眼不同外观的情况下,CI‑Net比当前主流的CNN算法具有更低的角误差。

著录项

  • 公开/公告号CN114898453A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN202210563724.1

  • 发明设计人 罗元;陈江涛;陈健;

    申请日2022-05-23

  • 分类号G06V40/18(2022.01);G06V40/16(2022.01);G06V10/766(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构重庆市恒信知识产权代理有限公司 50102;

  • 代理人刘小红

  • 地址 400065 重庆市南岸区南山街道崇文路2号

  • 入库时间 2023-06-19 16:22:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06V40/18 专利申请号:2022105637241 申请日:20220523

    实质审查的生效

说明书

技术领域

本发明属于图像处理与模式识别领域,特别是一种基于合作网络的视线估计方法。

背景技术

视线估计是预测视线方向、定位注视点位置的过程。视线估计是计算机视觉领域中的一个重要研究课题,从科学研究到商业应用都有重要的应用价值,在人机交互、教育、商业应用等领域都能发挥不可替代的作用。近年来,得益于深度学习和卷积神经网络的发展和应用,基于外观的视线估计取得了重大的突破。基于外观的方法直接学习从眼睛外观到视线方向的映射函数。他们可以使用一个普通RGB摄像头,在没有明确眼睛特征检测的情况之下估计视线方向,但是由于多变的头部姿态,面部遮挡,光照条件的问题,使得映射函数难以学习,从而大大降低了视线估计的准确率。最近基于CNN的方法大大提高了准确度,然而还不能满足实际需求。我们在几个广泛使用的数据集中发现了大量低质量图像,这些低质量图像会降低视线估计的准确率。在视线估计和数据收集过程中,难免会因为头部姿态,面部遮挡,光照条件等问题而引起的低质量图像。

申请公开号CN113506328A,一种视线估计模型的生成方法和装置、视线估计方法和装置、计算机可读存储介质及电子设备,其中,该方法包括:通过待训练的视线估计模型中的主干网络对样本眼部图像进行预测,得到预测眼部特征;通过待训练的视线估计模型中的重构网络对预测眼部特征进行视线方向预测,得到预测视线方向;基于预测视线方向和标注视线方向确定第一损失函数的参数;基于预测眼部特征和标注眼部特征确定第二损失函数的参数;基于第一损失函数和第二损失函数,训练视线估计模型。本公开实施例实现了将视线预测任务分解为两个预测任务,使训练得到的视线预测模型进行视线预测的过程更加细化,预测精度更高,对使用场景的适应性更佳。

该专利能在一定程度上提升视线估计的准确率,对于高质量图像有良好的估计结果,但是这种方法选择无差别的使用输入特征,忽略了低质量图像对视线估计的影响,而这种劣质图像不仅会影响双眼提取出的一致性,还会影响到单眼视线方向,对于自然场景视线估计鲁棒性差。而本发明则采用注意力机制,有选择地增强和削弱输入特征,对于对视线估计重要的部分分配更大的权重,对于输入劣质图像则分配小的权重。其次,该专利在双眼外观不同的情况下,无法获取准确的双眼视线方向,在自然环境下,由于光照的不同,两只眼睛的外观也存在差异,但总体而言双眼视线方向大体上是一致的,本发明则显式提取这种一致性,并用这种一致性分别指导双眼视线方向的获取。

发明内容

本发明旨在解决以上现有技术的问题。提出了基于合作网络视线估计方法。本发明的技术方案如下:

基于合作网络视线估计方法,其包括以下步骤:

S1,首先对输入图像进行预处理,具体为利用MTCNN算法(多任务级联的卷积神经网络)进行人脸检测与人脸关键点定位,得到人脸信息,并通过人脸关键点得到双眼位置信息;

S2,利用基于空间权重的卷积神经网络估计头部姿态;

S3,将双眼和面部图像作为输入分别搭建C-Net和I-Net,C-Net为一致性估计网络,用于估计视线的主要方向;I-Net为不一致性估计网络,用于估计双眼方向的剩余残差。并其中I-Net的输入只包含双眼图像;

S4,利用C-Net网络,在C-Net中加入估计到的头部姿态,通过训练,预测眼睛的一致性;

S5,利用预测出的一致性通过交叉注意力模块对I-Net预测出的不一致性进行指导,从而获取双眼视线方向。

进一步的,所述步骤S1利用MTCNN算法(多任务级联的卷积神经网络)进行人脸检测与人眼区域定位,并提取人眼特征信息,具体包括:

MTCNN通过三个阶段相互独立的网络结构级联而成,每个阶段的网络都是一个多任务网络,包括P-Net、R-Net和O-Net三个子网络,分别处理三个任务,人脸/非人脸判断、人脸框回归和五个人脸特征点回归。

对于人脸图像采用MTCNN算法进行人脸检测的同时实现瞳孔中心粗定位定位,并通过图像梯度法对瞳孔中心进行二次定位,从而获取准确的瞳孔中心位置。

进一步的,基于图像梯度法瞳孔定位是利用图像梯度向量场的向量方向在瞳孔中心相交的原理,计算图像的各个点的梯度向量和位置向量的内积,找到平均值最大的点的作为瞳孔中心点。但该方法容易受到某些图像边缘梯度变化同样明显的眉毛等干扰区域的影响。因此,在MTCNN对瞳孔中心粗定位的前提下,使用图像梯度法能获取更准确的瞳孔中心位置。

进一步的,所述步骤S2利用基于空间权重的卷积神经网络估计头部姿态,具体包括:

在普通VGG-16网络中嵌入一个空间权重模块,空间权重模块主要包括三个1×1的卷积层和Relu层,得到权重得分图,最后将输入特征图与权重得分图相乘以达到特征图权重再分配的目的。

进一步的,所述S3,将双眼和面部图像作为输入分别搭建一致性估计网络C-Net和不一致性估计网络I-Net,具体包括:

C-Net(一致性估计网络),C-Net的主干网络主要包括5个常规卷积层与四个膨胀卷积层,将人脸图像与双眼图像作为输入,在第四层膨胀卷积层后面加入Fca-block模块,用于人脸图像与双眼图像高级特征的权重再分配,最终得到双眼视线方向的主要方向;I-Net(不一致性估计网络),I-Net的主干网络主要包括5个常规卷积层与四个膨胀卷积层,与C-Net同,I-Net只输入双眼图像,在不加入Fca-block模块的情况下加入交叉注意力模块,交叉注意力模块主要是通过C-Net提取到的高质量的一致性来指导修正I-Net中剩余残差,最终合作得到准确的双眼视线方向。

采用基于卷积神经网络的方法,将3×64×96的眼睛图像和3×96×96面部图像I作为输入,其中3表示眼睛图像的通道数,64×96表示眼睛图像的大小,96×96表示面部图像的大小;对图像进行预处理后,应用到卷积层,并将得到的特征图谱输入全连接层,最后在全连接层通过训练一个线性回归得到初步视线方向,CI-Net损失函数为:

其中,g

进一步的,所述S4,利用C-Net网络,在C-Net中加入估计到的头部姿态,通过训练,预测眼睛的一致性,具体包括:

C-net和I-net共同组成CI-net,用合作网络CI-Net对视线方向进行估计;

所述CI-Net采用一致性估计网络与不一致性估计网络并行的结构,并行结构的每个分支都由膨胀卷积层组成,使用膨胀卷积层代替普通卷积与池化层,并且每个卷积层都经过批处理归一化和ReLU单元;经过膨胀卷积后通过注意力机制重新分配双眼与人脸之间的特征的权重,最后经过交叉注意力模块使用一致性对不一致性进行修正,获取双眼视线方向。

进一步的,所述通过注意力机制重新分配双眼与人脸之间的特征的权重,最后经过交叉注意力模块使用一致性对不一致性进行修正,获取双眼视线方向。

使用来自C-Net提取出的特征作为Key和Value,使用来自I-Net中提取的特征作为Query。由于注意力机制的性质,I-Net会自行从C-Net中获取信息,从而改善上述两种情况。其中Cross attention的输出公式如下:

其中,d

进一步的,所述合作网络选择ReLU函数作为卷积层和全连接层的激活函数,其公式表示为:

f(x)=max(0,x) (2)

其中,x是输入,f(x)是经过ReLU单元之后的输出。

本发明的优点及有益效果如下:

本发明的主要创新集中在S2、S3、S4、S5四个部分。本文使用交叉注意力机制联合了人眼视线的两个特性:一致性与不一致性,将两者结合从而获取准确率较高的视线方向。而两个特性通过交叉注意力结合,并且使用了膨胀卷积与注意力机制提取了高质量的一致性。针对由于劣质图像的存在而导致无法得到高质量的真实注视视线方向的问题,本发明设计了一致性估计网络,将双眼与面部图像作为输入,采用膨胀卷积扩大感受野的同时,加入Fca-block模块,用于面部特征和双眼特征的权重再分配。对输入特征进行有选择地增强与抑制。

针对由于双眼不同外观而无法获取准确的双眼视线方向的问题,本发明设计了不一致性估计网络,在保证高质量一致性的同时,通过Cross attention模块对双眼视线方向的剩余残差进行指导修正,这样对于低质量眼睛图像也能有一个准确的估计效果。

附图说明

图1是本发明提供优选实施例基于合作网络的视线估计框架图;

图2为CI-Net具体结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是:

如图1和2所示,基于合作网络视线估计方法。在所设计的模型中,分别搭建两个合作子网络C-Net和I-Net分别提取双眼与面部图像的一致性与不一致性,在保证高质量一致性的情况下,使用交叉注意力模块是的I-Net可以有选择地从C-Net中提取信息,从而得到更为准确的双眼视线方向,具体包括以下步骤:

S1,对人脸图像进行预处理,利用MTCNN算法进行人脸检测与人眼区域定位,并提取人眼特征信息;具体为,对于人脸图像采用MTCNN算法进行人脸检测的同时实现瞳孔中心粗定位定位,并通过图像梯度法对瞳孔中心进行二次定位,从而获取准确的瞳孔中心位置。

S2,利用基于空间权重的卷积神经网络估计头部姿态;

S3,将双眼和面部图像作为输入分别搭建C-Net和I-Net,并其中I-Net的输入只包含双眼图像;上述基于合作网络视线估计方法,具体为采用基于卷积神经网络的方法,将3@64×96的眼睛图像和3@96×96面部图像I作为输入,其中3表示眼睛图像的通道数,64×96表示眼睛图像的大小,96×96表示面部图像的大小。对图像进行预处理后,应用到卷积层,并将得到的特征图谱输入全连接层,最后在全连接层通过训练一个线性回归得到初步视线方向。其损失函数为:

其中,

S4,利用C-Net网络,在C-Net中加入估计到的头部姿态,通过训练,预测眼睛的一致性;上述基于合作网络视线估计方法主要是针对视线估计数据集中眼睛区域定位不良,遮挡和头部姿态异常而导致的低质量图像。本发明使用合作网络CI-Net对视线方向进行估计

S5,利用预测出的一致性通过交叉注意力模块对I-Net预测出的不一致性进行指导,从而获取双眼视线方向。基于合作网络的视线估计方法其网络内部结构具体为:CI-Net采用一致性估计网络与不一致性估计网络并行的结构,而并行结构的每个分支都由膨胀卷积层组成,使用膨胀卷积层代替普通卷积与池化层,并且每个卷积层都经过批处理归一化和ReLU单元。经过膨胀卷积后通过一个注意力机制重新分配双眼与人脸之间的特征的权重,最后经过交叉注意力模块使用一致性对不一致性进行修正,获取双眼视线方向。

并且基于合作网络的视线估计方法选择ReLU函数作为卷积层和全连接层的激活函数,其公式表示为:

f(x)=max(0,x) (4)

其中,x是输入,f(x)是经过ReLU单元之后的输出。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号