法律状态公告日
法律状态信息
法律状态
2022-08-19
专利权的转移 IPC(主分类):G06K 9/00 专利号:ZL2016100891912 登记生效日:20220809 变更事项:专利权人 变更前权利人:陕西师范大学 变更后权利人:江苏思远集成电路与智能技术研究院有限公司 变更事项:地址 变更前权利人:710062 陕西省西安市长安南路199号 变更后权利人:213164 江苏省常州市武进科教城江南现代工业研究院5楼
专利申请权、专利权的转移
2018-12-07
授权
授权
2016-06-22
实质审查的生效 IPC(主分类):G06K9/00 申请日:20160217
实质审查的生效
2016-05-25
公开
公开
技术领域
本发明属于图像处理及模式识别的技术领域,具体地涉及一种对人体面部微笑表情深度卷积 神经网络的检测方法。
背景技术
作为人类情感表达的重要方式之一,微笑常常代表着人们快乐、欢喜、满意等情绪。人们能 够一眼看出其他人的快乐心情,如果计算机也能自动解读人的情绪,计算机将会为人类提供更全 面的服务。近年来,微笑自动检测技术逐渐得到研究人员和服务行业的关注,并渗透于人们日常 生活的各个技术领域。例如,2013年,巴塞罗那一家喜剧俱乐部Teatreneu利用平板电脑通过识 别人脸表情实行“按微笑收费”,这种创新实效的举措赢得了用户的青睐,并使得俱乐部的收入 飙涨。再如,2007年,在索尼公司的SONYT200数码相机中,提供了由索尼和欧姆龙公司合作开发 出来“微笑快门”用来捕捉刹那间笑容。此后,索尼爱立信将该功能引入到Cyber-shot系列手机 W61S。但是,一般来说“微笑快门”灵敏度尚不理想。
目前,人们对微笑表情识别方法开始考虑遮挡和噪声的影响,比如身份、年龄、性别、姿态、 光照、遮挡、拍摄环境、图像质量等因素。由于面部微笑表情易受多种客观因素影响,使得微笑 表情特征复杂多变,难以人为的设计特征,因此,微笑表情识别成为一项具有挑战性的研究课题。
现有人脸表情识别多是对人脸正面成像的图像进行分析,用一种或多种特征融合的方法识别 人脸表情,因此特征提取和选择算法不可避免的损失了部分信息,且易受人脸角度姿态、尺度变 化和噪声干扰。
发明内容
本发明所要解决的技术问题在于克服现有技术的缺点,提供一种设计特征简单、全面、检测 准确率高、检测速度快的对人体面部微笑表情深度卷积神经网络的检测方法。
解决上述技术问题所采用的技术方案它是由训练步骤和测试步骤组成,本发明的训练步骤为:
(1)对训练样本图像进行预处理
包括图像灰度化、嘴巴子图定位、大小归一化以及亮度调节步骤;
图像灰度化:用(1)式对被训练的样本图像进行灰度化处理,将彩色图像转为灰度图像:
I=Wr×R+Wg×G+Wb×B(1)
式中I为灰度化后的亮度,R为彩色图像的红色分量,G为彩色图像的绿色分量,B为彩色图像的 蓝色分量,Wr为彩色图像的红色分量的权重,Wg为彩色图像的绿色分量的权重,Wb为彩色图 像的蓝色分量的权重。
嘴巴子图定位:用五个关键点横坐标的平均值作为中心点的横坐标x,用五个关键点纵坐标的 平均值作为中心点的纵坐标y,用欧式距离或曼哈顿距离或棋盘距离计算五个关键点到中心点的距 离;计算上述五个距离的最大距离D或平均距离D或最小距离D,以((x-(0.75~0.77)D),y)为左 上角,裁剪成宽为(1.5~1.58)D、高为(1.7~1.78)D的矩形,得到嘴巴子图。
嘴巴子图大小归一化:将上述嘴巴子图用双三次插值法或B样条插值法或三次样条插值法或 等距插值法或四次样条插值法或拉格朗日插值法,归一化为32×32嘴巴子图,像素总个数为322。
对嘴巴子图进行亮度调节:采用自适应亮度调节法或分段线性拉伸法或直方图均衡化算法, 获得亮度调节后的嘴巴子图。
自适应亮度调节法,用(4)式计算32×32嘴巴子图的直方图h(x)累加和与像素总个数的比值 cdf(x):
式中x∈[0,255],在cdf(x)中寻找第一个大于0.01的索引值ilow和第一个大于0.99的索引值ihigh。
用(5)式得到亮度范围[low,high]:
low=(ilow-1)/255,high=(ihigh-1)/255(5)
用(6)式计算调节后的亮度值J
J=(tmp-low)/(high-low)(6)
式中tmp=max(low,min(high,I)),I为灰度化后的亮度,得到32×32标准嘴巴图像。
(2)训练卷积神经网络
将训练样本预处理后得到的32×32标准嘴巴图像输入卷积神经网络,经前向传播和反向传播 两个步骤反复循环至达到设定的最大迭代次数,得到卷积神经网络和训练样本的多尺度特征。
(3)训练支持向量机分类器
把多尺度特征输入支持向量机,支持向量机根据多尺度特征寻找最优分类超平面,得到支持 向量机分类器,该分类器的输出是1或0,1为微笑,0为不微笑。
本发明的测试步骤为:
(1)对测试样本图像进行预处理
测试样本图像的预处理与对训练样本图像进行预处理步骤(1)相同。
(2)用预处理后的测试样本输入到卷积神经网络中,提取测试样本的多尺度特征。
(3)将多尺度特征输入到支持向量机分类器中,得到检测结果,即是否微笑。
本发明的卷积神经网络的结构为:输入层是32×32的标准嘴巴图像;C1层是第一个卷积层, 有10个28×28的特征图,每个特征图中的1个像素点与输入层的1个5×5区域相连接,共 (5×5+1)×10=260个训练参数;S2层是下2采样层,有10个14×14特征图,每个特征图中的1个 像素点与C1层相应特征图的1个2×2区域相连接,共1×10个偏置参数;C3层是第二个卷积层, 有12个10×10的特征图,每个特征图中的1个像素点与S2层相应的1个5×5区域相连接,共 (5×5+1)×10×12=3120个参数;S4层为第二个下2采样层,有12个5×5的特征图,共1×12个偏置 参数;F5层是S4中12个5×5的特征图以列序为主序依次排列生成的1个300维的多尺度特征; 输出层由2个结点1和0组成,F5层与输出层之间全连接,共300×2=600个参数;该深度卷积神 经网络共260+10+3120+12+600=4002个参数,通过前向传播和反向传播反复循环至达到设定的最 大迭代次数,确定网络参数。
本发明的支持向量机为:支持向量机的核函数选择径向基函数,其参数gamma=0.05,支持向 量机的输入是从卷积神经网络得到的多尺度特征,输出是1或0,1为微笑,0为不微笑。
本发明的多尺度特征的生成过程为:将32×32的标准嘴巴图像输入到卷积神经网络的输入层 中,经C1层、S2层、C3层和S4层的2次卷积和下2采样,得到12个5×5的特征图,以列序为 主序依次排列生成的1个300维的多尺度特征。
本发明针对真实场景下拍摄的不同姿态、光照和胡须等干扰的人脸图像,采用卷积神经网络 的自动学习能力,从大量样本图像中自动地提取微笑特征,避免了人工设计特征的复杂性和片面 性,再利用支持向量机分类器进行微笑检测,提高了检测的准确率,可用于新产品用户体验评价、 服务人员微笑服务评价、相机微笑快门控制及照片选择等。
附图说明
图1是本发明实施例1对人体面部微笑表情深度卷积神经网络的检测方法流程图。
图2是图1中测试步骤的流程图。
图3是经过预处理后部分32×32的标准嘴巴图像。
图4是深度卷积神经网络的结构图。
图5是非正面成像的测试样本人体面部微笑表情的检测结果图。
图6是人体面部有胡须的测试样本微笑表情的检测结果图。
具体实施方式
下面结合具体附图和实例对本发明进行进一步的说明,但本发明不限于下述实例。
实施例1
本实施例的人脸图像来自多任务人脸标注(theMulti-TaskFacialLandmark,MTFL)数据库,该库包括 12995幅人脸图像,其中10000幅图像为训练样本,2995幅图像为测试样本。
本实施例微笑表情深度卷积神经网络的检测方法由训练步骤和测试步骤组成,训练步骤如下:
1、对10000幅训练样本图像进行预处理
包括图像灰度化、嘴巴子图定位、大小归一化以及亮度调节步骤;
10000幅图像灰度化:用(1)式对被训练的样本图像进行灰度化处理,将彩色图像转为灰度 图像:
I=0.2989×R+0.5870×G+0.1140×B(1)
式中I为灰度化后的亮度,R为彩色图像的红色分量,G为彩色图像的绿色分量,B为彩色图像的 蓝色分量。
10000幅嘴巴子图定位:用五个关键点横坐标的平均值作为中心点的横坐标x,用五个关键点 纵坐标的平均值作为中心点的纵坐标y,用(2)式计算五个关键点到中心点的欧式距离:
di=((xi-x)2+(yi-y)2)0.5(2)
式中i=1,2,3,4,5,分别为左眼、右眼、左嘴角、右嘴角和鼻子五个关键点,di分别为五个关键点到 中心点的欧式距离,xi分别为五个关键点的横坐标,yi分别为五个关键点的纵坐标。用(3)式计 算上述五个距离的最大距离:
D=max(d1,d2,d3,d4,d5)(3)
以((x-0.75D),y)为左上角,裁剪成宽为1.5D、高为1.7D的矩形,得到嘴巴子图。
10000幅嘴巴子图大小归一化:将上述嘴巴子图用双三次插值法归一化为32×32的图像,像 素总个数为322。
对10000幅嘴巴子图进行亮度调节:采用自适应亮度调节法,用(4)式计算32×32嘴巴子图的 直方图h(x)累加和与像素总个数的比值cdf(x):
式中x∈[0,255],在cdf(x)中寻找第一个大于0.01的索引值ilow和第一个大于0.99的索引值ihigh。
用(5)式得到亮度范围[low,high]:
low=(ilow-1)/255,high=(ihigh-1)/255(5)
用(6)式计算调节后的亮度值J
J=(tmp-low)/(high-low)(6)
式中tmp=max(low,min(high,I)),I为灰度化后的亮度,得到10000幅32×32标准嘴巴图像。
2、训练卷积神经网络
训练卷积神经网络的参数设定为:10000幅训练样本分批训练,每批图像50幅,学习步长设 为0.8,最大迭代次数为200。
将10000幅训练样本预处理后得到的10000幅32×32标准嘴巴图像输入卷积神经网络,经前 向传播和反向传播两个步骤反复循环至达到设定的最大迭代次数,得到卷积神经网络和10000幅 训练样本的多尺度特征,多尺度特征的生成过程按照卷积神经网络进行具体设计。
本实施例的卷积神经网络的结构为:输入层是10000幅32×32的标准嘴巴图像;C1层是第一 个卷积层,有10个28×28的特征图,每个特征图中的1个像素点与输入层的1个5×5区域相连接, 共(5×5+1)×10=260个训练参数;S2层是下2采样层,有10个14×14特征图,每个特征图中的1 个像素点与C1层相应特征图的1个2×2区域相连接,共1×10个偏置参数;C3层是第二个卷积层, 有12个10×10的特征图,每个特征图中的1个像素点与S2层相应的1个5×5区域相连接,共 (5×5+1)×10×12=3120个参数;S4层为第二个下2采样层,有12个5×5的特征图,共1×12个偏置 参数;F5层是S4中12个5×5的特征图以列序为主序依次排列生成的1个300维的多尺度特征。 输出层由2个结点1和0组成,F5层与输出层之间全连接,共300×2=600个参数;该深度卷积神 经网络共260+10+3120+12+600=4002个参数,通过前向传播和反向传播反复循环至达到设定的最 大迭代次数,确定网络参数。这种网络结构一方面保存了更多的表情细节,另一方面降低了网络 的复杂度,减少了运算量。
本实施例的多尺度特征的生成过程为:将32×32的标准嘴巴图像输入到卷积神经网络的输入 层中,经C1层、S2层、C3层和S4层的2次卷积和下2采样,得到12个5×5的特征图,以列序 为主序依次排列生成的1个300维的多尺度特征。这种通过卷积神经网络自动提取的特征避免了 人为选择特征的片面性和复杂性。
3、训练支持向量机分类器
支持向量机的核函数选择径向基函数,其参数gamma=0.05。
把10000幅训练样本的多尺度特征输入支持向量机,支持向量机根据多尺度特征寻找最优分 类超平面,得到支持向量机分类器,该分类器的输出是1或0,1为微笑,0为不微笑;10000幅 样本图像的多尺度特征训练支持向量机的时间为30秒。
测试步骤如下:
1、对测试样本图像进行预处理
2995幅测试样本图像的预处理与10000幅训练样本图像的预处理步骤相同。
2、用预处理后的2995幅测试样本输入到卷积神经网络中,提取2995幅测试样本的多尺度特 征;
从每个测试样本的C1层得到10个28×28的特征图,S2层得到10个14×14的特征图,C3层 得到12个10×10的特征图,S4层得到12个5×5的特征图,F5层得到1个300维的多尺度特征。 对2995幅样本图像特征提取时间为20秒。
3、将2995幅测试样本图像的多尺度特征输入到支持向量机分类器中,得到检测结果,即是 否微笑。2995幅测试样本图像的平均分类时间为2.3毫秒/每幅。
本实施例中,从2995幅测试样本图像中选2幅测试样本图像结果,见图5、图6,图5是非 正面成像的测试样本人体面部微笑表情的检测结果,支持向量机分类器的输出为1,人体面部呈现 微笑表情。图6是人体面部有胡须的测试样本微笑表情的检测结果,支持向量机分类器的输出为0, 人体面部呈现非微笑表情。
实施例2
本实施例的人脸图像来自多任务人脸标注(theMulti-TaskFacialLandmark,MTFL)数据库。该库包括 12995幅人脸图像,其中10000幅图像为训练样本,2995幅图像为测试样本。
本实施例微笑表情深度卷积神经网络的检测方法由训练步骤和测试步骤组成,训练步骤如下:
1、对10000幅训练样本图像进行预处理
包括图像灰度化、嘴巴子图定位、大小归一化以及亮度调节步骤;
10000幅图像灰度化:用(7)式对被训练的样本图像进行灰度化处理,将彩色图像转为10000 幅灰度图像:
I=(R+G+B)/3(7)
式中I为灰度化后的亮度,R为彩色图像的红色分量,G为彩色图像的绿色分量,B为彩色图像的 蓝色分量。
10000幅嘴巴子图定位:用五个关键点横坐标的平均值作为中心点的横坐标x,用五个关键点 纵坐标的平均值作为中心点的纵坐标y,用(8)式计算五个关键点到中心点的曼哈顿距离:
di=|xi-x|+|yi-y|(8)
式中i=1,2,3,4,5,分别为左眼、右眼、左嘴角、右嘴角和鼻子五个关键点,di分别为五个关键点到 中心点的曼哈顿距离,xi分别为五个关键点的横坐标,yi分别为五个关键点的纵坐标。
用(9)式计算上述五个距离的平均距离:
D=(d1+d2+d3+d4+d5)/5(9)
以((x-0.76D),y)为左上角,裁剪成宽为1.54D、高为1.74D的矩形,得到10000幅嘴巴子图。
10000幅嘴巴子图大小归一化:将上述嘴巴子图用B样条插值法,归一化为32×32的图像, 像素总个数为322。也可用三次样条插值法,也可用等距插值法,也可用四次样条插值法,还可用 拉格朗日插值法等,得到归一化为32×32的图像,像素总个数为322。
对10000幅嘴巴子图进行亮度调节:采用分段线性拉伸法对10000幅嘴巴子图进行亮度调节, 还可以用直方图均衡化算法对10000幅嘴巴子图进行亮度调节,得到10000幅32×32标准嘴巴图 像。
2、训练卷积神经网络
训练卷积神经网络的参数设定为:10000幅训练样本分批训练,每批图像100幅,学习步长设 为0.5,最大迭代次数为100。
将10000幅训练样本预处理后得到的10000幅32×32标准嘴巴图像输入卷积神经网络,经前 向传播和反向传播两个步骤反复循环至达到设定的最大迭代次数,得到卷积神经网络和训练样本 的多尺度特征,多尺度特征的生成过程按照卷积神经网络进行具体设计。
本实施例的卷积神经网络的结构与实施例1相同,多尺度特征的生成过程与实施例1相同, 得到10000个300维的多尺度特征。这种通过卷积神经网络自动提取的特征避免了人为选择特征 的片面性和复杂性。
3、训练支持向量机分类器
训练支持向量机分类器步骤与实施例1相同。
本实施例的测试步骤与实施例1相同。
实施例3
本实施例的人脸图像来自多任务人脸标注(theMulti-TaskFacialLandmark,MTFL)数据库。该库包括 12995幅人脸图像,其中10000幅图像为训练样本,2995幅图像为测试样本。
本实施例微笑表情深度卷积神经网络的检测方法由训练步骤和测试步骤组成,训练步骤如下:
1、对10000幅训练样本图像进行预处理
包括图像灰度化、嘴巴子图定位、大小归一化以及亮度调节步骤。
10000幅图像灰度化:该步骤与实施例1相同,得到10000幅灰度图像。
10000幅嘴巴子图定位:用五个关键点横坐标的平均值作为中心点的横坐标x,用五个关键点 纵坐标的平均值作为中心点的纵坐标y,用(10)式计算五个关键点到中心点的棋盘距离:
di=max(|xi-x|,|yi-y|)(10)
式中i=1,2,3,4,5,分别为左眼、右眼、左嘴角、右嘴角和鼻子五个关键点,di分别为五个关键点到 中心点的棋盘距离,xi分别为五个关键点的横坐标,yi分别为五个关键点的纵坐标。
用(11)式计算上述五个距离的最小距离:
D=min(d1,d2,d3,d4,d5)(11)
以((x-0.77D),y)为左上角,裁剪成宽为1.58D、高为1.78D的矩形,得到10000幅嘴巴子图。
10000幅嘴巴子图大小归一化、对10000幅嘴巴子图进行亮度调节步骤与实施例1相同,得到 10000幅32×32标准嘴巴图像。
2、训练卷积神经网络
训练卷积神经网络的参数设定为:10000幅训练样本分批训练,每批图像150幅,学习步长设 为1.0,最大迭代次数为300。
将10000幅训练样本预处理后得到的10000幅32×32标准嘴巴图像输入卷积神经网络,经前 向传播和反向传播两个步骤反复循环至达到设定的最大迭代次数,得到卷积神经网络和10000幅 训练样本的多尺度特征,多尺度特征的生成过程按照卷积神经网络进行具体设计。
本实施例的卷积神经网络的结构与实施例1相同,多尺度特征的生成过程与实施例1相同, 得到10000个300维的多尺度特征。这种通过卷积神经网络自动提取的特征避免了人为选择特征 的片面性和复杂性。
3、训练支持向量机分类器
训练支持向量机分类器步骤与实施例1相同。
本实施例的测试步骤与实施例1相同。
机译: 基于视频传感器的人体运动,面部表情建模和识别方法,该方法通过使用深度图像提高识别率
机译: 面部表情检测方法,装置和系统,面部表情驱动方法,装置和系统以及存储介质
机译: 面部表情检测方法,装置和系统,面部表情驱动方法,装置和系统以及存储介质