法律状态公告日
法律状态信息
法律状态
2016-08-10
授权
授权
2013-12-18
实质审查的生效 IPC(主分类):G06K9/62 申请日:20130719
实质审查的生效
2013-11-20
公开
公开
技术领域
本发明涉及一种多通道信息融合的情感识别方法,特别涉及一种基于线索 神经网络的语音-视觉融合情感识别方法,属于自动情感识别领域。
背景技术
各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使 用离散类别方法表示(如Ekman提出的6种基本情感类别),或者使用连续维度 方法表示(如activation-evaluation空间方法),或者使用基于评价的方法表示。 脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情 感状态。研究人员已经针对单模态情感识别与分析做了很多工作。
融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语 音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用 的数据融合方法大都可以归为以下三类:特征层融合、模型层融合和决策层融 合。模型层融合使用了多个数据流之间的关联信息,可能是该融合问题的最佳 选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition Through Multistream Fused HMM》(IEEE TRANSACTIONS ON MULTIMEDIA,vol.10, no.4,June2008)中提出了一种多流融合HMM(MFHMM)方法,根据最大熵 和最大相互信息准则,建立多个语音-视觉流间的优化连接。MFHMM通过将一 个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量 HMM。他们接着在文献《Training Combination Strategy of Multi-Stream Fused Hidden Markov Model for Audio-Visual Affect Recognition》(Proc.14th ACM Int’l Conf.Multimedia(Multimedia’06),pp.65-68,2006.)中扩展了该框架,采用训练 组合策略,使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis 等人在文献《Audiovisual Discrimination between Laughter and Speech》(IEEE Int’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120, 2008.)中使用神经网络来合并语音-视觉通道的信息。总的来讲,这些方法在自 然情感识别中还未达到令人满意的识别准确率。
发明内容
本发明的目的是为了解决已有技术存在的识别率不高的问题,提出一种基 于线索神经网络的语音-视觉融合情感识别方法。
本发明的目的是通过下述技术方案实现的。
一种基于线索神经网络的语音-视觉融合情感识别方法,用于识别情感视频 中人的情感,其识别过程包括2部分:训练过程和识别过程。
所述训练过程的具体实施步骤包括步骤一至步骤四,具体为:
步骤一、建立神经网络分类器。
所述神经网络分类器为包含输入层、隐含层和输出层的三层结构神经网络。 其输入层的节点数用符号nI表示,当所述神经网络分类器的输入为人的正面视 角特征数据和侧面视角特征数据时,nI=nS,10≤nS≤80;当所述神经网络分类 器的输入为语音特征数据时,nI=nY,20≤nY≤200。所述神经网络分类器隐含层 的节点数用符号nH表示,4≤nH≤10。所述神经网络分类器输出层包含2种节点, 分别称为情感类别输出节点和线索节点。输出层的节点数用符号nO表示, nO=nL+nX。其中,nL表示情感类别输出节点的数量,每个情感类别输出节点对 应一种情感类别,2≤nL≤15。nX表示线索节点的数量,在训练阶段,nX的取值 为4,并且4个线索节点分别对应活跃度-评价度(activation-evaluation)空间上的 4种粗粒度情感类别,即活跃度-评价度(activation-evaluation)空间上的四个象 限,分别为:积极-正、消极-正、积极-负、消极-负。其中,积极和消极是活 跃度-评价度(activation-evaluation)空间中活跃度维度上的两个取值,正和负是 活跃度-评价度(activation-evaluation)空间中评价度维度上的两个取值。
所述神经网络分类器为nI-nH-nO完全连接的拓扑结构。
步骤二、在步骤一的基础上,使用第一训练样本集里的训练样本中人的正 面视角特征数据、侧面视角特征数据和语音特征数据分别训练一个神经网络分 类器。
第一训练样本集里包含nL种情感的训练数据,nL种情感中包含中性情感; 每种情感的训练数据由多个训练样本对组成,每种情感的训练样本对的数量不 小于20个。每个训练样本对由2条情感视频组成,分别为同步拍摄的正面视频和 侧面视频。正面视频是包含人的正面脸部表情和语音的视频数据,侧面视频是 包含人的侧面脸部表情的视频数据。每条情感视频都开始于中性表情。
第一训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一 种是离散的情感类别标注,另一种是在活跃度-评价度(activation-evaluation)空 间的4种粗粒度情感类别标注。并且,每个训练样本对中的正面视频和侧面视频 在离散的情感类别上的标注结果是一致的,在活跃度-评价度 (activation-evaluation)空间的粗粒度情感类别上的标注结果也是一致的。
所述使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面视 角特征数据和语音特征数据分别训练一个神经网络分类器的过程为:
步骤2.1:依次对第一训练样本集里的每个训练样本对中的正面视频做预处 理,得到正面视角特征数据和语音特征数据;对第一训练样本集里的每个训练 样本对中的侧面视频做预处理,得到侧面视角特征数据。
所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到 正面视角特征数据的操作步骤为:
步骤a.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nS帧图 像,构成一个正面视角图像序列。
步骤a.2:在步骤a.1中得到的正面视角图像序列中的第一帧图像中标识出 20个正面脸部特征点;其中,第1、2正面脸部特征点分别位于右边眉毛和左边 眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4正面脸部特征点分别位 于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6正面 脸部特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6) 表示;第7、8正面脸部特征点分别位于右边眼睛和左边眼睛的最低点,分别用 (x7,y7)、(x8,y8)表示;第9、10正面脸部特征点分别位于右边眼睛和左边眼睛的 外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12正面脸部特征点分别位于 右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14正面 脸部特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、 (x14,y14)表示;第15正面脸部特征点位于鼻尖位置,用(x15,y15)表示;第16、17 正面脸部特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用 (x16,y16)、(x17,y17)表示;第18、19正面脸部特征点分别位于唇部中心线与唇部 轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20正面脸部 特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
所述标识20个正面脸部特征点的方法包括:①人工手动标识;②使用基于 Gabor特征的增强分类器方法实现对20个正面脸部特征点的自动定位。
步骤a.3:根据步骤a.2中得到的正面视角图像序列中的第一帧图像中的20 个正面脸部特征点的位置,定位出该正面视角图像序列中除第一帧图像以外的 后续帧图像中的20个正面脸部特征点。
所述定位出正面视角图像序列中除第一帧图像以外的后续帧图像中的20个 正面脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子滤 波跟踪算法实现对20个正面脸部特征点的自动跟踪。
步骤a.4:依次计算步骤a.2中得到的正面视角图像序列中各帧图像的10个 正面脸部表情特征值T1至T10,具体为:(1)两眼宽度的平均值,用T1表示, T1=(|x9-x5|+|x10-x6|)/2;(2)两眼高度的平均值,用T2表示, T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示, T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示, T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示, T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示, T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示, T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高 度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表 情特征值T8至T10的影响,步骤a.4中所述计算正面脸部表情特征值T8至T10的优 选方法是:在步骤a.4操作的基础上,在每个图像序列中的第n帧图像中, 1<n<nS,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1) 帧图像中的均值来替换。
步骤a.5:使用步骤a.4中得到的正面视角图像序列中每帧图像的10个正面 脸部表情特征值T1至T10构成该图像的特征向量,用符号Fq表示, Fq=[fq1,fq2,...,fq10]T。其中,1≤q≤nS,fq1为所述正面视角图像序列的第q帧图 像中第1个正面脸部表情特征值T1,fq2为所述正面视角图像序列的第q帧图像 中第2个正面脸部表情特征值T2,……,以此类推,fq10为所述正面视角图像序 列的第q帧图像中第10个正面脸部表情特征值T10。
步骤a.6:计算第一训练样本集中所有正面视频得到的正面视角图像序列中 第一帧图像的特征向量的均值,用符号表示,其中,表 示第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的第 k个特征值的均值,1≤k≤10。
步骤a.7:使用Fq和之间的欧几里得距离表示步骤a.1中所述正面视角图像 序列中第q帧图像的特征。Fq和之间的欧几里得距离用符号DF(q)表示。DF(q) 可通过公式(1)得到。
步骤a.8:步骤a.1中所述正面视角图像序列中nS帧图像的特征DF(q)组成了 该正面视频的正面视角特征数据。
所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到 语音特征数据的操作步骤为:
步骤b.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nY个语 音帧,构成一条语音序列。
步骤b.2:依次从步骤b.1得到的语音序列的每个语音帧中提取α个音频特 征值,分别用F1~Fα表示,α≥4。
所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率; 线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCC);线谱对参数 (Line Spectrum Pair,LSP);Mel频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC);感知线性预测倒谱系数(Perceptual Linear Prediction Cepstral Coefficients,PLPCC)。
步骤b.3:从步骤b.2中所述语音序列里的一个语音帧提取的α个音频特征 值组成一个音频特征向量,用Vt表示,Vt=[f′t1,f′t2,……,f′tα]T,1≤t≤nY。f′t1为步骤 所述语音序列的第t帧语音帧中第1个音频特征值F1,f′t2为所述语音序列的第t帧 语音帧中第2个音频特征值F2,……,以此类推,f′tα为所述语音序列的第t帧语 音帧中第α个音频特征值Fα。
步骤b.4:从第一训练数据集里找出与步骤b.1中所述正面视频中的音频为同 一发声人物的所有中性情感的正面视频,并计算出由这些正面视频得到的语音 序列中各语音帧对应的音频特征向量的均值,用符号表示,其中,表示由第一训练样本集中所有与步骤b.1中所述正面视频中的音频为同 一发声人物的所有中性情感的正面视频得到的语音序列中各语音帧的第i个特 征值的均值,1≤i<α。
步骤b.5:使用步骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向 量的均值之间的距离表示步骤b.1得到的语音序列的第t个语音帧的特征。步 骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向量的均值之间的距 离用符号DV(t)表示,DV(t)可通过公式(2)得到。
步骤b.6:步骤b.1中所述语音序列中nY个语音帧的特征DV(t)组成了该正面视 频的语音特征数据。
所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理,得到 侧面视角特征数据的操作步骤为:
步骤c.1:从所述训练样本对中的侧面视频中以均等的时间间隔提取nS帧图 像,构成一个侧面视角图像序列。
步骤c.2:在步骤c.1中得到的侧面视角图像序列中的第一帧图像中标识出 6个侧面脸部特征点;其中,第1侧面脸部特征点位于眉头位置,用(x1′,y1′)表示; 第2侧面脸部特征点位于鼻尖位置,用(x′2,y′2)表示;第3侧面脸部特征点分别位 于上唇与侧面脸部轮廓线相交的交点位置,用(x3′,y3′)表示;第4侧面脸部特征点 位于嘴角位置,用(x′4,y′4)表示;第5侧面脸部特征点位于下唇与侧面脸部轮廓线 相交的交点位置,用(x5′,y5′)表示;第6侧面脸部特征点位于耳孔位置,用(x′6,y′6) 表示。
所述标识6个侧面脸部特征点的方法包括:人工手动标识。
步骤c.3:根据步骤c.2中得到的侧面视角图像序列中的第一帧图像中的6 个侧面脸部特征点的位置,定位出该侧面视角图像序列中除第一帧图像以外的 后续帧图像中的6个侧面脸部特征点。
所述定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6 个侧面脸部特征点的方法包括:①人工手动标识;②使用基于分解概率的粒子 滤波跟踪算法实现对6个侧面脸部特征点的自动跟踪。
步骤c.4:依次计算步骤c.2中得到的侧面视角图像序列中各帧图像的5个 侧面脸部表情特征值P1至P5,具体为:(1)耳孔与第1侧面脸部特征点的水平距 离,用P1表示,P1=|x6-x1|;(2)耳孔与第2侧面脸部特征点的水平距离,用P2表 示,P2=|x6-x2|;(3)耳孔与第3侧面脸部特征点的水平距离,用P3表示, P3=|x6-x3|;(4)耳孔与第4侧面脸部特征点的水平距离,用P4表示,P4=|x6-x4|; (5)耳孔与第5侧面脸部特征点的水平距离,用P5表示,P5=|x6-x5|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于侧面脸 部表情特征值P3至P5的影响,步骤c.4中所述计算侧面脸部表情特征值P3至P5的 优选方法是:在步骤c.4操作的基础上,在每个侧面视角图像序列中的第n帧图 像中,1<n<nS,将P3至P5这三个侧面脸部特征值分别用相应特征在第(n-1)帧、 第n帧、第(n+1)帧图像中的均值来替换。
步骤c.5:使用步骤c.4中得到的侧面视角图像序列中每帧图像的5个侧面 脸部表情特征值P1至P5构成该图像的特征向量,用符号Fq′′表示, Fq′′=[fq1′′,fq2′′,...,fq5′′]T。其中,1≤q≤nS,fq1′′为所述侧面视角图像序列的第q帧图像 中第1个侧面脸部表情特征值P1,fq2′′为所述侧面视角图像序列的第q帧图像中 第2个侧面脸部表情特征值P2,……,以此类推,fq5′′为所述侧面视角图像序列 的第q帧图像中第5个正面脸部表情特征值P5。
步骤c.6:计算第一训练样本集中所有侧面视频得到的侧面视角图像序列中 第一帧图像的特征向量的均值,用符号表示,其中,表 示第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的第 j个特征值的均值,1≤j≤5。
步骤c.7:使用Fq′′和之间的欧几里得距离表示步骤c.1中所述侧面视角图像 序列中第q帧图像的特征。Fq′′和之间的欧几里得距离用符号DP(q)表示,DP(q) 可通过公式(3)得到。
步骤c.8:步骤c.1中所述侧面视角图像序列中nS帧图像的特征DP(q)组成了该 侧面视频的侧面视角特征数据。
步骤2.2:使用步骤2.1中得到的正面视角特征数据作为步骤一中建立的神经 网络分类器的输入,将产生该正面视角特征数据的正面视频所标注的情感类别 对应的情感类别输出节点的值设置为1,同时将产生该正面视角特征数据的正面 视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应 的线索节点设置为1,其余输出节点均设置为0。然后,训练该神经网络分类器, 直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到正面视 角神经网络分类器。所述正面视角神经网络分类器为nS-nH-nL完全连接的拓扑结 构。
步骤2.3:使用步骤2.1中得到的侧面视角特征数据作为步骤一中建立的神经 网络分类器的输入,将产生该侧面视角特征数据的侧面视频所标注的情感类别 对应的情感类别输出节点的值设置为1,同时将产生该侧面视角特征数据的侧面 视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应 的线索节点设置为1,其余输出节点均设置为0。然后,训练该神经网络分类器, 直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到侧面视 角神经网络分类器。所述侧面视角神经网络分类器为nS-nH-nL完全连接的拓扑结 构。
步骤2.4:使用步骤2.1中得到的语音特征数据作为步骤一中建立的神经网络 分类器的输入,将产生该语音特征数据的正面视频所标注的情感类别对应的情 感类别输出节点的值设置为1,同时将产生该语音特征数据的正面视频所标注的 活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设 置为1,其余输出节点均设置为0。然后,训练该神经网络分类器,直至训练结 束,确定网络权值;然后去除掉输出层的4个线索节点,得到音频神经网络分类 器。所述音频神经网络分类器为nY-nH-nL完全连接的拓扑结构。
步骤2.2、步骤2.3和步骤2.4中所述训练神经网络分类器的方法为反向传播算 法。
步骤三、建立基于神经网络的多模态融合分类器。
此步骤可以与步骤一同步操作:基于神经网络的多模态融合分类器为包含 输入层、隐含层和输出层的三层结构的神经网络。其输入层的节点数用符号NI表 示,NI=3×nL。其隐含层的节点数用符号NH表示,4≤NH≤10。其输出层包含2 种节点,分别为情感类别输出节点和线索节点。输出层的节点数用符号NO表示, NO=NL+NX。其中,NL表示情感类别输出节点的数量,每个情感类别输出节点 对应一种情感类别,NL=nL。NX表示线索节点的数量,在训练阶段,NX的取值 为4,并且4个线索节点分别对应活跃度-评价度(activation-evaluation)空间上的 4种粗粒度情感类别,即活跃度-评价度(activation-evaluation)空间上的四个象 限,分别为:积极-正、消极-正、积极-负、消极-负。其中,积极和消极是活 跃度-评价度(activation-evaluation)空间中活跃度维度上的两个取值,正和负是 活跃度-评价度(activation-evaluation)空间中评价度维度上的两个取值。
所述基于神经网络的多模态融合分类器为NI-NH-NO完全连接的拓扑结构。
步骤四、训练基于神经网络的多模态融合分类器。
在步骤二和步骤三操作的基础上,使用第二训练样本集里的训练样本中人 的正面视角特征数据、侧面视角特征数据和语音特征数据训练基于神经网络的 多模态融合分类器。
第二训练样本集里包含NL种情感的训练数据,并且NL种情感类别与第一训 练样本集里的训练数据的情感类别相同。第二训练样本集里每种情感的训练数 据由多个训练样本对组成,每种情感的训练样本对的数量不小于20个。每个训 练样本对由2条情感视频组成,分别为同步拍摄的正面视频和侧面视频。正面视 频是包含人的正面脸部表情和语音的视频数据,侧面视频是包含人的侧面脸部 表情的视频数据。每条情感视频都开始于中性表情。
第二训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一 种是离散的情感类别标注,另一种是在活跃度-评价度(activation-evaluation)空 间的4种粗粒度情感类别标注,即:积极-正、消极-正、积极-负、消极-负。并 且,每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果 是一致的,在活跃度-评价度(activation-evaluation)空间的粗粒度情感类别上的 标注结果也是一致的。
第二训练样本集里的训练数据可以与第一训练样本集里的训练数据一样, 也可以不一样。
所述训练基于神经网络的多模态融合分类器的具体操作步骤为:
步骤4.1:依次对第二训练样本集里的每个训练样本对中的正面视频做预处 理,得到正面视角特征数据和语音特征数据;对第二训练样本集里的每个训练 样本对中的侧面视频做预处理,得到侧面视角特征数据。
所述对第二训练样本集里的一个训练样本对中的正面视频做预处理,得到 正面视角特征数据和语音特征数据的操作步骤与步骤二中所述对第一训练样本 集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音 特征数据的操作步骤一致。
所述对第二训练样本集里的一个训练样本对中的侧面视频做预处理,得到 侧面视角特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练 样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤一致。
步骤4.2:将步骤4.1中得到的正面视角特征数据作为步骤2.2得到的正面 视角神经网络分类器的输入,然后运算该正面视角神经网络分类器,得到该正 面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多 模态融合分类器输入层中第1至第nL个输入节点的输入。
步骤4.3:将步骤4.1中得到的侧面视角特征数据作为步骤2.3得到的侧面 视角神经网络分类器的输入,然后运算该侧面视角神经网络分类器,得到该侧 面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多 模态融合分类器输入层中第(nL+1)至第(2×nL)个输入节点的输入。
步骤4.4:将步骤4.1中得到的语音特征数据作为步骤2.4得到的音频神经 网络分类器的输入,然后运算该音频神经网络分类器,得到该音频神经网络分 类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输 入层中第(2×nL+1)至第(3×nL)个输入节点的输入。
步骤4.5:在基于神经网络的多模态融合分类器中,将产生步骤4.1中所述正 面视角特征数据的正面视频所标注的离散情感类别对应的输出节点的值设置为 1,同时将产生步骤4.1中所述正面视角特征数据的正面视频所标注的活跃度-评 价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设置为1, 其余输出节点均设置为0。然后,训练该基于神经网络的多模态融合分类器,直 至训练结束,确定网络权值,然后去除掉该基于神经网络的多模态融合分类器 输出层的4个线索节点,得到多模态融合分类器。所述多模态融合分类器为 NI-NH-nL完全连接的拓扑结构。
步骤4.2中所述运算正面视角神经网络分类器的运算模式、步骤4.3中所述 运算侧面视角神经网络分类器的运算模式以及步骤4.4中所述运算音频神经网 络分类器的运算模式均为前馈运算。
步骤4.5中所述训练基于神经网络的多模态融合分类器的方法为反向传播算 法。
所述识别过程的具体实施步骤包括步骤五至步骤六,具体为:
步骤五、对待识别情感视频对中正面视频做预处理,得到正面视角特征数 据和语音特征数据;对待识别情感视频对中侧面视频做预处理,得到侧面视角 特征数据。
所述从待识别情感视频对中得到正面视角特征数据的具体步骤与训练过程 的步骤二中所述得到正面视角特征数据的具体步骤一致。
所述从待识别情感视频对中得到语音特征数据的具体步骤与训练过程的步 骤二中所述得到语音特征数据的具体步骤为一致。
所述从待识别情感视频对中得到侧面视角特征数据的具体步骤与训练过程 的步骤二中所述得到侧面视角特征数据的具体步骤一致。
步骤六、判断待识别情感视频对的情感类别,具体过程为:
步骤6.1:将步骤五中得到的正面视角特征数据作为步骤2.2得到的正面视 角神经网络分类器的输入,运算该正面视角神经网络分类器,得到该正面视角 神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合 分类器输入层中第1至第nL个输入节点的输入。
步骤6.2:将步骤五中得到的侧面视角特征数据作为步骤2.3得到的侧面视 角神经网络分类器的输入,运算该侧面视角神经网络分类器,得到该侧面视角 神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合 分类器输入层中第(nL+1)至第(2×nL)个输入节点的输入。
步骤6.3:将步骤五中得到的语音特征数据作为步骤2.4得到的音频神经网 络分类器的输入,运算该音频神经网络分类器,得到该音频神经网络分类器输 出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第 (2×nL+1)至第(3×nL)个输入节点的输入。
步骤6.4:运算多模态融合分类器,得到多模态融合分类器输出层各节点的 输出值,然后从该运算多模态融合分类器的输出节点中选取出产生最大输出值 的输出节点,将该节点对应的情感类别作为待识别情感视频对的情感类别。
步骤6.4中所述运算多模态融合分类器的运算模式为前馈运算。
有益效果
本发明提出的基于线索神经网络的语音-视觉融合情感识别方法,融合了正 面脸部表情、侧面脸部表情和语音三种特征流,在特征分类器和多模态融合分 类器中采用了三层神经网络,并且在训练阶段,在神经网络的输出层中均加入 了4个线索节点,改进了特征选择,与已有识别方法相比较明显提高了分类的 准确度,特别是在训练样本数较少的情况下,效果更加明显。
附图说明
图1为本发明实施例中神经网络分类器的三层结构示意图;
图2为本发明实施例中正面视角图像序列中一帧图像的10个正面脸部表情 特征值T1至T10的位置示意图;
其中,1-正面脸部表情特征值T1;2-正面脸部表情特征值T2;3-正面脸部表 情特征值T3;4-正面脸部表情特征值T4;5-正面脸部表情特征值T5;6-正面脸部 表情特征值T6;7-正面脸部表情特征值T7;8-正面脸部表情特征值T8;9-正面脸 部表情特征值T9;10-正面脸部表情特征值T10。
图3为本发明实施例中侧面视角图像序列中一帧图像的5个侧面脸部表情 特征值P1至P5;
其中,11-侧面脸部表情特征值P1;12-侧面脸部表情特征值P2;13-侧面脸部 表情特征值P3;14-侧面脸部表情特征值P4;15-侧面脸部表情特征值P5。
图4为本发明实施例中基于神经网络的多模态融合分类器的三层结构示意 图。
具体实施方式
下面结合附图和具体实施例对本发明方法的实施方式做详细说明。
本实施例中,6个实验者(3男3女)在引导式(Wizard of Oz)场景下朗 读带有7种离散的基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性) 的句子,2台摄像机同步拍下正面视角的脸部视频、侧面视角的脸部视频和语音 数据。场景脚本中,每一种情感有3个不同的句子,每个人将每句话重复5遍。
。随机选择三个人的情感数据作为第一训练数据集,用于训练使用单通道 特征数据流的三个神经网络。再随机选择两个人的情感数据作为第二训练数据 集,用于训练多模态融合神经网络。将剩下那个人的情感数据作为测试集合, 整个识别过程是独立于实验者的。实验中执行6重交叉验证。第一训练样本集和 第二训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一种是 离散的情感类别标注,另一种是在活跃度-评价度(activation-evaluation)空间的 4种粗粒度情感类别标注,即:积极-正、消极-正、积极-负、消极-负。并且, 每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一 致的,在活跃度-评价度(activation-evaluation)空间的粗粒度情感类别上的标注 结果也是一致的。
高兴、悲伤、愤怒、厌恶、恐惧和惊讶6种离散的基本情感类别在活跃度- 评价度(activation-evaluation)空间中分别对应:积极-正、消极-负、积极-负、 消极-负、积极-负、积极-正。中性情感在活跃度-评价度(activation-evaluation) 空间对应原点,即中性情感在活跃度-评价度(activation-evaluation)空间不对应 任何一个类别。
所述训练过程的具体实施步骤如下:
步骤一、建立神经网络分类器。
所述神经网络分类器为包含输入层、隐含层和输出层的三层结构神经网络, 如图1所示。其输入层的节点数用符号nI表示,当所述神经网络分类器的输入为 人的正面视角特征数据和侧面视角特征数据时,nI=nS=25;当所述神经网络分 类器的输入为语音特征数据时,nI=nY=50。所述神经网络分类器隐含层的节点 数用符号nH表示,nH=5。所述神经网络分类器输出层包含2种节点,分别称为 情感类别输出节点和线索节点。输出层的节点数用符号nO表示,nO=nL+nX。其 中,nL表示情感类别输出节点的数量,每个情感类别输出节点对应一种情感类 别,nL=7。nX表示线索节点的数量,在训练阶段,nX的取值为4,并且4个线索 节点分别对应活跃度-评价度(activation-evaluation)空间上的4种粗粒度情感类 别,即活跃度-评价度(activation-evaluation)空间上的四个象限,分别为:积极 -正、消极-正、积极-负、消极-负。其中,积极和消极是活跃度-评价度 (activation-evaluation)空间中活跃度维度上的两个取值,正和负是活跃度-评价 度(activation-evaluation)空间中评价度维度上的两个取值。图1中,节点为输入层节点;节点为隐含节点;节点o1,o2,…,o11为输出层节点。
所述神经网络分类器为nI-nH-nO完全连接的拓扑结构。
步骤二、在步骤一的基础上,使用第一训练样本集里的训练样本中人的正 面视角特征数据、侧面视角特征数据和语音特征数据分别训练一个神经网络分 类器。
所述使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面视 角特征数据和语音特征数据分别训练一个神经网络分类器的过程为:
步骤2.1:依次对第一训练样本集里的每个训练样本对中的正面视频做预处 理,得到正面视角特征数据和语音特征数据;对第一训练样本集里的每个训练 样本对中的侧面视频做预处理,得到侧面视角特征数据。
所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到 正面视角特征数据的操作步骤为:
步骤a.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nS帧图 像,构成一个正面视角图像序列。
步骤a.2:在步骤a.1中得到的正面视角图像序列中的第一帧图像中标识出 20个正面脸部特征点;其中,第1、2正面脸部特征点分别位于右边眉毛和左边 眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4正面脸部特征点分别位 于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6正面 脸部特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6) 表示;第7、8正面脸部特征点分别位于右边眼睛和左边眼睛的最低点,分别用 (x7,y7)、(x8,y8)表示;第9、10正面脸部特征点分别位于右边眼睛和左边眼睛的 外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12正面脸部特征点分别位于 右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14正面 脸部特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、 (x14,y14)表示;第15正面脸部特征点位于鼻尖位置,用(x15,y15)表示;第16、17 正面脸部特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用 (x16,y16)、(x17,y17)表示;第18、19正面脸部特征点分别位于唇部中心线与唇部 轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20正面脸部 特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示。
使用基于Gabor特征的增强分类器方法实现对20个正面脸部特征点的自动 定位。
步骤a.3:根据步骤a.2中得到的正面视角图像序列中的第一帧图像中的20 个正面脸部特征点的位置,使用基于分解概率的粒子滤波跟踪算法定位出该正 面视角图像序列中除第一帧图像以外的后续帧图像中的20个正面脸部特征点。
步骤a.4:依次计算步骤a.2中得到的正面视角图像序列中各帧图像的10个 正面脸部表情特征值T1至T10,如图2所示,具体为:(1)两眼宽度的平均值,用T1表示,T1=(|x9-x5|+x10-x6|)/2;(2)两眼高度的平均值,用T2表示, T2=(|y11-y7|+|y12-y8|)/2;(3)两支眉毛宽度的平均值,用T3表示, T3=(|x3-x1|+|x4-x2|)/2;(4)两支眉毛高度的平均值,用T4表示, T4=(|y3-y1|+|y4-y2|)/2;(5)内眼角和眉头之间垂直距离的均值,用T5表示, T5=(|y5-y1|+|y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距离均值,用T6表示, T6=(|y16-y15|+|y17-y15|)/2;(7)嘴角和外眼角垂直距离的均值,用T7表示, T7=(|y16-y9|+|y17-y10|)/2;(8)嘴张开宽度,用T8表示,T8=|x17-x16|;(9)嘴张开高 度,用T9表示,T9=|y18-y19|;(10)鼻尖和下巴的距离,用T10表示,T10=|y15-y20|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于脸部表 情特征值T8至T10的影响,在步骤a.4操作的基础上,在每个图像序列中的第n帧 图像中,1<n<nS,将T8至T10这三个特征值分别用相应特征在第(n-1)帧、第n帧、 第(n+1)帧图像中的均值来替换。
步骤a.5:使用步骤a.4中得到的正面视角图像序列中每帧图像的10个正面 脸部表情特征值T1至T10构成该图像的特征向量,用符号Fq表示, Fq=[fq1,fq2,...,fq10]T。其中,1≤q≤nS,fq1为所述正面视角图像序列的第q帧图 像中第1个正面脸部表情特征值T1,fq2为所述正面视角图像序列的第q帧图像 中第2个正面脸部表情特征值T2,……,以此类推,fq10为所述正面视角图像序 列的第q帧图像中第10个正面脸部表情特征值T10。
步骤a.6:计算第一训练样本集中所有正面视频得到的正面视角图像序列中 第一帧图像的特征向量的均值,用符号表示,其中,表 示第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的第 k个特征值的均值,1≤k≤10。
步骤a.7:使用Fq和之间的欧几里得距离表示步骤a.1中所述正面视角图像 序列中第q帧图像的特征。Fq和之间的欧几里得距离用符号DF(q)表示。DF(q) 可通过公式(1)得到。
步骤a.8:步骤a.1中所述正面视角图像序列中nS帧图像的特征DF(q)组成了 该正面视频的正面视角特征数据。
所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到 语音特征数据语音特征数据的操作步骤为:
步骤b.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nY个语 音帧,构成一条语音序列。
步骤b.2:依次从步骤b.1得到的语音序列的每个语音帧中提取α个音频特 征值,分别用F1~Fα表示,α=14。14个音频特征值具体为:信号强度;基音频 率和12个Mel频率倒谱系数。
步骤b.3:从步骤b.2中所述语音序列里的一个语音帧提取的α个音频特征 值组成一个音频特征向量,用Vt表示,Vt=[f′t1,f′t2,……,f′tα]T,1≤t≤nY。f′t1为步骤 所述语音序列的第t帧语音帧中第1个音频特征值F1,f′t2为所述语音序列的第t帧 语音帧中第2个音频特征值F2,……,以此类推,f′tα为所述语音序列的第t帧语 音帧中第α个音频特征值Fα。
步骤b.4:从第一训练数据集里找出与步骤b.1中所述正面视频中的音频为同 一发声人物的所有中性情感的正面视频,并计算出由这些正面视频得到的语音 序列中各语音帧对应的音频特征向量的均值,用符号表示,其中,表示由第一训练样本集中所有与步骤b.1中所述正面视频中的音频为同 一发声人物的所有中性情感的正面视频得到的语音序列中各语音帧的第i个特 征值的均值,1≤i<α。
步骤b.5:使用步骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向 量的均值之间的距离表示步骤b.1得到的语音序列的第t个语音帧的特征。步 骤b.3中所述音频特征向量Vt和步骤b.4中所述音频特征向量的均值之间的距 离用符号DV(t)表示,DV(t)可通过公式(2)得到。
步骤b.6:步骤b.1中所述语音序列中nY个语音帧的特征DV(t)组成了该正面视 频的语音特征数据。
所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理,得到 侧面视角特征数据的操作步骤为:
步骤c.1:从所述训练样本对中的侧面视频中以均等的时间间隔提取nS帧图 像,构成一个侧面视角图像序列。
步骤c.2:在步骤c.1中得到的侧面视角图像序列中的第一帧图像中人工手 动标识出6个侧面脸部特征点;其中,第1侧面脸部特征点位于眉头位置,用 (x1′,y1′)表示;第2侧面脸部特征点位于鼻尖位置,用(x′2,y′2)表示;第3侧面脸部 特征点分别位于上唇与侧面脸部轮廓线相交的交点位置,用(x3′,y3′)表示;第4侧 面脸部特征点位于嘴角位置,用(x′4,y′4)表示;第5侧面脸部特征点位于下唇与侧 面脸部轮廓线相交的交点位置,用(x5′,y5′)表示;第6侧面脸部特征点位于耳孔位 置,用(x′6,y′6)表示。
步骤c.3:根据步骤c.2中得到的侧面视角图像序列中的第一帧图像中的6 个侧面脸部特征点的位置,使用基于分解概率的粒子滤波跟踪算法定位出该侧 面视角图像序列中除第一帧图像以外的后续帧图像中的6个侧面脸部特征点。
步骤c.4:依次计算步骤c.2中得到的侧面视角图像序列中各帧图像的5个 侧面脸部表情特征值P1至P5,如图3所示,具体为:(1)耳孔与第1侧面脸部特 征点的水平距离,用P1表示,P1=|x6-x1|;(2)耳孔与第2侧面脸部特征点的水平 距离,用P2表示,P2=|x6-x2|;(3)耳孔与第3侧面脸部特征点的水平距离,用P3表示,P3=|x6-x3|;(4)耳孔与第4侧面脸部特征点的水平距离,用P4表示, P4=|x6-x4|;(5)耳孔与第5侧面脸部特征点的水平距离,用P5表示,P5=|x6-x5|。
由于口型更容易受到说话内容的影响,因此为了减小说话内容对于侧面脸 部表情特征值P3至P5的影响,在步骤c.4操作的基础上,在每个侧面视角图像序 列中的第n帧图像中,1<n<nS,将P3至P5这三个侧面脸部特征值分别用相应特 征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。
步骤c.5:使用步骤c.4中得到的侧面视角图像序列中每帧图像的5个侧面 脸部表情特征值P1至P5构成该图像的特征向量,用符号Fq′′表示, Fq′′=[fq1′′,fq2′′,...,fq5′′]T。其中,1≤q≤nS,fq1′′为所述侧面视角图像序列的第q帧图像 中第1个侧面脸部表情特征值P1,fq2′′为所述侧面视角图像序列的第q帧图像中 第2个侧面脸部表情特征值P2,……,以此类推,fq5′′为所述侧面视角图像序列 的第q帧图像中第5个正面脸部表情特征值P5。
步骤c.6:计算第一训练样本集中所有侧面视频得到的侧面视角图像序列中 第一帧图像的特征向量的均值,用符号表示,其中,表 示第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的第 j个特征值的均值,1≤j<5。
步骤c.7:使用Fq′′和之间的欧几里得距离表示步骤c.1中所述侧面视角图像 序列中第q帧图像的特征。Fq′′和之间的欧几里得距离用符号DP(q)表示,DP(q) 可通过公式(3)得到。
步骤c.8:步骤c.1中所述侧面视角图像序列中nS帧图像的特征DP(q)组成了该 侧面视频的侧面视角特征数据。
步骤2.2:使用步骤2.1中得到的正面视角特征数据作为步骤一中建立的神经 网络分类器的输入,将产生该正面视角特征数据的正面视频所标注的情感类别 对应的情感类别输出节点的值设置为1,同时将产生该正面视角特征数据的正面 视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应 的线索节点设置为1,其余输出节点均设置为0。然后,训练该神经网络分类器, 直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到正面视 角神经网络分类器。所述正面视角神经网络分类器为nS-nH-nL完全连接的拓扑结 构。
步骤2.3:使用步骤2.1中得到的侧面视角特征数据作为步骤一中建立的神经 网络分类器的输入,将产生该侧面视角特征数据的侧面视频所标注的情感类别 对应的情感类别输出节点的值设置为1,同时将产生该侧面视角特征数据的侧面 视频所标注的活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应 的线索节点设置为1,其余输出节点均设置为0。然后,训练该神经网络分类器, 直至训练结束,确定网络权值;然后去除掉输出层的4个线索节点,得到侧面视 角神经网络分类器。所述侧面视角神经网络分类器为nS-nH-nL完全连接的拓扑结 构。
步骤2.4:使用步骤2.1中得到的语音特征数据作为步骤一中建立的神经网络 分类器的输入,将产生该语音特征数据的正面视频所标注的情感类别对应的情 感类别输出节点的值设置为1,同时将产生该语音特征数据的正面视频所标注的 活跃度-评价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设 置为1,其余输出节点均设置为0。然后,训练该神经网络分类器,直至训练结 束,确定网络权值;然后去除掉输出层的4个线索节点,得到音频神经网络分类 器。所述音频神经网络分类器为nY-nH-nL完全连接的拓扑结构。
步骤2.2、步骤2.3和步骤2.4中所述训练神经网络分类器的方法为反向传播算 法。
步骤三、建立基于神经网络的多模态融合分类器。
此步骤可以与步骤一同步操作:基于神经网络的多模态融合分类器为包含 输入层、隐含层和输出层的三层结构的神经网络,如图4所示。其输入层的节点 数用符号NI表示,NI=21。其隐含层的节点数用符号NH表示,NH=4。其输出 层包含2种节点,分别为情感类别输出节点和线索节点。输出层的节点数用符号 NO表示,NO=NL+NX。其中,NL表示情感类别输出节点的数量,每个情感类别 输出节点对应一种情感类别,NL=7。NX表示线索节点的数量,在训练阶段,NX的取值为4,并且4个线索节点分别对应活跃度-评价度(activation-evaluation)空 间上的4种粗粒度情感类别,即活跃度-评价度(activation-evaluation)空间上的 四个象限,分别为:积极-正、消极-正、积极-负、消极-负。其中,积极和消 极是活跃度-评价度(activation-evaluation)空间中活跃度维度上的两个取值,正 和负是活跃度-评价度(activation-evaluation)空间中评价度维度上的两个取值。 图4中,节点i1,i2,…,i21为输入层节点;节点为隐含节点;节点o1,o2,…,o11为输出层节点。
所述基于神经网络的多模态融合分类器为NI-NH-NO完全连接的拓扑结构。
步骤四、训练基于神经网络的多模态融合分类器。
在步骤二和步骤三操作的基础上,使用第二训练样本集里的训练样本中人 的正面视角特征数据、侧面视角特征数据和语音特征数据训练基于神经网络的 多模态融合分类器。
所述训练基于神经网络的多模态融合分类器的具体操作步骤为:
步骤4.1:依次对第二训练样本集里的每个训练样本对中的正面视频做预处 理,得到正面视角特征数据和语音特征数据;对第二训练样本集里的每个训练 样本对中的侧面视频做预处理,得到侧面视角特征数据。
所述对第二训练样本集里的一个训练样本对中的正面视频做预处理,得到 正面视角特征数据和语音特征数据的操作步骤与步骤二中所述对第一训练样本 集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音 特征数据的操作步骤一致。
所述对第二训练样本集里的一个训练样本对中的侧面视频做预处理,得到 侧面视角特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练 样本对中的侧面视频做预处理,得到侧面视角特征数据的操作步骤一致。
步骤4.2:将步骤4.1中得到的正面视角特征数据作为步骤2.2得到的正面 视角神经网络分类器的输入,然后运算该正面视角神经网络分类器,得到该正 面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多 模态融合分类器输入层中第1至第7个输入节点的输入。
步骤4.3:将步骤4.1中得到的侧面视角特征数据作为步骤2.3得到的侧面 视角神经网络分类器的输入,然后运算该侧面视角神经网络分类器,得到该侧 面视角神经网络分类器输出层各节点的输出值,并将其作为基于神经网络的多 模态融合分类器输入层中第8至第14个输入节点的输入。
步骤4.4:将步骤4.1中得到的语音特征数据作为步骤2.4得到的音频神经 网络分类器的输入,然后运算该音频神经网络分类器,得到该音频神经网络分 类器输出层各节点的输出值,并将其作为基于神经网络的多模态融合分类器输 入层中第15至第21个输入节点的输入。
步骤4.5:在基于神经网络的多模态融合分类器中,将产生步骤4.1中所述正 面视角特征数据的正面视频所标注的离散情感类别对应的输出节点的值设置为 1,同时将产生步骤4.1中所述正面视角特征数据的正面视频所标注的活跃度-评 价度(activation-evaluation)空间的粗粒度情感类别对应的线索节点设置为1, 其余输出节点均设置为0。然后,训练该基于神经网络的多模态融合分类器,直 至训练结束,确定网络权值,然后去除掉该基于神经网络的多模态融合分类器 输出层的4个线索节点,得到多模态融合分类器。所述多模态融合分类器为 NI-NH-nL完全连接的拓扑结构。
步骤4.2中所述运算正面视角神经网络分类器的运算模式、步骤4.3中所述 运算侧面视角神经网络分类器的运算模式以及步骤4.4中所述运算音频神经网 络分类器的运算模式均为前馈运算。
步骤4.5中所述训练基于神经网络的多模态融合分类器的方法为反向传播算 法。
所述识别过程的具体实施步骤包括步骤五至步骤六,具体为:
步骤五、对待识别情感视频对中正面视频做预处理,得到正面视角特征数 据和语音特征数据;对待识别情感视频对中侧面视频做预处理,得到侧面视角 特征数据。
所述从待识别情感视频对中得到正面视角特征数据的具体步骤与训练过程 的步骤二中所述得到正面视角特征数据的具体步骤一致。
所述从待识别情感视频对中得到语音特征数据的具体步骤与训练过程的步 骤二中所述得到语音特征数据的具体步骤为一致。
所述从待识别情感视频对中得到侧面视角特征数据的具体步骤与训练过程 的步骤二中所述得到侧面视角特征数据的具体步骤一致。
步骤六、判断待识别情感视频对的情感类别,具体过程为:
步骤6.1:将步骤五中得到的正面视角特征数据作为步骤2.2得到的正面视 角神经网络分类器的输入,运算该正面视角神经网络分类器,得到该正面视角 神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合 分类器输入层中第1至第7个输入节点的输入。
步骤6.2:将步骤五中得到的侧面视角特征数据作为步骤2.3得到的侧面视 角神经网络分类器的输入,运算该侧面视角神经网络分类器,得到该侧面视角 神经网络分类器输出层各节点的输出值,并将其作为步骤四得到的多模态融合 分类器输入层中第8至第14个输入节点的输入。
步骤6.3:将步骤五中得到的语音特征数据作为步骤2.4得到的音频神经网 络分类器的输入,运算该音频神经网络分类器,得到该音频神经网络分类器输 出层各节点的输出值,并将其作为步骤四得到的多模态融合分类器输入层中第 15至第21个输入节点的输入。
步骤6.4:运算多模态融合分类器,得到多模态融合分类器输出层各节点的 输出值,然后从该运算多模态融合分类器的输出节点中选取出产生最大输出值 的输出节点,将该节点对应的情感类别作为待识别情感视频对的情感类别。
步骤6.4中所述运算多模态融合分类器的运算模式为前馈运算。
经过上述步骤的操作,得到的7种基本情感的识别率以及平均准确率结果 如表1第6列所示。
为了对比本发明提出方法的有效性,使用相同的训练数据和测试数据,分 别采用以下4种方法进行识别:①单一正面视角视觉特征HMM(frontal-view HMM)分类器(隐状态数为5);②单一侧面视角视觉特征HMM(profile-view HMM) 分类器(隐状态数为5);③单一语音特征HMM(audio HMM)分类器(隐状态数为 6);④常规的3-链耦合HMM(3-chain CHMM)分类器,得到的7种表情的识别率 以及平均准确率结果如表1第2列至第5列所示。
表1不同方法的识别准确率(%)对比表
通过对比可以看出,常规CHMM的识别准确率大大高于单模态的HMM方 法,因为CHMM使用了模型层融合技术,可以有效利用所有通道的互补信息。 本发明提出的方法利用线索神经网络来进行多模态融合和情感识别,在保持较 低计算量的同时得到了更好的识别性能。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步 详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发 明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的 任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 基于神经网络的音频,视觉和语境特征融合的语音识别方法和装置
机译: 基于神经网络的音频,视觉和语境特征集成的语音识别方法和装置
机译: 基于内部的基于神经网络的情感识别方法,装置和存储介质