首页> 中国专利> 基于线索神经网络的语音-视觉融合情感识别方法

基于线索神经网络的语音-视觉融合情感识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提出的一种基于线索神经网络的语音-视觉融合情感识别方法，属于自动情感识别领域。其基本思想是：首先，分别使用人的正面脸部表情、侧面脸部表情和语音三个通道的特征数据，独立地训练一个神经网络来执行离散的情感类别的识别，训练过程中神经网络模型中的输出层加入4个线索(hint)节点，分别承载活跃度-评价度（activation-evaluation）空间中的4个粗粒度类别的线索(hint)信息。在线索信息的帮助下，神经网络权重的学习会产生更优的特征选择。然后，使用多模态融合模型对三个神经网络的输出结果进行融合，多模态融合模型也采用基于线索信息训练的神经网络。该方法具有较低的计算量，识别率高且鲁棒性好。对于训练数据较少的情况，效果更加明显。

著录项

公开/公告号CN103400145A

专利类型发明专利
公开/公告日2013-11-20

原文格式PDF
申请/专利权人北京理工大学;
展开▼

申请/专利号CN201310304011.4
发明设计人吕坤;张欣;
展开▼

申请日2013-07-19
分类号G06K9/62(20060101);G06K9/66(20060101);G06N3/02(20060101);
代理机构
代理人
地址 100081 北京市海淀区中关村南大街5号
入库时间 2024-02-19 21:01:19

法律信息

法律状态公告日

法律状态信息

法律状态
2016-08-10

授权

授权
2013-12-18

实质审查的生效 IPC(主分类):G06K9/62 申请日:20130719

实质审查的生效
2013-11-20

公开

公开

说明书

技术领域

本发明涉及一种多通道信息融合的情感识别方法，特别涉及一种基于线索神经网络的语音-视觉融合情感识别方法，属于自动情感识别领域。

背景技术

各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示（如Ekman提出的6种基本情感类别），或者使用连续维度方法表示（如activation-evaluation空间方法），或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。

融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类：特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息，可能是该融合问题的最佳选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition Through Multistream Fused HMM》（IEEE TRANSACTIONS ON MULTIMEDIA,vol.10, no.4,June2008）中提出了一种多流融合HMM（MFHMM）方法，根据最大熵和最大相互信息准则，建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量 HMM。他们接着在文献《Training Combination Strategy of Multi-Stream Fused Hidden Markov Model for Audio-Visual Affect Recognition》（Proc.14th ACM Int’l Conf.Multimedia(Multimedia’06),pp.65-68,2006.）中扩展了该框架，采用训练组合策略，使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis 等人在文献《Audiovisual Discrimination between Laughter and Speech》（IEEE Int’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120, 2008.）中使用神经网络来合并语音-视觉通道的信息。总的来讲，这些方法在自然情感识别中还未达到令人满意的识别准确率。

发明内容

本发明的目的是为了解决已有技术存在的识别率不高的问题，提出一种基于线索神经网络的语音-视觉融合情感识别方法。

本发明的目的是通过下述技术方案实现的。

一种基于线索神经网络的语音-视觉融合情感识别方法，用于识别情感视频中人的情感，其识别过程包括2部分：训练过程和识别过程。

所述训练过程的具体实施步骤包括步骤一至步骤四，具体为：

步骤一、建立神经网络分类器。

所述神经网络分类器为包含输入层、隐含层和输出层的三层结构神经网络。其输入层的节点数用符号n_I表示，当所述神经网络分类器的输入为人的正面视角特征数据和侧面视角特征数据时，n_I＝n_S，10≤n_S≤80；当所述神经网络分类器的输入为语音特征数据时，n_I＝n_Y，20≤n_Y≤200。所述神经网络分类器隐含层的节点数用符号n_H表示，4≤n_H≤10。所述神经网络分类器输出层包含2种节点，分别称为情感类别输出节点和线索节点。输出层的节点数用符号n_O表示， n_O＝n_L+n_X。其中，n_L表示情感类别输出节点的数量，每个情感类别输出节点对应一种情感类别，2≤n_L≤15。n_X表示线索节点的数量，在训练阶段，n_X的取值为4，并且4个线索节点分别对应活跃度-评价度（activation-evaluation）空间上的 4种粗粒度情感类别，即活跃度-评价度（activation-evaluation）空间上的四个象限，分别为：积极-正、消极-正、积极-负、消极-负。其中，积极和消极是活跃度-评价度（activation-evaluation）空间中活跃度维度上的两个取值，正和负是活跃度-评价度（activation-evaluation）空间中评价度维度上的两个取值。

所述神经网络分类器为n_I-n_H-n_O完全连接的拓扑结构。

步骤二、在步骤一的基础上，使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面视角特征数据和语音特征数据分别训练一个神经网络分类器。

第一训练样本集里包含n_L种情感的训练数据，n_L种情感中包含中性情感；每种情感的训练数据由多个训练样本对组成，每种情感的训练样本对的数量不小于20个。每个训练样本对由2条情感视频组成，分别为同步拍摄的正面视频和侧面视频。正面视频是包含人的正面脸部表情和语音的视频数据，侧面视频是包含人的侧面脸部表情的视频数据。每条情感视频都开始于中性表情。

第一训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注，一种是离散的情感类别标注，另一种是在活跃度-评价度（activation-evaluation）空间的4种粗粒度情感类别标注。并且，每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的，在活跃度-评价度（activation-evaluation）空间的粗粒度情感类别上的标注结果也是一致的。

所述使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面视角特征数据和语音特征数据分别训练一个神经网络分类器的过程为：

步骤2.1：依次对第一训练样本集里的每个训练样本对中的正面视频做预处理，得到正面视角特征数据和语音特征数据；对第一训练样本集里的每个训练样本对中的侧面视频做预处理，得到侧面视角特征数据。

所述对第一训练样本集里的一个训练样本对中的正面视频做预处理，得到正面视角特征数据的操作步骤为：

步骤a.1：从所述训练样本对中的正面视频中以均等的时间间隔提取n_S帧图像，构成一个正面视角图像序列。

步骤a.2：在步骤a.1中得到的正面视角图像序列中的第一帧图像中标识出 20个正面脸部特征点；其中，第1、2正面脸部特征点分别位于右边眉毛和左边眉毛的眉头位置，分别用(x₁,y₁)、(x₂,y₂)表示；第3、4正面脸部特征点分别位于右边眉毛和左边眉毛的眉尾位置，分别用(x₃,y₃)、(x₄,y₄)表示；第5、6正面脸部特征点分别位于右边眼睛和左边眼睛的内眼角位置，分别用(x₅,y₅)、(x₆,y₆) 表示；第7、8正面脸部特征点分别位于右边眼睛和左边眼睛的最低点，分别用 (x₇,y₇)、(x₈,y₈)表示；第9、10正面脸部特征点分别位于右边眼睛和左边眼睛的外眼角位置，分别用(x₉,y₉)、(x₁₀,y₁₀)表示；第11、12正面脸部特征点分别位于右边眼睛和左边眼睛的最高点，分别用(x₁₁,y₁₁)、(x₁₂,y₁₂)表示；第13、14正面脸部特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置，分别用(x₁₃,y₁₃)、 (x₁₄,y₁₄)表示；第15正面脸部特征点位于鼻尖位置，用(x₁₅,y₁₅)表示；第16、17 正面脸部特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置，分别用 (x₁₆,y₁₆)、(x₁₇,y₁₇)表示；第18、19正面脸部特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点，分别用(x₁₈,y₁₈)、(x₁₉,y₁₉)表示；第20正面脸部特征点位于脸部中心线与脸部轮廓线相交的最低点，用(x₂₀,y₂₀)表示。

所述标识20个正面脸部特征点的方法包括：①人工手动标识；②使用基于 Gabor特征的增强分类器方法实现对20个正面脸部特征点的自动定位。

步骤a.3：根据步骤a.2中得到的正面视角图像序列中的第一帧图像中的20 个正面脸部特征点的位置，定位出该正面视角图像序列中除第一帧图像以外的后续帧图像中的20个正面脸部特征点。

所述定位出正面视角图像序列中除第一帧图像以外的后续帧图像中的20个正面脸部特征点的方法包括：①人工手动标识；②使用基于分解概率的粒子滤波跟踪算法实现对20个正面脸部特征点的自动跟踪。

步骤a.4：依次计算步骤a.2中得到的正面视角图像序列中各帧图像的10个正面脸部表情特征值T₁至T₁₀，具体为：(1)两眼宽度的平均值，用T₁表示， T₁＝(|x₉-x₅|+|x₁₀-x₆|)/²；(2)两眼高度的平均值，用T₂表示， T₂＝(|y₁₁-y₇|+|y₁₂-y₈|)/²；(3)两支眉毛宽度的平均值，用T₃表示， T₃＝(|x₃-x₁|+|x₄-x₂|)/²；(4)两支眉毛高度的平均值，用T₄表示， T₄＝(|y₃-y₁|+|y₄-y₂|)/²；(5)内眼角和眉头之间垂直距离的均值,用T₅表示， T₅＝(|y₅-y₁|+|y₆-y₂|)/²；(6)鼻尖和左右嘴角的垂直距离均值,用T₆表示， T₆＝(|y₁₆-y₁₅|+|y₁₇-y₁₅|)/²；(7)嘴角和外眼角垂直距离的均值，用T₇表示， T₇＝(|y₁₆-y₉|+|y₁₇-y₁₀|)/²；(8)嘴张开宽度，用T₈表示，T₈＝|x₁₇-x₁₆|；(9)嘴张开高度，用T₉表示，T₉＝|y₁₈-y₁₉|；(10)鼻尖和下巴的距离，用T₁₀表示，T₁₀＝|y₁₅-y₂₀|。

由于口型更容易受到说话内容的影响，因此为了减小说话内容对于脸部表情特征值T₈至T₁₀的影响，步骤a.4中所述计算正面脸部表情特征值T₈至T₁₀的优选方法是：在步骤a.4操作的基础上，在每个图像序列中的第n帧图像中， 1＜n＜n_S，将T₈至T₁₀这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1) 帧图像中的均值来替换。

步骤a.5：使用步骤a.4中得到的正面视角图像序列中每帧图像的10个正面脸部表情特征值T₁至T₁₀构成该图像的特征向量，用符号F_q表示， F_q＝[f_q1,f_q2,...,f_q10]^T。其中，1≤q≤n_S，f_q1为所述正面视角图像序列的第q帧图像中第1个正面脸部表情特征值T₁，f_q2为所述正面视角图像序列的第q帧图像中第2个正面脸部表情特征值T₂，……，以此类推，f_q10为所述正面视角图像序列的第q帧图像中第10个正面脸部表情特征值T₁₀。

步骤a.6：计算第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的特征向量的均值，用符号表示，其中，表示第一训练样本集中所有正面视频得到的正面视角图像序列中第一帧图像的第 k个特征值的均值，1≤k≤10。

步骤a.7：使用F_q和之间的欧几里得距离表示步骤a.1中所述正面视角图像序列中第q帧图像的特征。F_q和之间的欧几里得距离用符号D_F(q)表示。D_F(q) 可通过公式（1）得到。

$D_{F} (q) = {(Σ_{k = 1}^{10} {(f_{qk} - \overline{f_{k}})}^{2})}^{1 / 2}$ （1）

步骤a.8：步骤a.1中所述正面视角图像序列中n_S帧图像的特征D_F(q)组成了该正面视频的正面视角特征数据。

所述对第一训练样本集里的一个训练样本对中的正面视频做预处理，得到语音特征数据的操作步骤为：

步骤b.1：从所述训练样本对中的正面视频中以均等的时间间隔提取n_Y个语音帧，构成一条语音序列。

步骤b.2：依次从步骤b.1得到的语音序列的每个语音帧中提取α个音频特征值，分别用F₁～F_α表示，α≥4。

所述音频特征值包括：信号强度；短时过零率；基音频率；共振峰频率；线性预测倒谱系数（Linear Prediction Cepstral Coefficients，LPCC）；线谱对参数（Line Spectrum Pair，LSP）；Mel频率倒谱系数（Mel Frequency Cepstral Coefficients，MFCC）；感知线性预测倒谱系数（Perceptual Linear Prediction Cepstral Coefficients，PLPCC）。

步骤b.3：从步骤b.2中所述语音序列里的一个语音帧提取的α个音频特征值组成一个音频特征向量，用Vt表示，V_t＝[f′_t1,f′_t2,……,f′_tα]^T，1≤t≤n_Y。f′_t1为步骤所述语音序列的第t帧语音帧中第1个音频特征值F₁，f′_t2为所述语音序列的第t帧语音帧中第2个音频特征值F₂，……，以此类推，f′_tα为所述语音序列的第t帧语音帧中第α个音频特征值F_α。

步骤b.4：从第一训练数据集里找出与步骤b.1中所述正面视频中的音频为同一发声人物的所有中性情感的正面视频，并计算出由这些正面视频得到的语音序列中各语音帧对应的音频特征向量的均值，用符号表示，其中，表示由第一训练样本集中所有与步骤b.1中所述正面视频中的音频为同一发声人物的所有中性情感的正面视频得到的语音序列中各语音帧的第i个特征值的均值，1≤i＜α。

步骤b.5：使用步骤b.3中所述音频特征向量V_t和步骤b.4中所述音频特征向量的均值之间的距离表示步骤b.1得到的语音序列的第t个语音帧的特征。步骤b.3中所述音频特征向量V_t和步骤b.4中所述音频特征向量的均值之间的距离用符号D_V(t)表示，D_V(t)可通过公式（2）得到。

$D_{V} (t) = {(Σ_{i = 1}^{α} {(\frac{f_{ti}^{'} - {\overline{f}}_{i}^{'}}{{\overline{f}}_{i}^{'}})}^{2})}^{1 / 2}$ （2）

步骤b.6：步骤b.1中所述语音序列中n_Y个语音帧的特征D_V(t)组成了该正面视频的语音特征数据。

所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理，得到侧面视角特征数据的操作步骤为：

步骤c.1：从所述训练样本对中的侧面视频中以均等的时间间隔提取n_S帧图像，构成一个侧面视角图像序列。

步骤c.2：在步骤c.1中得到的侧面视角图像序列中的第一帧图像中标识出 6个侧面脸部特征点；其中，第1侧面脸部特征点位于眉头位置，用(x₁′,y₁′)表示；第2侧面脸部特征点位于鼻尖位置，用(x′₂,y′₂)表示；第3侧面脸部特征点分别位于上唇与侧面脸部轮廓线相交的交点位置，用(x₃′,y₃′)表示；第4侧面脸部特征点位于嘴角位置，用(x′₄,y′₄)表示；第5侧面脸部特征点位于下唇与侧面脸部轮廓线相交的交点位置，用(x₅′,y₅′)表示；第6侧面脸部特征点位于耳孔位置，用(x′₆,y′₆) 表示。

所述标识6个侧面脸部特征点的方法包括：人工手动标识。

步骤c.3：根据步骤c.2中得到的侧面视角图像序列中的第一帧图像中的6 个侧面脸部特征点的位置，定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6个侧面脸部特征点。

所述定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6 个侧面脸部特征点的方法包括：①人工手动标识；②使用基于分解概率的粒子滤波跟踪算法实现对6个侧面脸部特征点的自动跟踪。

步骤c.4：依次计算步骤c.2中得到的侧面视角图像序列中各帧图像的5个侧面脸部表情特征值P₁至P₅，具体为：(1)耳孔与第1侧面脸部特征点的水平距离，用P₁表示，P₁＝|x₆-x₁|；(2)耳孔与第2侧面脸部特征点的水平距离，用P₂表示，P₂＝|x₆-x₂|；(3)耳孔与第3侧面脸部特征点的水平距离，用P₃表示， P₃＝|x₆-x₃|；(4)耳孔与第4侧面脸部特征点的水平距离，用P₄表示，P₄＝|x₆-x₄|； (5)耳孔与第5侧面脸部特征点的水平距离，用P₅表示，P₅＝|x₆-x₅|。

由于口型更容易受到说话内容的影响，因此为了减小说话内容对于侧面脸部表情特征值P₃至P₅的影响，步骤c.4中所述计算侧面脸部表情特征值P₃至P₅的优选方法是：在步骤c.4操作的基础上，在每个侧面视角图像序列中的第n帧图像中，1＜n＜n_S，将P₃至P₅这三个侧面脸部特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。

步骤c.5：使用步骤c.4中得到的侧面视角图像序列中每帧图像的5个侧面脸部表情特征值P₁至P₅构成该图像的特征向量，用符号F_q′′表示， F_q′′＝[f_q1′′,f_q2′′,...,f_q5′′]^T。其中，1≤q≤n_S，f_q1′′为所述侧面视角图像序列的第q帧图像中第1个侧面脸部表情特征值P₁，f_q2′′为所述侧面视角图像序列的第q帧图像中第2个侧面脸部表情特征值P₂，……，以此类推，f_q5′′为所述侧面视角图像序列的第q帧图像中第5个正面脸部表情特征值P₅。

步骤c.6：计算第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的特征向量的均值，用符号表示，其中，表示第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的第 j个特征值的均值，1≤j≤5。

步骤c.7：使用F_q′′和之间的欧几里得距离表示步骤c.1中所述侧面视角图像序列中第q帧图像的特征。F_q′′和之间的欧几里得距离用符号D_P(q)表示，D_P(q) 可通过公式（3）得到。

$D_{F} (q) = {(Σ_{j = 1}^{5} {(f_{qj}^{''} - {\overline{f}}_{j}^{''})}^{2})}^{1 / 2}$ （3）

步骤c.8：步骤c.1中所述侧面视角图像序列中n_S帧图像的特征D_P(q)组成了该侧面视频的侧面视角特征数据。

步骤2.2：使用步骤2.1中得到的正面视角特征数据作为步骤一中建立的神经网络分类器的输入，将产生该正面视角特征数据的正面视频所标注的情感类别对应的情感类别输出节点的值设置为1，同时将产生该正面视角特征数据的正面视频所标注的活跃度-评价度（activation-evaluation）空间的粗粒度情感类别对应的线索节点设置为1，其余输出节点均设置为0。然后，训练该神经网络分类器，直至训练结束，确定网络权值；然后去除掉输出层的4个线索节点，得到正面视角神经网络分类器。所述正面视角神经网络分类器为n_S-n_H-n_L完全连接的拓扑结构。

步骤2.3：使用步骤2.1中得到的侧面视角特征数据作为步骤一中建立的神经网络分类器的输入，将产生该侧面视角特征数据的侧面视频所标注的情感类别对应的情感类别输出节点的值设置为1，同时将产生该侧面视角特征数据的侧面视频所标注的活跃度-评价度（activation-evaluation）空间的粗粒度情感类别对应的线索节点设置为1，其余输出节点均设置为0。然后，训练该神经网络分类器，直至训练结束，确定网络权值；然后去除掉输出层的4个线索节点，得到侧面视角神经网络分类器。所述侧面视角神经网络分类器为n_S-n_H-n_L完全连接的拓扑结构。

步骤2.4：使用步骤2.1中得到的语音特征数据作为步骤一中建立的神经网络分类器的输入，将产生该语音特征数据的正面视频所标注的情感类别对应的情感类别输出节点的值设置为1，同时将产生该语音特征数据的正面视频所标注的活跃度-评价度（activation-evaluation）空间的粗粒度情感类别对应的线索节点设置为1，其余输出节点均设置为0。然后，训练该神经网络分类器，直至训练结束，确定网络权值；然后去除掉输出层的4个线索节点，得到音频神经网络分类器。所述音频神经网络分类器为n_Y-n_H-n_L完全连接的拓扑结构。

步骤2.2、步骤2.3和步骤2.4中所述训练神经网络分类器的方法为反向传播算法。

步骤三、建立基于神经网络的多模态融合分类器。

此步骤可以与步骤一同步操作：基于神经网络的多模态融合分类器为包含输入层、隐含层和输出层的三层结构的神经网络。其输入层的节点数用符号N_I表示，N_I＝3×n_L。其隐含层的节点数用符号N_H表示，4≤N_H≤10。其输出层包含2 种节点，分别为情感类别输出节点和线索节点。输出层的节点数用符号N_O表示， N_O＝N_L+N_X。其中，N_L表示情感类别输出节点的数量，每个情感类别输出节点对应一种情感类别，N_L＝n_L。N_X表示线索节点的数量，在训练阶段，N_X的取值为4，并且4个线索节点分别对应活跃度-评价度（activation-evaluation）空间上的 4种粗粒度情感类别，即活跃度-评价度（activation-evaluation）空间上的四个象限，分别为：积极-正、消极-正、积极-负、消极-负。其中，积极和消极是活跃度-评价度（activation-evaluation）空间中活跃度维度上的两个取值，正和负是活跃度-评价度（activation-evaluation）空间中评价度维度上的两个取值。

所述基于神经网络的多模态融合分类器为N_I-N_H-N_O完全连接的拓扑结构。

步骤四、训练基于神经网络的多模态融合分类器。

在步骤二和步骤三操作的基础上，使用第二训练样本集里的训练样本中人的正面视角特征数据、侧面视角特征数据和语音特征数据训练基于神经网络的多模态融合分类器。

第二训练样本集里包含N_L种情感的训练数据，并且N_L种情感类别与第一训练样本集里的训练数据的情感类别相同。第二训练样本集里每种情感的训练数据由多个训练样本对组成，每种情感的训练样本对的数量不小于20个。每个训练样本对由2条情感视频组成，分别为同步拍摄的正面视频和侧面视频。正面视频是包含人的正面脸部表情和语音的视频数据，侧面视频是包含人的侧面脸部表情的视频数据。每条情感视频都开始于中性表情。

第二训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注，一种是离散的情感类别标注，另一种是在活跃度-评价度（activation-evaluation）空间的4种粗粒度情感类别标注，即：积极-正、消极-正、积极-负、消极-负。并且，每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的，在活跃度-评价度（activation-evaluation）空间的粗粒度情感类别上的标注结果也是一致的。

第二训练样本集里的训练数据可以与第一训练样本集里的训练数据一样，也可以不一样。

所述训练基于神经网络的多模态融合分类器的具体操作步骤为：

步骤4.1：依次对第二训练样本集里的每个训练样本对中的正面视频做预处理，得到正面视角特征数据和语音特征数据；对第二训练样本集里的每个训练样本对中的侧面视频做预处理，得到侧面视角特征数据。

所述对第二训练样本集里的一个训练样本对中的正面视频做预处理，得到正面视角特征数据和语音特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练样本对中的正面视频做预处理，得到正面视角特征数据和语音特征数据的操作步骤一致。

所述对第二训练样本集里的一个训练样本对中的侧面视频做预处理，得到侧面视角特征数据的操作步骤与步骤二中所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理，得到侧面视角特征数据的操作步骤一致。

步骤4.2：将步骤4.1中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入，然后运算该正面视角神经网络分类器，得到该正面视角神经网络分类器输出层各节点的输出值，并将其作为基于神经网络的多模态融合分类器输入层中第1至第n_L个输入节点的输入。

步骤4.3：将步骤4.1中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入，然后运算该侧面视角神经网络分类器，得到该侧面视角神经网络分类器输出层各节点的输出值，并将其作为基于神经网络的多模态融合分类器输入层中第(n_L+1)至第(2×n_L)个输入节点的输入。

步骤4.4：将步骤4.1中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入，然后运算该音频神经网络分类器，得到该音频神经网络分类器输出层各节点的输出值，并将其作为基于神经网络的多模态融合分类器输入层中第(2×n_L+1)至第(3×n_L)个输入节点的输入。

步骤4.5：在基于神经网络的多模态融合分类器中，将产生步骤4.1中所述正面视角特征数据的正面视频所标注的离散情感类别对应的输出节点的值设置为 1，同时将产生步骤4.1中所述正面视角特征数据的正面视频所标注的活跃度-评价度（activation-evaluation）空间的粗粒度情感类别对应的线索节点设置为1，其余输出节点均设置为0。然后，训练该基于神经网络的多模态融合分类器，直至训练结束，确定网络权值，然后去除掉该基于神经网络的多模态融合分类器输出层的4个线索节点，得到多模态融合分类器。所述多模态融合分类器为 N_I-N_H-n_L完全连接的拓扑结构。

步骤4.2中所述运算正面视角神经网络分类器的运算模式、步骤4.3中所述运算侧面视角神经网络分类器的运算模式以及步骤4.4中所述运算音频神经网络分类器的运算模式均为前馈运算。

步骤4.5中所述训练基于神经网络的多模态融合分类器的方法为反向传播算法。

所述识别过程的具体实施步骤包括步骤五至步骤六，具体为：

步骤五、对待识别情感视频对中正面视频做预处理，得到正面视角特征数据和语音特征数据；对待识别情感视频对中侧面视频做预处理，得到侧面视角特征数据。

所述从待识别情感视频对中得到正面视角特征数据的具体步骤与训练过程的步骤二中所述得到正面视角特征数据的具体步骤一致。

所述从待识别情感视频对中得到语音特征数据的具体步骤与训练过程的步骤二中所述得到语音特征数据的具体步骤为一致。

所述从待识别情感视频对中得到侧面视角特征数据的具体步骤与训练过程的步骤二中所述得到侧面视角特征数据的具体步骤一致。

步骤六、判断待识别情感视频对的情感类别，具体过程为：

步骤6.1：将步骤五中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入，运算该正面视角神经网络分类器，得到该正面视角神经网络分类器输出层各节点的输出值，并将其作为步骤四得到的多模态融合分类器输入层中第1至第n_L个输入节点的输入。

步骤6.2：将步骤五中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入，运算该侧面视角神经网络分类器，得到该侧面视角神经网络分类器输出层各节点的输出值，并将其作为步骤四得到的多模态融合分类器输入层中第(n_L+1)至第(2×n_L)个输入节点的输入。

步骤6.3：将步骤五中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入，运算该音频神经网络分类器，得到该音频神经网络分类器输出层各节点的输出值，并将其作为步骤四得到的多模态融合分类器输入层中第 (2×n_L+1)至第(3×n_L)个输入节点的输入。

步骤6.4：运算多模态融合分类器，得到多模态融合分类器输出层各节点的输出值，然后从该运算多模态融合分类器的输出节点中选取出产生最大输出值的输出节点，将该节点对应的情感类别作为待识别情感视频对的情感类别。

步骤6.4中所述运算多模态融合分类器的运算模式为前馈运算。

有益效果

本发明提出的基于线索神经网络的语音-视觉融合情感识别方法，融合了正面脸部表情、侧面脸部表情和语音三种特征流，在特征分类器和多模态融合分类器中采用了三层神经网络，并且在训练阶段，在神经网络的输出层中均加入了4个线索节点，改进了特征选择，与已有识别方法相比较明显提高了分类的准确度，特别是在训练样本数较少的情况下，效果更加明显。

附图说明

图1为本发明实施例中神经网络分类器的三层结构示意图；

图2为本发明实施例中正面视角图像序列中一帧图像的10个正面脸部表情特征值T₁至T₁₀的位置示意图；

其中，1-正面脸部表情特征值T₁；2-正面脸部表情特征值T₂；3-正面脸部表情特征值T₃；4-正面脸部表情特征值T₄；5-正面脸部表情特征值T₅；6-正面脸部表情特征值T₆；7-正面脸部表情特征值T₇；8-正面脸部表情特征值T₈；9-正面脸部表情特征值T₉；10-正面脸部表情特征值T₁₀。

图3为本发明实施例中侧面视角图像序列中一帧图像的5个侧面脸部表情特征值P₁至P₅；

其中，11-侧面脸部表情特征值P₁；12-侧面脸部表情特征值P₂；13-侧面脸部表情特征值P₃；14-侧面脸部表情特征值P₄；15-侧面脸部表情特征值P₅。

图4为本发明实施例中基于神经网络的多模态融合分类器的三层结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明方法的实施方式做详细说明。

本实施例中，6个实验者（3男3女）在引导式（Wizard of Oz）场景下朗读带有7种离散的基本情感（高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性）的句子，2台摄像机同步拍下正面视角的脸部视频、侧面视角的脸部视频和语音数据。场景脚本中，每一种情感有3个不同的句子，每个人将每句话重复5遍。

。随机选择三个人的情感数据作为第一训练数据集，用于训练使用单通道特征数据流的三个神经网络。再随机选择两个人的情感数据作为第二训练数据集，用于训练多模态融合神经网络。将剩下那个人的情感数据作为测试集合，整个识别过程是独立于实验者的。实验中执行6重交叉验证。第一训练样本集和第二训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注，一种是离散的情感类别标注，另一种是在活跃度-评价度（activation-evaluation）空间的 4种粗粒度情感类别标注，即：积极-正、消极-正、积极-负、消极-负。并且，每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的，在活跃度-评价度（activation-evaluation）空间的粗粒度情感类别上的标注结果也是一致的。

高兴、悲伤、愤怒、厌恶、恐惧和惊讶6种离散的基本情感类别在活跃度- 评价度（activation-evaluation）空间中分别对应：积极-正、消极-负、积极-负、消极-负、积极-负、积极-正。中性情感在活跃度-评价度（activation-evaluation）空间对应原点，即中性情感在活跃度-评价度（activation-evaluation）空间不对应任何一个类别。

所述训练过程的具体实施步骤如下：

步骤一、建立神经网络分类器。

所述神经网络分类器为包含输入层、隐含层和输出层的三层结构神经网络，如图1所示。其输入层的节点数用符号n_I表示，当所述神经网络分类器的输入为人的正面视角特征数据和侧面视角特征数据时，n_I＝n_S＝25；当所述神经网络分类器的输入为语音特征数据时，n_I＝n_Y＝50。所述神经网络分类器隐含层的节点数用符号n_H表示，n_H＝5。所述神经网络分类器输出层包含2种节点，分别称为情感类别输出节点和线索节点。输出层的节点数用符号n_O表示，n_O＝n_L+n_X。其中，n_L表示情感类别输出节点的数量，每个情感类别输出节点对应一种情感类别，n_L＝7。n_X表示线索节点的数量，在训练阶段，n_X的取值为4，并且4个线索节点分别对应活跃度-评价度（activation-evaluation）空间上的4种粗粒度情感类别，即活跃度-评价度（activation-evaluation）空间上的四个象限，分别为：积极 -正、消极-正、积极-负、消极-负。其中，积极和消极是活跃度-评价度（activation-evaluation）空间中活跃度维度上的两个取值，正和负是活跃度-评价度（activation-evaluation）空间中评价度维度上的两个取值。图1中，节点为输入层节点；节点为隐含节点；节点o₁,o₂,…,o₁₁为输出层节点。

所述神经网络分类器为n_I-n_H-n_O完全连接的拓扑结构。

所述使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面视角特征数据和语音特征数据分别训练一个神经网络分类器的过程为：

所述对第一训练样本集里的一个训练样本对中的正面视频做预处理，得到正面视角特征数据的操作步骤为：

步骤a.1：从所述训练样本对中的正面视频中以均等的时间间隔提取n_S帧图像，构成一个正面视角图像序列。

使用基于Gabor特征的增强分类器方法实现对20个正面脸部特征点的自动定位。

步骤a.3：根据步骤a.2中得到的正面视角图像序列中的第一帧图像中的20 个正面脸部特征点的位置，使用基于分解概率的粒子滤波跟踪算法定位出该正面视角图像序列中除第一帧图像以外的后续帧图像中的20个正面脸部特征点。

步骤a.4：依次计算步骤a.2中得到的正面视角图像序列中各帧图像的10个正面脸部表情特征值T₁至T₁₀，如图2所示，具体为：(1)两眼宽度的平均值，用T₁表示，T₁＝(|x₉-x₅|+x₁₀-x₆|)/²；(2)两眼高度的平均值，用T₂表示， T₂＝(|y₁₁-y₇|+|y₁₂-y₈|)/²；(3)两支眉毛宽度的平均值，用T₃表示， T₃＝(|x₃-x₁|+|x₄-x₂|)/²；(4)两支眉毛高度的平均值，用T₄表示， T₄＝(|y₃-y₁|+|y₄-y₂|)/²；(5)内眼角和眉头之间垂直距离的均值,用T₅表示， T₅＝(|y₅-y₁|+|y₆-y₂|)/²；(6)鼻尖和左右嘴角的垂直距离均值,用T₆表示， T₆＝(|y₁₆-y₁₅|+|y₁₇-y₁₅|)/²；(7)嘴角和外眼角垂直距离的均值，用T₇表示， T₇＝(|y₁₆-y₉|+|y₁₇-y₁₀|)/²；(8)嘴张开宽度，用T₈表示，T₈＝|x₁₇-x₁₆|；(9)嘴张开高度，用T₉表示，T₉＝|y₁₈-y₁₉|；(10)鼻尖和下巴的距离，用T₁₀表示，T₁₀＝|y₁₅-y₂₀|。

由于口型更容易受到说话内容的影响，因此为了减小说话内容对于脸部表情特征值T₈至T₁₀的影响，在步骤a.4操作的基础上，在每个图像序列中的第n帧图像中，1＜n＜n_S，将T₈至T₁₀这三个特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。

步骤a.5：使用步骤a.4中得到的正面视角图像序列中每帧图像的10个正面脸部表情特征值T₁至T₁₀构成该图像的特征向量，用符号F_q表示， F_q＝[f_q1,f_q2,...,f_q10]^T。其中，1≤q≤n_S，f_q1为所述正面视角图像序列的第q帧图像中第1个正面脸部表情特征值T₁，f_q2为所述正面视角图像序列的第q帧图像中第2个正面脸部表情特征值T₂，……,以此类推，f_q10为所述正面视角图像序列的第q帧图像中第10个正面脸部表情特征值T₁₀。

步骤a.8：步骤a.1中所述正面视角图像序列中n_S帧图像的特征D_F(q)组成了该正面视频的正面视角特征数据。

所述对第一训练样本集里的一个训练样本对中的正面视频做预处理，得到语音特征数据语音特征数据的操作步骤为：

步骤b.1：从所述训练样本对中的正面视频中以均等的时间间隔提取n_Y个语音帧，构成一条语音序列。

步骤b.2：依次从步骤b.1得到的语音序列的每个语音帧中提取α个音频特征值，分别用F₁～F_α表示，α＝14。14个音频特征值具体为：信号强度；基音频率和12个Mel频率倒谱系数。

步骤b.6：步骤b.1中所述语音序列中n_Y个语音帧的特征D_V(t)组成了该正面视频的语音特征数据。

所述对第一训练样本集里的一个训练样本对中的侧面视频做预处理，得到侧面视角特征数据的操作步骤为：

步骤c.1：从所述训练样本对中的侧面视频中以均等的时间间隔提取n_S帧图像，构成一个侧面视角图像序列。

步骤c.2：在步骤c.1中得到的侧面视角图像序列中的第一帧图像中人工手动标识出6个侧面脸部特征点；其中，第1侧面脸部特征点位于眉头位置，用 (x₁′,y₁′)表示；第2侧面脸部特征点位于鼻尖位置，用(x′₂,y′₂)表示；第3侧面脸部特征点分别位于上唇与侧面脸部轮廓线相交的交点位置，用(x₃′,y₃′)表示；第4侧面脸部特征点位于嘴角位置，用(x′₄,y′₄)表示；第5侧面脸部特征点位于下唇与侧面脸部轮廓线相交的交点位置，用(x₅′,y₅′)表示；第6侧面脸部特征点位于耳孔位置，用(x′₆,y′₆)表示。

步骤c.3：根据步骤c.2中得到的侧面视角图像序列中的第一帧图像中的6 个侧面脸部特征点的位置，使用基于分解概率的粒子滤波跟踪算法定位出该侧面视角图像序列中除第一帧图像以外的后续帧图像中的6个侧面脸部特征点。

步骤c.4：依次计算步骤c.2中得到的侧面视角图像序列中各帧图像的5个侧面脸部表情特征值P₁至P₅，如图3所示，具体为：(1)耳孔与第1侧面脸部特征点的水平距离，用P₁表示，P₁＝|x₆-x₁|；(2)耳孔与第2侧面脸部特征点的水平距离，用P₂表示，P₂＝|x₆-x₂|；(3)耳孔与第3侧面脸部特征点的水平距离，用P₃表示，P₃＝|x₆-x₃|；(4)耳孔与第4侧面脸部特征点的水平距离，用P₄表示， P₄＝|x₆-x₄|；(5)耳孔与第5侧面脸部特征点的水平距离，用P₅表示，P₅＝|x₆-x₅|。

由于口型更容易受到说话内容的影响，因此为了减小说话内容对于侧面脸部表情特征值P₃至P₅的影响，在步骤c.4操作的基础上，在每个侧面视角图像序列中的第n帧图像中，1＜n＜n_S，将P₃至P₅这三个侧面脸部特征值分别用相应特征在第(n-1)帧、第n帧、第(n+1)帧图像中的均值来替换。

步骤c.6：计算第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的特征向量的均值，用符号表示，其中，表示第一训练样本集中所有侧面视频得到的侧面视角图像序列中第一帧图像的第 j个特征值的均值，1≤j＜5。

步骤c.8：步骤c.1中所述侧面视角图像序列中n_S帧图像的特征D_P(q)组成了该侧面视频的侧面视角特征数据。

步骤2.2、步骤2.3和步骤2.4中所述训练神经网络分类器的方法为反向传播算法。

步骤三、建立基于神经网络的多模态融合分类器。

此步骤可以与步骤一同步操作：基于神经网络的多模态融合分类器为包含输入层、隐含层和输出层的三层结构的神经网络，如图4所示。其输入层的节点数用符号N_I表示，N_I＝21。其隐含层的节点数用符号N_H表示，N_H＝4。其输出层包含2种节点，分别为情感类别输出节点和线索节点。输出层的节点数用符号 N_O表示，N_O＝N_L+N_X。其中，N_L表示情感类别输出节点的数量，每个情感类别输出节点对应一种情感类别，N_L＝7。N_X表示线索节点的数量，在训练阶段，N_X的取值为4，并且4个线索节点分别对应活跃度-评价度（activation-evaluation）空间上的4种粗粒度情感类别，即活跃度-评价度（activation-evaluation）空间上的四个象限，分别为：积极-正、消极-正、积极-负、消极-负。其中，积极和消极是活跃度-评价度（activation-evaluation）空间中活跃度维度上的两个取值，正和负是活跃度-评价度（activation-evaluation）空间中评价度维度上的两个取值。图4中，节点i₁,i₂,…,i₂₁为输入层节点；节点为隐含节点；节点o₁,o₂,…,o₁₁为输出层节点。

所述基于神经网络的多模态融合分类器为N_I-N_H-N_O完全连接的拓扑结构。

步骤四、训练基于神经网络的多模态融合分类器。

所述训练基于神经网络的多模态融合分类器的具体操作步骤为：

步骤4.2：将步骤4.1中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入，然后运算该正面视角神经网络分类器，得到该正面视角神经网络分类器输出层各节点的输出值，并将其作为基于神经网络的多模态融合分类器输入层中第1至第7个输入节点的输入。

步骤4.3：将步骤4.1中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入，然后运算该侧面视角神经网络分类器，得到该侧面视角神经网络分类器输出层各节点的输出值，并将其作为基于神经网络的多模态融合分类器输入层中第8至第14个输入节点的输入。

步骤4.4：将步骤4.1中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入，然后运算该音频神经网络分类器，得到该音频神经网络分类器输出层各节点的输出值，并将其作为基于神经网络的多模态融合分类器输入层中第15至第21个输入节点的输入。

步骤4.5中所述训练基于神经网络的多模态融合分类器的方法为反向传播算法。

所述识别过程的具体实施步骤包括步骤五至步骤六，具体为：

所述从待识别情感视频对中得到正面视角特征数据的具体步骤与训练过程的步骤二中所述得到正面视角特征数据的具体步骤一致。

所述从待识别情感视频对中得到语音特征数据的具体步骤与训练过程的步骤二中所述得到语音特征数据的具体步骤为一致。

所述从待识别情感视频对中得到侧面视角特征数据的具体步骤与训练过程的步骤二中所述得到侧面视角特征数据的具体步骤一致。

步骤六、判断待识别情感视频对的情感类别，具体过程为：

步骤6.1：将步骤五中得到的正面视角特征数据作为步骤2.2得到的正面视角神经网络分类器的输入，运算该正面视角神经网络分类器，得到该正面视角神经网络分类器输出层各节点的输出值，并将其作为步骤四得到的多模态融合分类器输入层中第1至第7个输入节点的输入。

步骤6.2：将步骤五中得到的侧面视角特征数据作为步骤2.3得到的侧面视角神经网络分类器的输入，运算该侧面视角神经网络分类器，得到该侧面视角神经网络分类器输出层各节点的输出值，并将其作为步骤四得到的多模态融合分类器输入层中第8至第14个输入节点的输入。

步骤6.3：将步骤五中得到的语音特征数据作为步骤2.4得到的音频神经网络分类器的输入，运算该音频神经网络分类器，得到该音频神经网络分类器输出层各节点的输出值，并将其作为步骤四得到的多模态融合分类器输入层中第 15至第21个输入节点的输入。

步骤6.4中所述运算多模态融合分类器的运算模式为前馈运算。

经过上述步骤的操作，得到的7种基本情感的识别率以及平均准确率结果如表1第6列所示。

为了对比本发明提出方法的有效性，使用相同的训练数据和测试数据，分别采用以下4种方法进行识别：①单一正面视角视觉特征HMM(frontal-view HMM)分类器(隐状态数为5)；②单一侧面视角视觉特征HMM(profile-view HMM) 分类器(隐状态数为5)；③单一语音特征HMM(audio HMM)分类器(隐状态数为 6)；④常规的3-链耦合HMM(3-chain CHMM)分类器，得到的7种表情的识别率以及平均准确率结果如表1第2列至第5列所示。

表1不同方法的识别准确率(%)对比表

frontal-view HMM profile-view HMM audio HMM 3-chain CHMM 本发明方法高兴 62.2 57.8 54.4 78.9 92.6 悲伤 43.3 45.6 60 81.1 84.7 恐惧 60 54.4 80 84.4 91.2 厌恶 45.6 44.4 76.7 83.3 84.6 惊讶 73.3 53.3 75.6 91.1 94.7 愤怒 70 41.1 83.3 90 92.3 中性 80 62.2 85.6 93.3 95.8 平均准确率 62.1 51.3 73.7 86 90.84

通过对比可以看出，常规CHMM的识别准确率大大高于单模态的HMM方法，因为CHMM使用了模型层融合技术，可以有效利用所有通道的互补信息。本发明提出的方法利用线索神经网络来进行多模态融合和情感识别，在保持较低计算量的同时得到了更好的识别性能。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于线索神经网络的语音-视觉融合情感识别方法 [P] . 中国专利： CN103400145B . 2016.08.10
2. 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 [P] . 中国专利： CN113643723A . 2021-11-12
3. Speech Recognition Method and Device by Integrating Audio, Visual and Contextual Features Based on Neural Networks [P] . 韩国专利： KR100576803B1 . 2006-05-10

机译：基于神经网络的音频，视觉和语境特征融合的语音识别方法和装置
4. SPEECH RECOGNITION METHOD AND DEVICE BY INTEGRATING AUDIO, VISUAL AND CONTEXTUAL FEATURES BASED ON NEURAL NETWORKS [P] . 韩国专利： KR20050058161A . 2005-06-16

机译：基于神经网络的音频，视觉和语境特征集成的语音识别方法和装置
5. RECURRENT NEURAL NETWORK-BASED EMOTION RECOGNITION METHOD, APPARATUS, AND STORAGE MEDIUM [P] . WO2021135457A1 . 2021-07-08

机译：基于内部的基于神经网络的情感识别方法，装置和存储介质