首页> 中国专利> 基于主角检测和光流转换的视频序列情感识别方法

基于主角检测和光流转换的视频序列情感识别方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了基于主角检测和光流转换的视频序列情感识别方法，包括：定义主角关键帧选取方法；定义补丁特征提取转换特征矩阵的方法以及构建深度学习网络；构建光流信息转换模块以及深度学习网络；构建用于融合补丁特征、光流特征以及人工给与的视觉的音频特征的特征融合模块；将经过预处理的视频数据流以较小的批尺寸送入整体网络进行训练，利用定义好的支持向量机进行答案预测，使用均方差检验网络性能，最终使网络收敛至最佳状态，并保存训练好的模型用于直接使用。本发明方法适应性广，鲁棒性强，可用于多种情绪识别任务。通过将该方法在数据集上的进行实验，实验结果表明该方法具有较高的准确率，证明了其有效性。

著录项

公开/公告号CN112613442A

专利类型发明专利
公开/公告日2021-04-06

原文格式PDF
申请/专利权人苏州元启创人工智能科技有限公司;
展开▼

申请/专利号CN202011591272.5
发明设计人毛史清;
展开▼

申请日2020-12-29
分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);
代理机构32103 苏州创元专利商标事务所有限公司;
代理人范晴
地址 215332 江苏省苏州市昆山市花桥经济开发区光明路88号中铁建设大厦11楼
入库时间 2023-06-19 10:29:05

说明书

技术领域

本发明涉及深度学习中的视频序列领域，特别涉及一种基于主角检测和光流转换的视频序列情感识别方法。

背景技术

情感识别一直是计算机视觉领域的研究热点，它可以应用在许多领域中。随着多模态深度学习领域的不断发展，对情感识别的要求也越来越高。传统的情感识别方法使用单一的卷积神经网络模型进行特征提取，对视频进行抽帧继而对帧进行图片特征提取，是为了得到图片中的信息特征，再根据音频分词等特征，最终将特征简单融合并通过分类器输出该高维特征的分类类别。因此情感识别本质上是通过多种模态之间的特征，共同决定了预测的视频的情感走向。除此之外，不同模态的特征对视频走向的影响权重也不一样。经过多模态深度学习领域的长期发展，产生了大量的多模态情感识别方法。

在传统方法中，视频帧提取方法通常存在一个统一的问题，即视频帧中只有主角能决定视频的情感走向，提取视频帧的所有特征会对资源进行浪费。这种情况下，使用单一的卷积神经网络往往会得到许多无用的特征。一些深度较大的神经网络虽然可以更好的提取细粒度特征，但是网络深度的增加也会导致参数增多，大量的卷积过程还造成特征信息的丢失以及梯度消失现象，从而影响模型性能。此外，视频是一种时间上连续的数据，时间因素也是视频中不可忽视的因素，这些因素都会影响后续的模型识别效果。

对于上述的这些问题，学者们研究出了一系列方法解决。尺度不变特征转换用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变数。光流信息通过在时域中检测图像序列中像素强度的变化来计算相邻帧之间物体的运动速率和方向。在情感识别领域，很少有方法能够兼顾时间信息、尺度不变特征转换这些方面。

发明内容

本发明目的是：为了解决上述问题，本发明提供一种基于主角检测和光流转换的视频序列情感识别方法，可以从视频中筛选出主角关键帧，并使用尺度不变特征转换构建矩阵，且通过引入代表时间信息的光流信息转换，使得模型能注意到连续的情感，增强识别准确率。

本发明的技术方案是：

本发明的优点是：

1、本发明的基于主角检测和光流转换的视频序列情感识别方法，通过主角关键帧筛选方法，较好的解决了由于寻常帧抽取方法造成的关键帧中没有主角出现的问题；

2、本发明通过补丁特征提取和尺度不变特征转换构建矩阵的方法，解决了寻常视频帧特征提取方法提取冗余信息的问题，节约了计算资源；

3、本发明通过将视频帧中的光流信息转化为数字矩阵，以引入时间信息加强模型对连续情感的捕捉能力，提高其准确率；

4、本发明提出的基于主角检测和光流转换的视频序列情感识别方法，具有兼顾时间信息、尺度不变特征转换这些优点。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明的基于主角检测和光流转换的视频序列情感识别方法的流程图；

图2为本发明的基于主角检测和光流转换的视频序列情感识别方法中的主角关键帧筛选方法流程图。

具体实施方式

下面结合附图及具体实施方式对本发明作进一步地详细描述。但不应将此解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本方面的范围。

本发明提供的基于主角检测和光流转换的视频序列情感识别方法，方法的整体实施流程如图1所示，具体说明如下：

选择LIRIS-ACCEDE中的训练集作为训练数据。本发明去除了一些数据集中时间过长或过短的视频，并筛出用于情感识别的标签数据。并选取了不同背景、不同场景类别的训练视频共6000个，验证视频1000个，测试视频1000个。

实施过程中使用的设备显示卡是英伟达Tesla P100，故将批尺寸设置为16，以批次为单位接收视频，在进行均值归一化后将视频帧尺寸重建至10万个像素。

构建各个方法模块与网络模块，整体结构图如图1所示。具体说明如下：

定义主角关键帧选取策略：该策略如图2所示，第一步，如果视频剪辑V包含n帧，则V＝{F1，F2，F3，...，Fn}，其中Fn是视频剪辑V的第n帧。第一帧的RGB直方图定义为H(Fi)，其中i＝1...n，整个剪辑的平均RGB直方图如下：

第i帧和第i+1帧之间的曼哈顿距离D可以表示如下：

D(F

使用上述公式计算每个帧与整个剪辑的平均RGB直方图之间的距离。根据距离将这些帧从最小到最大排序。因此可获得一个距离列表D，它被注释为D＝{D1，D2，...，Dn}。帧D1是距离整个剪辑的平均RGB直方图最小的帧。第二步，基于距离进行聚类。假设最终提取k个关键帧，则从距离列表D中选择k个距离值作为初始聚类中心，通过迭代搜索找到最优聚类结果，再根据距离将每个簇中的所有帧从最小到最大排序。因此可以获得k个候选关键帧列表，并且每个列表都可以被注释为

我们根据每个聚类中心的主角信息选择一个主角关键帧。对于候选关键帧列表中的每个帧，根据主角定义，我们检测主角并选择第一个包含主角的帧作为主角关键帧。特别是，如果候选关键帧列表中的帧没有包含主角，我们将候选关键帧列表中的第一个帧视为主角关键帧。再根据出现频率最高的一张脸作为主角。主角关键帧的定义为argmaxcount(f

尺度不变特征矩阵转换模块：为了从主角关键帧中提取主角特征信息，我们提出了一种构造尺度不变特征矩阵的方法。对于每个主角关键帧，我们将帧大小调整为10万像素，同时调节纵横比，并在五个尺度上每四个像素提取一个24×24大小的补丁。通过该操作可以获得每帧约1万个补丁。对于每个补丁提取一个128维的特征向量，然后将这些特征向量组合在一起形成特征矩阵。

光流信息转换模块：视频包含大量相邻帧之间的时间信息，所以需要从时域的角度提取情感特征信息。光流信息通过检测图像序列中像素在时域中的强度的变化，确定相邻帧之间物体的运动速率和方向。考虑到视频帧帧数、相邻帧之间的弱光流关系和所需的大量计算，我们选择从主角关键帧而不是所有的帧中提取光流信息。本发明采用了一种高精度密集光流计算方法，以i为中心提取光流，为了更容易地处理和可视化光学流场，进行了将光流信息转换到三通道图像文件中。假设第F

其中OF

之后将OF

其中a＝16，b＝128，

特征提取网络模块：由于标记数据量有限，首先使用现有的卷积神经网络模型，在大规模图像任务上进行了预先训练，以初始化网络模型。然后，对积神经网络模型进行了修正标记的情感数据。为此，我们采用AlexNet模型进行积神经网络初始化。AlexNet有五个卷积层，三个最大值池化层和三个全连接层。前两个全连接层由4096个单元组成，最后一个全连接层具有对应的1000个维度映射1000个情感类别。将补丁特征矩阵和光流图像矩阵输入到卷积神经网络模型中，学习更有代表性的高阶特征。设R

特征融合模块与答案分类模块：在使用卷积神经网络模型学习特征并提取手工特征后，使用标准分数对所有特征进行归一化。然后使用特征级融合来合并高阶特征，包括高级主角特征信息R

f(PKF)＝[R

融合特征后，利用支持向量机对输入混合特征进行分类。我们应用支持向量回归进行回归情感层面。

训练过程中，网络共迭代了200轮，每轮迭代了50000步，训练了38个小时完成收敛。

预测阶段包括以下7个步骤：

Step1：对输入视频帧进行均值归一化、调整尺寸等预处理操作。

Step2：加载预训练过的AlexNet模型和训练完成的总体的情感检测模型。

Step3：通过AlexNet网络和基于主角检测和光流转换网络提取特征。

Step4：在提取到的特征图上使用支持向量机和支持向量回归进行情感分类。

本发明的基于主角检测和光流转换的视频序列情感识别方法较好的在测试样本中分类出了情感，证明了该方法的有效性。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明主要技术方案的精神实质所做的修饰，都应涵盖在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于主角检测和光流转换的视频序列情感识别方法 [P] . 中国专利： CN112613442A . 2021-04-06
2. 基于中性和情感声纹模型转换的说话人识别方法 [P] . 中国专利： CN101226743A . 2008-07-23
3. An Optical Flow Based Emotion Revealing For Real Time Home Applications [P] . MY167974A . 2018-10-09

机译：基于光流的实时家庭情感揭示
4. Video sequence plan transformation detection process for video sequence indexing, involves comparing peak signal-to-noise ratio coefficient with threshold to decide existence of fading in video sequence [P] . 法国专利： FR2853793A1 . 2004-10-15

机译：用于视频序列索引的视频序列计划转换检测过程，包括将峰值信噪比系数与阈值进行比较，以确定视频序列中是否存在衰落
5. RECURRENT NEURAL NETWORK-BASED EMOTION RECOGNITION METHOD, APPARATUS, AND STORAGE MEDIUM [P] . WO2021135457A1 . 2021-07-08

机译：基于内部的基于神经网络的情感识别方法，装置和存储介质