首页> 中国专利> 基于多角度分析的多模态精神状态评估方法

基于多角度分析的多模态精神状态评估方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供基于多角度分析的多模态精神状态评估的方法，包括：从原始视频中采集音频文件和视频文件，并对所述音频文件和视频文件进行数据预处理：从音频文件中提取时域波形点和梅尔频率倒谱系数作为音频特征；将图片序列输入到预训练网络，得到视频编码向量；提取图片序列的人脸运动单元；将视频编码向量和人脸运动单元作为视频特征；将音频特征和视频特征分别输入抑郁分析模块、焦虑分析模块和压力分析模块进行多角度分析，得到抑郁特征、焦虑特征和压力特征；将所述抑郁特征、焦虑特征和压力特征输入到融合分析模块进行注意力特征融合，得到融合特征；将融合特征输入支持向量回归，评估音频文件和视频文件中个体的精神状态。

著录项

公开/公告号CN113274023A

专利类型发明专利
公开/公告日2021-08-20

原文格式PDF
申请/专利权人中国科学院自动化研究所;
展开▼

申请/专利号CN202110732115.X
发明设计人陶建华;蔡聪;刘斌;柳雪飞;
展开▼

申请日2021-06-30
分类号A61B5/16(20060101);A61B5/00(20060101);
代理机构11662 北京华夏泰和知识产权代理有限公司;
代理人孙剑锋;李永叶
地址 100190 北京市海淀区中关村东路95号
入库时间 2023-06-19 12:19:35

说明书

技术领域

本发明涉及语音处理和图像处理领域，具体涉及基于多角度分析的多模态精神状态评估方法。

背景技术

精神状态分析不仅描述心理现象还还致力于探究人的心理动机，不止于揭示表层心理规律而且还致力于探究人的深层无意识心理机制，对探究人的自我意识有重要的意义。比如，对病人进行精神状态分析可以针对不同的精神状态对病人进行不同的治疗方案，而且病人产生剧烈的心理或者生理反应，会对内分泌系统等产生影响，从而影响治疗效果。

申请公布号CN108888281A提供一种精神状态评估方法、设备及系统，涉及精神状态评估技术领域。该精神状态评估方法包括：在预设时间内采集待评估人员的音频数据和视频数据；提取音频数据和视频数据中待评估人员的多模态生理特征，多模态生理特征包括：面部瞳孔数据特征、语音数据特征以及心率和心率变异性数据特征；根据多模态生理特征和预设的关联模型，输出待评估人员的精神状态评估结果，所述关联模型为基于神经网络或SVM支持向量机对不同精神状态下的个体数据进行分类的训练模型。

申请公布号CN109547695A提供了一种基于声音分类算法定向捕捉画面的全息视频监控系统及方法，包括前端采集系统、传输设备、中心控制平台和显示记录设备；前端采集系统，被配置为采集现场的音频数据和视频数据并通过传输设备传输至中心控制平台；中心控制平台，被配置为通过梅尔频率倒谱系数的支持向量机识别算法对音频数据进行降噪处理及声音分类，分段提取用户所需的音频数据，并将用户所需的音频数据和对应的视频数据发送至显示记录设备；和通过对特定声音的选择，定向捕捉放大相应的视频画面；显示记录设备，被配置为同步实时播放监控系统的监控数据，并可实时调取任一时段的监控数据，及播放对特定的声音定向捕捉及放大的相对应的视频画面。

现有技术中存在的问题是大多数使用单一的精神状态进行评估，没有考虑到受试者的各个精神方面，比如抑郁情况、焦虑情况等。而且以往的方法大多数使用多步骤、多模型来进行预测，不仅各个模板的目标函数跟最终的预测目标有偏差，而且容易累积误差，造成预测结果的不准确。

发明内容

有鉴于此，本发明提供一种基于多角度分析的多模态精神状态评估的方法，具体地，本发明是通过如下技术方案实现的：

S1：从原始视频中采集音频文件和视频文件，并对音频文件和视频文件进行数据预处理：

从音频文件中提取时域波形点和梅尔频率倒谱系数，将时域波形点和梅尔频率倒谱系数作为音频特征；

将视频文件按一定频率采样得到图片序列，再将图片序列输入到预训练网络，得到视频编码向量；

用openface工具提取图片序列的人脸运动单元；

将视频编码向量和人脸运动单元作为视频特征；

S2：将音频特征和视频特征分别输入抑郁分析模块、焦虑分析模块和压力分析模块进行多角度分析，得到抑郁特征、焦虑特征和压力特征；

S3：将抑郁特征、焦虑特征和压力特征输入到融合分析模块进行注意力特征融合，得到融合特征；

S4：将融合特征输入支持向量回归，评估所述音频文件和视频文件中个体的精神状态。

优选的，从音频文件中提取时域波形点的具体方法为：

从原始MP4长视频文件中提取音频文件，并将音频文件以wav文件格式保存；提取wav文件格式的音频文件的原始波形点，以mat格式保存；

从音频文件中提取时域波形点和梅尔频率倒谱系数的具体方法为：

对wav文件格式的音频文件进行预加重、分帧和加窗处理，然后再进行快速傅里叶变换得到傅里叶谱；

将傅里叶谱通过梅尔滤波器组，再进行对数运算，最后进行离散余弦变换，得到梅尔频率倒谱系数；

将梅尔频率倒谱系数以mat格式进行保存。

优选的，抑郁分析模块的网络包括：

门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；视频特征和音频特征分别输入到抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络；再对抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化，再将数据标准化后的抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出输入到抑郁分析模块的多模态特征融合，得到抑郁特征。

优选的，抑郁分析模块训练过程应用的损失函数为：抑郁程度的预测值与真实值之间的均方误差根，公式如下：

其中，

RMSE

n：样本数量；

抑郁程度的评判标准为：0-9分为正常、10-13分为轻度抑郁、14-20分为中度抑郁，21-27分为重度抑郁，大于27分为非常严重。

优选的，焦虑分析模块的网络包括：

门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；视频特征和音频特征分别输入到焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络；再对焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化，再将数据标准化后的焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出输入到所述焦虑分析模块的多模态特征融合，得到所述焦虑特征。

优选的，焦虑分析模块训练过程应用的损失函数为：焦虑程度的预测值与真实值之间的均方误差根，公式如下：

其中，

RMSE

n:样本数量；

焦虑程度的评判标准为：0-7分为正常、8-9分为轻度焦虑、10-14分为中度焦虑，15-19分为重度焦虑，大于19分为非常严重。

优选的，压力分析模块的网络包括：

门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；视频特征和音频特征分别输入到压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络；再对压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化，再将数据标准化后的压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出输入到所述压力分析模块的多模态特征融合，得到压力特征。

优选的，压力分析模块训练过程应用的损失函数为：压力程度的预测值与真实值之间的均方误差根，公式如下：

其中，

RMSE

n：样本数量；

压力程度的评判标准为：0-14分为正常、15-18分为轻度压力、19-25分为中度压力，26-33分为重度压力，大于33分为非常严重。

优选的，融合分析模块采用注意力机制进行特征融合。

优选的，支持向量回归公式如下：

其中，

评估所述音频文件和视频文件中个体的精神状态的具体评判标准为：0-10分正常，11-20分为轻度受损，21-30分为重度受损，31-40分为重度受损，41-50分为非常严重。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

（1）通过多头注意力机制和多模态融合，不仅考虑了各个模态内精神状态的信息，还包含了模态之间的依赖关系，融合了音频和视频两种模态的信息，提高了精神状态分析的准确性；

（2）综合考虑了个体的抑郁特征、焦虑特征和压力特征，从多个角度进行多任务建模，相比于传统精神状态分析，更全面的考虑了个体的各个方面的信息，增强了精神状态分析的全面性；

（3）使用注意力机制将个体的抑郁特征、焦虑特征和压力特征进行融合，相比于传统的直接拼接融合，注意力融合考虑了每个特征不同的重要程度，赋予不同的权重，更好的利用神经网络的优势，具有更好的性能。

附图说明

图1为本发明实施例提供的基于多角度分析的多模态精神状态评估方法的结构图；

图2为本发明实施例提供的基于多角度分析的多模态精神状态评估方法的焦虑/抑郁/压力分析模块的数据流图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示本申请实施例提供的基于多角度分析的多模态精神状态评估的方法，包括：

S1：从原始视频中采集音频文件和视频文件，并对所述音频文件和视频文件进行数据预处理：

从音频文件中提取时域波形点和梅尔频率倒谱系数，将所述时域波形点和梅尔频率倒谱系数作为音频特征；

用FFMPEG工具从受试者原始MP4长视频文件中提取音频文件，并将所述音频文件以wav文件格式保存；将音频文件以16K HZ采样率进行采样，提取wav文件格式的音频文件的原始波形点，以mat格式保存；

从音频文件中提取时域波形点和梅尔频率倒谱系数的具体方法为：

对所述wav文件格式的音频文件通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦的方式进行预加重；

以512个采样点集合为一个观测单位，即每一帧是32ms，相邻两帧之间的重叠区域是50%的方式进行分帧；

加窗处理，采用哈明窗对一帧语音加窗，以减小吉布斯效应的影响；

然后再进行快速傅里叶变换得到傅里叶谱；

将所述傅里叶谱通过梅尔滤波器组，再进行对数运算，最后进行离散预先变换，再求其一阶差分和二阶差分，再加一位能量，得到梅尔频率倒谱系数；

将所述梅尔频率倒谱系数以mat格式进行保存；

将所述视频文件按6次/s频率采样得到图片序列，再将所述图片序列输入到ResNet-50预训练网络，得到视频编码向量，以mat格式进行保存；

用openface工具提取所述图片序列的人脸运动单元，以 csv格式保存；

将所述视频编码向量和人脸运动单元作为视频特征；

S2：将所述音频特征和视频特征分别输入抑郁分析模块、焦虑分析模块和压力分析模块进行多角度分析，得到抑郁特征、焦虑特征和压力特征；

如图2所示，所述抑郁分析模块的网络包括：

门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；所述视频特征和音频特征分别输入到抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络；再对所述抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化，再将数据标准化后的抑郁分析模块的门控循环单元、抑郁分析模块的多头注意力机制和抑郁分析模块的卷积神经网络的输出输入到所述抑郁分析模块的多模态特征融合，得到所述抑郁特征；

所述抑郁分析模块训练过程应用的损失函数为：抑郁程度的预测值与真实值之间的均方误差根，公式如下：

其中，

RMSE

n：样本数量；

所述抑郁程度的评判标准为：0-9分为正常、10-13分为轻度抑郁、14-20分为中度抑郁，21-27分为重度抑郁，大于27分为非常严重；

如图2所示，所述焦虑分析模块的网络包括：

门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；所述视频特征和音频特征分别输入到焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络；再对所述焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化，再将数据标准化后的焦虑分析模块的门控循环单元、焦虑分析模块的多头注意力机制和焦虑分析模块的卷积神经网络的输出输入到所述焦虑分析模块的多模态特征融合，得到所述焦虑特征；

所述焦虑分析模块训练过程应用的损失函数为：焦虑程度的预测值与真实值之间的均方误差根，公式如下：

其中，

RMSE

n:样本数量；

所述焦虑程度的评判标准为：0-7分为正常、8-9分为轻度焦虑、10-14分为中度焦虑，15-19分为重度焦虑，大于19分为非常严重；

如图2所示，所述压力分析模块的网络包括：

门控循环单元、多头注意力机制、激活函数、数据标准化、卷积神经网络以及多模态特征融合；所述视频特征和音频特征分别输入到压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络；再对所述压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出进行一次激活函数激活和数据标准化，再将数据标准化后的压力分析模块的门控循环单元、压力分析模块的多头注意力机制和压力分析模块的卷积神经网络的输出输入到所述压力分析模块的多模态特征融合，得到所述压力特征；

所述压力分析模块训练过程应用的损失函数为：压力程度的预测值与真实值之间的均方误差根，公式如下：

其中，

RMSE

n：样本数量；

所述压力程度的评判标准为：0-14分为正常、15-18分为轻度压力、19-25分为中度压力，26-33分为重度压力，大于33分为非常严重；

每个模块的具体参数设置如下：

分析模块首先将音频特征和视频特征输入到门控循环单元，门控循环单元是长短期记忆网络的变体，可以捕捉上下文依赖关系，也解决了长依赖和梯度消失的问题，其结构简单，效果也更好；再经过多头注意力机制，这里注意力头数设置为8，表示从8个不同的角度计算特征表示；再经过卷积神经网络提取特征，这里卷积核的个数是512，大小是3×3，卷积神经网络在提取局部特征方面具有优秀的性能；上述三个操作后都进行一次激活函数激活和数据标准化，激活函数是参数整流线性单元PReLU可以增加非线性，数据标准化是批标准化，不仅解决了数据偏移的影响，而且可以加快训练速度；最后将音频特征和视频特征拼接起来通过全连接神经网络融合，形成抑郁特征、焦虑特征和压力特征的多角度特征，这里神经元的个数是1024。损失函数为预测值与实际值之间的均方误差根，经过若干次迭代训练后，抑郁分析模块、焦虑分析模块和压力分析模块可以分别分析被试者的抑郁程度、焦虑程度和压力程度；将训练好的三个模块放入模型中进行最后的训练；

具体模型结构如下：

门控循环单元公式如下：

其中

多头注意力机制公式如下：

其中，Q、K、V分别表示输入的查询、键和值的集合，公式如下：

使用多头注意力机制对输入进行自注意力计算，可以从多角度分析特征，以及增强有用的特征和抑制无用的特征；

激活函数使用参数整流线性单元，公式如下：

其中

数据标准化采用批标准化，公式如下：

其中

S3：将所述抑郁特征、焦虑特征和压力特征输入到融合分析模块进行注意力特征融合，得到融合特征；所述融合分析模块采用注意力机制进行特征融合；

融合分析模块采用注意力机制进行特征融合，公式如下：

其中

因为被试者的焦虑状态，抑郁状态和压力状态对精神状态评估的贡献是不同的，用注意力机制将焦虑特征、抑郁特征和压力特征进行融合，可以使模型自动学习特征的权重，强调贡献大的特征并抑制无用的特征；

S4：将所述融合特征输入支持向量回归，评估所述音频文件和视频文件中个体的精神状态；

所述支持向量回归公式如下：

其中，

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于多角度分析的多模态精神状态评估方法 [P] . 中国专利： CN113274023B . 2021.12.14
2. 基于多角度分析的多模态精神状态评估方法 [P] . 中国专利： CN113274023A . 2021-08-20
3. Mental state assessment apparatus and mental state assessment method [P] . 欧洲知识产权局专利： EP1479342B1 . 2009-09-30

机译：精神状态评估装置和精神状态评估方法
4. Mental state assessment apparatus and mental state assessment method [P] . 欧洲知识产权局专利： EP1479342A3 . 2005-01-26

机译：精神状态评估装置和精神状态评估方法
5. Mental state assessment apparatus and mental state assessment method [P] . 欧洲知识产权局专利： EP1479342A2 . 2004-11-24

机译：精神状态评估装置和精神状态评估方法