首页> 中国专利> 基于多模信息智能处理单元的多模信息融合情感分析方法

基于多模信息智能处理单元的多模信息融合情感分析方法

摘要

本发明公开了基于多模信息智能处理单元的多模信息融合情感分析方法,基于实现多模态融合的情感分析任务的目的,准备数据集;对数据集预处理,并设置一般性前提,分别基于视觉信息、音频信息文本信息提取情感特征;融合多模情感特征;构建实时情感分析框架,获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并作出最终的情感判定。本发明公开的多模信息智能处理单元通过将视频、音频和文本三个通道的特征整体提取,以增强情感特征提取的强度,并进一步通过多模信息融合处理进行最终的情感分析。在使用ISEAR、CK++、eNTERFACE等数据集的实验中,本发明公开的方法参数量适中,准确率较高,拥有良好的性能。

著录项

  • 公开/公告号CN112418172A

    专利类型发明专利

  • 公开/公告日2021-02-26

    原文格式PDF

  • 申请/专利权人 苏州元启创人工智能科技有限公司;

    申请/专利号CN202011440100.8

  • 发明设计人 毛史清;

    申请日2020-12-11

  • 分类号G06K9/00(20060101);G06F40/30(20200101);G10L25/63(20130101);

  • 代理机构32103 苏州创元专利商标事务所有限公司;

  • 代理人范晴

  • 地址 215332 江苏省苏州市昆山市花桥经济开发区光明路88号中铁建设大厦11楼

  • 入库时间 2023-06-19 10:00:31

说明书

技术领域

本发明属于情感分析领域,涉及一种基于多模信息智能处理单元的多模信息融合情感分析方法。

背景技术

情感在人们的日常生活中起着至关重要的作用,它有助于决策、学习、交流和以人为中心的环境中的情景意识。在过去二十多年的时间里,人工智能研究人员一直试图赋予机器识别、解释和表达情感的能力,实际上这就是业界常说的情感计算,是一个融合了计算机视觉、自然语言处理、音频处理、心理学和思维科学的跨学科研究领域。

情感计算和情感分析越来越成为社交媒体运营的一个重要技术趋势,这能帮助产品开发人员更好地理解用户的情感和实际需求,从而能够更好地优化产品。随着互联网技术的快速发展和包括微博在内的社交媒体的快速崛起,用户开始越来越频繁地在各个社交媒体发布包含视频、音频和文本等信息的动态。同样地,在各个电子商务平台,消费者也通过包含多模信息的评论来对商品有更深入的了解,比较商品之间的差异。除了上述两点,情感计算在智能设备和人才评估等领域有着广泛且重要的应用。

融合了视频、音频等信息的情感分析方法比仅依赖文本分析的情感分析方法能获得更多的情感特征和分析线索。文本分析仅能通过单词、短语和它们之间的依赖关系来分析和判定情感,这种方式有很大的局限性,因为人的情感是复杂的。而视频和音频提供了更多可用于情感计算的信息和特征,如表情、神态、声音的响度和频率等,这些都是情感分析的重要依据。因此,将视频、音频、文本等信息融合处理可以帮助构建一个更好的情感分析方法。

特征提取和特征融合都是多模态情感分析的关键,现有的多模情感分析方法可分为两大类:从单一模式中提取特征的方法,以及从不同模式中融合特征的方法。

在利用视觉信息方面,已有的方法表明,通用的面部表情为检测情绪提供了足够的线索,这类方法往往把愤怒、悲伤、惊讶、恐惧、厌恶和喜悦作为六个基本的情感类别。这种基本的情感类别足以较为全面地描述通过面部表情表现出的大部分情感。然而,这类方法忽略了尊重、敬畏等其他常见情感,所以又有研究者将蔑视作为第七种基本情感。情感面部动作编码系统EFACS是这类方法的常用基准框架,利用这类框架的方法有主动外观模型和基于光流的技术等,然而这类方法都使用不同的手工构建的语料库和数据集,无法找到有效的方法评估它们的性能。

在利用音频信息方面,已有的方法基于几个声学特征,如频率、振幅、周期等,都取得了一定的成果。然而,在许多处理大量用户数据的应用中,单纯依赖音频的几个特征是不可行的。随后有研究人员从语音中提取了五个韵律特征,并结合多层神经网络进行情感分析,结果表明该方法更容易识别出悲伤和愤怒,而对喜悦和恐惧的识别效果并不是很好。

在利用文本信息方面,这是自然语言处理领域的一个快速发展的方向,近年来越来越受到研究界和工业界的关注。情感分析工具将帮助公司更加了解用户对产品的感受,在其他领域也有广泛的应用。已有的许多方法旨在识别单词、短语、句子、文档中的积极、中立或消极情绪。到目前为止,基于文本的情感分析方法主要依赖基于规则的技术,使用大型情感词汇表进行词袋的建模,或构建包含大量标签的数据集,再通过有监督或无监督的分类器来进行识别。

实现多模态信息融合是进一步提升情感分析能力的重要前提,而多模态融合的主要挑战之一是开发和规范一种方法,该方法能在不同的时间尺度和测量值上整合来自不同来源的认知和情感信息。主要有两种融合策略:特征级融合和决策级融合。特征级融合往往需要在执行分类操作之前,将每个输入通道中提取的特征结合在一个联合向量中,而在决策级融合中每个模式都是独立建模和分类的,但是在许多情况下,已有的方法仍然不能达到最优的信息融合配置。

在情感计算领域已经有很多相关工作,然而大多数方法仅仅能处理单一模式的信息,即基于文本、基于音频或基于视频。这类方法往往满足在一定应用场景下的健壮性,但不具备普适性,无法适应更多普遍的应用场景。基于多传感器的数据融合方法的目的是提高估计的准确性和可靠性,这类先前工作已经证明了数据融合技术的潜力,也意味着开发一个多模融合框架的重要性和可行性。

发明内容

通过对上述相关技术背景和已有方法的研究和分析,为了进一步提升基于多模信息融合的情感分析效果,本发明提出了一种基于多模信息智能处理单元的情感分析方法,其中,多模信息智能处理单元通过将视频、音频和文本三个通道的信息融合处理,来实现整体特征的提取,以增强情感特征提取的强度。在使用ISEAR、CK++、eNTERFACE等数据集的实验中,本发明公开的方法参数量适中,准确率较高,拥有良好的性能。

本发明提供如下技术方案和步骤:

S1:数据集的准备,基于实现多模态融合的情感分析任务的目的,本方法可以采用自构建的数据集,但建议采用该领域比较成熟通用的数据集ISEAR、CK++、eNTERFACE等;

S2:数据集预处理和一般性前提设置,本发明在基于Ekman的六个情感类别中增加一个类别“neutral”,来进行进一步工作;

S3:基于视觉信息的情感特征提取,主要依据是静止图像,在T0时刻,实体开始在镜头前表达情感,并在Tn时刻结束,训练出一个可以区分“neutral”类和其他特定类的情感分类器,专门用于静态图像的分类。再建立一个基于视频切帧的特征向量,将剪辑分成一组单独的帧,并利用上述方法在这些帧中提取特征,最后在所有视频帧的情感标签上使用多数投票来确定视频流的情感;

S4:基于音频信息的情感特征提取,首先从数据集中的视频文件中提取音频信号,该信号的比特率一般为1536Kbps,频率为48Hz,然后从音频信号中提取出音频特征,其中短时间的特征主要用于区分信号的时间特征,通常从每个短时间窗口(帧)中提取,紧接着,计算所有窗口(帧)的均方根值(RMS),然后将那些总和超过频谱率的FFT记为紧凑型。针对长时间的特征,通过聚合从一个时间窗口内的几个连续帧中提取的短期特征来生成;

S5:基于文本信息的情感特征提取,本发明提出了一种情感范式,该范式认为文本既表达了语义也表达了情感,首先是构建一个概念词袋,对于文本中的每个概念、本发明从语义空间中获得一个100维的特征向量,然后通过坐标求和将单个概念向量聚合成一个文档级向量,然后求和生成一个标量特征。针对否定可以直接改变陈述的意义这一特殊情况,本发明对否定也予以特别的识别,并根据语义逆转与否标记后面的概念对应的特征的极性;

S6:多模情感特征融合,本发明是一种特征级融合,旨在将多模信息智能处理单元提取的所有特征向量结合起来,具体来说就是将所有的三种模式的特征向量连接起来,形成一个单一的长特征向量,这种方式有意的最显著的优点就是尽可能地提升了精确度;

S7:构建实时情感分析框架,该框架的重要特点是获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并在基于上述流程运行之后作出最终的情感判定。

进一步,在步骤S1中,ISEAR数据集是在1990年代对37个国家进行调查研究之后构建的,大约有3000名答复者,选择这个数据集的动机是因为与其他语料库相比,这个数据集具备特别丰富的情感相关词汇,在本发明中被用作情感注释语料库,构建文本情感分析训练模型;CK++数据集是一个由210名成人面部行为图像组成的综合数据集,年龄在18-50岁之间,具体包括593个面部图像序列;eNTERFACE数据集通过来自14个民族的42名受试者在听了六个连续短篇小说之后回答有关情感方面的问题构建的。

进一步,在步骤S3中,本发明训练出一个可以区分“neutral”类和其他特定类的情感分类器,专门用于静态图像的分类,也相当于从视频中提取了一定的情感特征,接下来的工作分为两个步骤:首先,本发明使用训练好的分类器来确定静态图像的情绪的七分类(包括“neutral”类),其次利用分类器来确定图像的六分类(不包括“neutral”类)。这两个步骤均使用相同的特征集;此外,为了建立一个基于视频切帧的特征向量,本发明首先将剪辑分成一组单独的帧,并利用上述方法在这些帧中提取特征,然后将这些图像分类为包含“neutral”类的七个情感类别中,再利用单个帧的特征向量的坐标平均建立了视频剪辑特征向量。

进一步,在步骤S4中,提取出来的音频特征,有两种广泛的音频特性:基于短时间和长时间的特性。基于短时间的特征主要用于区分信号的时间特征,通常从每个短时间窗口(帧)中提取,在此期间,音频信号被假定为平稳的、是有关这些特征的更多细节。同时利用了短时傅里叶变换STFT计算了梅尔频谱系数MFCC,首先去震级谱的对数振幅,然后对快速傅里叶变换FFT桶进行分组和平滑,根据感知激励的Mel频率缩放,得到最佳的分类结果。光谱质心是STFT的震级谱的重心,质心用于测量光谱形状,质心的较高值表示频率较高的较亮纹理;然后将那些总和超过频谱率的FFT记为紧凑型,也是一种信号噪音的量度。此外还可以通过时域零交叉评估信号量的噪音。针对长时间的特征,通过聚合从一个时间窗口内的几个连续帧中提取的短期特征来生成。可使用导数、标准差、运行平均值、运行均值的导数和运行均值的标准差作为短时间聚合的评估方式。

进一步,在步骤S5中,识别文本中的情感是一项具有挑战性的任务,因为文本单词中语义的模糊性、复杂性以及反讽情况的出现,此外,每个人的写作风格也不尽相同,以及人与人之间的语言、文化的差异性都给这项工作带来了挑战。本发明提出了一种情感范式,该范式认为文本既表达了语义也表达了情感。首先是构建一个概念词袋,对于文本中的每个概念、本发明从语义空间中获得一个100维的特征向量,然后通过坐标求和将单个概念向量聚合成一个文档级向量,从文本提取出的每个概念的极性分数是在框架中的ScenticNet中得到的,并求和生成一个标量特征。此外,否定可以直接改变陈述的意义,本发明对否定也予以特别的识别,并根据语义逆转与否标记后面的概念对应的特征的极性。在提取完所有特征后,本发明在ISEAR数据集上通过训练模型建立了文本分析,并在eNTERFACE数据集中的视频文件的转录过程中与该模型进行了融合。

进一步,在步骤S6中,多模态融合是任何多模态情感分析方法的核心,主要有两种融合技术:特征级融合和决策级融合。本发明是一种特征级融合,旨在将多模信息智能处理单元提取的所有特征向量结合起来,本发明采取了一种轻量级的融合方式,具体来说就是将所有的三种模式的特征向量连接起来,形成一个单一的长特征向量,这种方式有意的最显著的优点就是尽可能地提升了精确度。本发明还使用了eNTERFACE数据集从多模态内容中检测情感,充分考虑了数据集中可用的视觉和音频线索,并融合后获得与数据相关的情感特征,具体来说,首先从音频和视频数据中提取关键特征,然后分析音频和视觉特征之间的交叉模态关系,随后利用HMM分类器来进行情感识别,并测量记录连续时间段之间的统计依赖性。通过验证可以得到,本发明提出的方法具备良好的精度提升,平均能得到87.95%的精度。

进一步,在步骤S7中,本发明建立了一种实时多模态情感分析框架。该框架的重要特点是获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并在基于上述流程运行之后作出最终的情感判定。

本发明的有益效果:

本发明的基于多模数据融合的情感分析方法,基于计算机视觉、自然语言处理和音频处理等技术,采用多模信息智能处理单元,该单元能够在电子商务、人机交互、人才评估等实际应用场景中,处理、融合和分析多模数据所蕴含的情感等信息。本发明公开的多模信息智能融合处理单元通过将视频、音频和文本三个通道的信息融合处理,来实现整体特征的提取,以增强情感特征提取的强度。在使用ISEAR、CK++、eNTERFACE等数据集的实验中,本发明公开的方法参数量适中,准确率较高,拥有良好的性能。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:

图1为本发明基于多模信息智能处理单元的多模信息融合情感分析方法实施流程图;

图2为本发明所述的多模信息智能处理单元的;

图3为本发明所述的实时多模态情感分析框架。

具体实施方式

下面将结合附图和实施例,对本发明作进一步说明,但本发明的实施方式不限于此。

参照图1,是本发明基于多模信息智能处理单元的多模信息融合情感分析方法的具体实施流程图,本发明所述的一种基于多模信息智能处理单元的多模信息融合情感分析方法,包括以下步骤:

101、数据集的准备,基于实现多模态融合的情感分析任务的目的,本方法可以采用自构建的数据集,但建议采用该领域比较成熟通用的数据集ISEAR、CK++、eNTERFACE等;

102、数据集预处理和一般性前提设置,本发明在基于Ekman的六个情感类别中增加一个类别“neutral”,来进行进一步工作;

103、基于视觉信息的情感特征提取,主要依据是静止图像,在T0时刻,实体开始在镜头前表达情感,并在Tn时刻结束,训练出一个可以区分“neutral”类和其他特定类的情感分类器,专门用于静态图像的分类。再建立一个基于视频切帧的特征向量,将剪辑分成一组单独的帧,并利用上述方法在这些帧中提取特征,最后在所有视频帧的情感标签上使用多数投票来确定视频流的情感;

104、基于音频信息的情感特征提取,首先从数据集中的视频文件中提取音频信号,该信号的比特率一般为1536Kbps,频率为48Hz,然后从音频信号中提取出音频特征,其中短时间的特征主要用于区分信号的时间特征,通常从每个短时间窗口(帧)中提取,紧接着,计算所有窗口(帧)的均方根值(RMS),然后将那些总和超过频谱率的FFT记为紧凑型。针对长时间的特征,通过聚合从一个时间窗口内的几个连续帧中提取的短期特征来生成。;

105、基于文本信息的情感特征提取,本发明提出了一种情感范式,该范式认为文本既表达了语义也表达了情感,首先是构建一个概念词袋,对于文本中的每个概念、本发明从语义空间中获得一个100维的特征向量,然后通过坐标求和将单个概念向量聚合成一个文档级向量,然后求和生成一个标量特征。针对否定可以直接改变陈述的意义这一特殊情况,本发明对否定也予以特别的识别,并根据语义逆转与否标记后面的概念对应的特征的极性;

106、多模情感特征融合,本发明是一种特征级融合,旨在将多模信息智能处理单元提取的所有特征向量结合起来,具体来说就是将所有的三种模式的特征向量连接起来,形成一个单一的长特征向量,这种方式有意的最显著的优点就是尽可能地提升了精确度;

107、构建实时情感分析框架,该框架的重要特点是获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并在基于上述流程运行之后作出最终的情感判定。

在步骤103、104、105中,是分别基于视觉、音频和文本信息的情感特征提取,其处理流程及原理如下:

参照图2,本发明提出了一种多模信息智能处理单元,其主要工作步骤是:通过将视频、音频和文本三个通道的特征整体提取,以增强情感特征提取的强度。并将多个模态的特征进行融合。

(A)基于视觉信息的情感特征提取:

众所周知,人类在很大程度上通过面部表达情感。面部表情在基于多模态数据的情感分析方法中也起到十分重要的作用。其中可以通过已有的面部表情分析系统自动识别与面部表情相关的情绪特征,并对面部表情进行分类。本发明基于Ekman的六个情感类别和一个额外的情感类别:neutral,来进行进一步工作。

在本发明中,基于视觉信息的情感特征提取主要依据是静止图像,首先围绕静态图像进行数据预处理,本发明使用CK++和eNTERFACE数据集来训练和评估面部表情分析系统的性能。CK++数据集包含从T0到Tn时刻的表达特定情感的n个面部图像序列,在T0时刻,实体开始在镜头前表达情感,并在Tn时刻结束。该序列的前几幅图像对应情绪“neutral”,其余的图像序列对应一个特定的情感表达。本发明手动将每个序列中的图像分为两类:“neutral”情绪和特定情绪。

由于本发明中的分类器与单个图像协同工作,而不是与序列一起工作,所以本发明认序列式单个图像的集合,这些单独的图像以及它们指定的类别,构成了本部分的数据集,其中包括7中情绪类别的5877张面部图像。为了从面部图像中提取面部特征点FCPs,本发明可利用各类人脸识别软件。

利用上述步骤,训练出一个可以区分“neutral”类和其他特定类的情感分类器,专门用于静态图像的分类,也相当于从视频中提取了一定的情感特征,接下来的工作分为两个步骤:首先,本发明使用训练好的分类器来确定静态图像的情绪的七分类(包括“neutral”类),其次利用分类器来确定图像的六分类(不包括“neutral”类)。这两个步骤均使用相同的特征集,在利用ELM等主流分类器条件下均提升了单峰分类的准确性。

此外,为了建立一个基于视频切帧的特征向量,本发明首先将剪辑分成一组单独的帧,并利用上述方法在这些帧中提取特征,然后将这些图像分类为包含“neutral”类的七个情感类别中,再利用单个帧的特征向量的坐标平均建立了视频剪辑特征向量,表达式如下:

本其中x

与静态图像类似,本发明将eNTERFACE数据集的视频切分为图像帧,然后将上述训练好的两阶段分类器应用于序列的各个帧,最后在所有视频帧的情感标签上使用多数投票来确定视频流的情感。

(B)基于音频信息的情感特征提取:

对于音频的情感识别,本发明使用eNTERFACE作为训练和测试数据集。首先从数据集中的视频文件中提取音频信号,该信号的比特率一般为1536Kbps,频率为48Hz,然后从音频信号中提取相关特征。提取出来的音频特征,有两种广泛的音频特性:基于短时间和长时间的特性。

基于短时间的特征主要用于区分信号的时间特征,通常从每个短时间窗口(帧)中提取,在此期间,音频信号被假定为平稳的、是有关这些特征的更多细节。同时利用了短时傅里叶变换STFT计算了梅尔频谱系数MFCC,首先去震级谱的对数振幅,然后对快速傅里叶变换FFT桶进行分组和平滑,根据感知激励的Mel频率缩放,得到最佳的分类结果。频谱质心是STFT的震级谱的重心,质心用于测量频谱形状,质心的较高值表示频率较高的较亮纹理,频谱质心的计算公式为:

其中,M

其中,N

紧接着,计算所有窗口(帧)的均方根值(RMS),设x

然后将那些总和超过频谱率的FFT记为紧凑型,也是一种信号噪音的量度。此外还可以通过时域零交叉评估信号量的噪音。针对长时间的特征,通过聚合从一个时间窗口内的几个连续帧中提取的短期特征来生成。可使用导数、标准差、运行平均值、运行均值的导数和运行均值的标准差作为短时间聚合的评估方式。

此外,为了找到人类对可感知信号的可感知方式,本发明主要提取三个重要的语义特征:节拍直方图、最强的节拍和节拍和。其中,节拍直方图是一种直方图,显示信号中不同节奏周期的相对强度,是RMS的自相关;节拍和是节拍直方图中所有条目的总和,这是一个很好的衡量信号中规则节拍重要性的指标;最强节拍被定义为信号中最强的节拍,以每分钟的节拍为单位,也是基于节拍直方图的一种指标数据。

(C)基于文本信息的情感特征提取:

识别文本中的情感是一项具有挑战性的任务,因为文本单词中语义的模糊性、复杂性以及反讽情况的出现,此外,每个人的写作风格也不尽相同,以及人与人之间的语言、文化的差异性都给这项工作带来了挑战。本发明提出了一种情感范式,该范式认为文本既表达了语义也表达了情感,如下所述。

首先是构建一个概念词袋,对于文本中的每个概念、本发明从语义空间中获得一个100维的特征向量,然后通过坐标求和将单个概念向量聚合成一个文档级向量,如下公式所示:

其中,x

从文本提取出的每个概念的极性分数是在框架中的ScenticNet中得到的,并求和生成一个标量特征。此外,否定可以直接改变陈述的意义,本发明对否定也予以特别的识别,并根据语义逆转与否标记后面的概念对应的特征的极性。在提取完所有特征后,本发明在ISEAR数据集上通过训练模型建立了文本分析,并在eNTERFACE数据集中的视频文件的转录过程中与该模型进行了融合。

在步骤106中,对多模信息智能处理单元提取的三个模态的特征进行融合,其处理流程及原理如下:

通过上述多模信息智能处理单元提取了三个模态的情感特征之后,还需要对特征进行融合并进行最终的情感分析:

多模态融合是任何多模态情感分析方法的核心,主要有两种融合技术:特征级融合和决策级融合。本发明是一种特征级融合,旨在将多模信息智能处理单元提取的所有特征向量结合起来,本发明采取了一种轻量级的融合方式,具体来说就是将所有的三种模式的特征向量连接起来,形成一个单一的长特征向量,这种方式有意的最显著的优点就是尽可能地提升了精确度。

本发明还使用了eNTERFACE数据集从多模态内容中检测情感,充分考虑了数据集中可用的视觉和音频线索,并融合后获得与数据相关的情感特征,具体来说,首先从音频和视频数据中提取关键特征,然后分析音频和视觉特征之间的交叉模态关系,随后利用HMM分类器来进行情感识别,并测量记录连续时间段之间的统计依赖性。通过验证可以得到,本发明提出的方法具备良好的精度提升,平均能得到87.95%的精度。

参照图3,本发明基于上述流程,建立一种实时多模态情感分析框架。该框架的重要特点是获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并在基于上述流程运行之后作出最终的情感判定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号