公开/公告号CN114863447A
专利类型发明专利
公开/公告日2022-08-05
原文格式PDF
申请/专利权人 齐鲁工业大学;
申请/专利号CN202210283168.2
申请日2022-03-22
分类号G06V30/40(2022.01);G06V30/19(2022.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构济南圣达知识产权代理有限公司 37221;
代理人赵妍
地址 250353 山东省济南市长清区大学路3501号
入库时间 2023-06-19 16:16:00
法律状态公告日
法律状态信息
法律状态
2022-08-23
实质审查的生效 IPC(主分类):G06V30/40 专利申请号:2022102831682 申请日:20220322
实质审查的生效
2022-08-05
公开
发明专利申请公布
技术领域
本发明属于情感分析技术领域,具体涉及一种基于多粒度特征注意力融合的图文情感分析方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
社交媒体已经成为我们进行信息交流的重要平台。在大数据时代,每秒钟,数十亿捕捉我们周围发生的各种事件的图像和文本被传到世界各地的社交媒体平台上。这些以图像和文本形式组成的多模态数据蕴含着丰富的信息,对这些多模态数据进行情感分析在对用户行为的分析和预测有着重要的意义。比如一些实际的应用,个性化推荐、股票预测、医疗保健。
目前研究在进行图文数据的情感分析过程中,既考虑了图片数据和文本数据,但是这些研究都没有考虑到图片和文本的内在联系,通常缺乏多粒度的架构来处理多模态数据内容的交互。
发明内容
为了解决上述问题,本发明提出了一种基于多粒度特征注意力融合的图文情感分析方法及系统,本发明提出了用于多模态情感分析的多粒度注意力模型来发现图像与其文本描述之间的复杂关联关系,在交互式信息融合层利用不同粒度文本特征与图片特征进行交互融合可以更加全面的考虑到图片与文本之间不同粒度之间的关联关系。
根据一些实施例,本发明的第一方案提供了一种基于多粒度特征注意力融合的图文情感分析方法,采用如下技术方案:
一种基于多粒度特征注意力融合的图文情感分析方法,包括:
获取文本数据和图像数据并进行预处理;
基于预处理后的文本数据和图像数据,利用训练好的多粒度特征注意力融合网络进行图文情感分析;
其中,所述训练多粒度特征注意力融合网络的过程,具体为:
获取文本数据的多粒度文本特征和图像数据的图像特征;
将多粒度文本特征进行拼接获取多粒度联合文本特征;
将多粒度联合文本特征与图像特征进行交互学习,挖掘多粒度联合文本特征和图像特征之间的关联关系,得到带有文本注意力的图像特征;
将交互学习后的带有文本注意力的图像特征与多粒度联合文本特征融合进行情感分类。
进一步地,所述多粒度文本特征包括单词级别特征、短语级别特征以及句子级别特征。
进一步地,所述多粒度文本特征的获取过程,具体为:
利用词嵌入模型获取本文描述中的单词嵌入向量,即单词级别特征;
基于相邻三个单词组成的词语,采用卷积神经网络获取词语嵌入向量,即短语级别特征;
利用双向长短时记忆循环神经网络来获取带有上下文序列信息的向量表示,即句子级别特征。
进一步地,所述获取图像数据的图像特征,具体为:
对图像数据进行像素调整;
基于调整后的图像数据,利用预先训练好的残差网络ResNet-152模型得到图像特征表示;
其中,利用预先训练好的残差网络ResNet-152模型得到图像特征表示,具体为:
y=ResNet(I)
其中,y为图像I的图像特征表示,
进一步地,所述将多粒度联合文本特征与图像特征进行交互学习,挖掘多粒度联合文本特征和图像特征之间的关联关系,得到带有文本注意力的图像特征,具体为:
将多粒度联合文本特征与图像特征映射到同一维度空间;
基于图像特征与多粒度联合文本特征相关性,将注意力权重分配给每个图像的区域特征;
由所有的区域特征以及其注意力分数加权,得到带有文本注意力的图像特征。
进一步地,所述将多粒度联合文本特征与图像特征映射到同一维度空间,如下:
t=T
T=tanh(W
v=tanh(W
其中,多粒度联合文本特征t;图像特征v;
进一步地,所述将图像特征基于与多粒度联合文本特征相关性将注意力权重分配给每个区域特征,具体为:
g=tanh(T
V=∑vβ
其中,g为注意力打分函数,β为经过softmax处理的标准化注意力权重,带有注意力的图像特征由注意力权重与每个区域特征加权得到,V为多粒度文本特征引导注意力的图像特征。
根据一些实施例,本发明的第二方案提供了一种基于多粒度特征注意力融合的图文情感分析系统,采用如下技术方案:
一种基于多粒度特征注意力融合的图文情感分析系统,包括:
数据获取模块,被配置为获取文本数据和图像数据并进行预处理;
图文情感分析模块,被配置为基于预处理后的文本数据和图像数据,利用训练好的多粒度特征注意力融合网络进行图文情感分析;
其中,所述训练多粒度特征注意力融合网络的过程,具体为:
获取文本数据的多粒度文本特征和图像数据的图像特征;
将多粒度文本特征进行拼接获取多粒度联合文本特征;
将多粒度联合文本特征与图像特征进行交互学习,挖掘多粒度联合文本特征和图像特征之间的关联关系,得到带有多粒度联合文本特征的图像特征;
将交互学习后的带有多粒度联合文本特征的图像特征与多粒度联合文本特征融合进行情感分类。
根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于多粒度特征注意力融合的图文情感分析方法中的步骤。
根据一些实施例,本发明的第四方案提供了一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于多粒度特征注意力融合的图文情感分析方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明提出的模型在特征学习层不仅仅学习了单词这一粒度特征,还学习了短语和句子这两种粒度的特征,在交互式信息融合层利用不同粒度文本特征与图片特征进行交互融合可以更加全面的考虑到图片与文本之间不同粒度之间的关联关系。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一所述的基于多粒度特征注意力融合的图文情感分析方法的流程图;
图2是本发明实施例一所述的多粒度特征注意力融合网络模型图;
图3(a)是本发明实施例一所述的短语级别特征提取流程图;
图3(b)是本发明实施例一所述的句子级别特征提取流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
如图1-图3所示,本实施例提供了一种基于多粒度特征注意力融合的图文情感分析方法,该方法包括以下步骤:
步骤S1:获取文本数据和图像数据并进行预处理;
步骤S2:基于预处理后的文本数据和图像数据,利用训练好的多粒度特征注意力融合网络进行图文情感分析;
其中,在步骤S2中,所述训练多粒度特征注意力融合网络的过程,具体为:
获取文本数据的多粒度文本特征和图像数据的图像特征;
将多粒度文本特征进行拼接获取多粒度联合文本特征;
将多粒度联合文本特征与图像特征进行交互学习,挖掘多粒度联合文本特征和图像特征之间的关联关系,得到带有文本注意力的图像特征;
将交互学习后的带有文本注意力的图像特征与多粒度联合文本特征融合进行情感分类。
本实施例提出的多粒度特征注意力融合网络总共包含三层,特征学习层、交互式信息融合层以及分类层;网络结构如图2所示。
特征学习层学习提取多粒度文本特征以及图片特征。
交互式信息融合层学习图片与文本间的多粒度联合文本特征关联性,该层将情感图像区域与相应的多粒度联合文本描述关联起来,即多粒度联合文本对图像的注意,使图像区域特征与单词、短语、句子多粒度的文本进行交互,获取到不同粒度文本特征关注的视觉区域特征。并将具有图片文本注意力的图像特征和多粒度联合文本特征融合得到图片联合特征。
最后的分类层将交互式信息融合层获取到的图片联合特征进行分类得出情感极性。
其中,所述多粒度文本特征包括单词级别特征、短语级别特征以及句子级别特征。
在步骤S2中,所述多粒度文本特征的获取过程,具体为:
利用词嵌入模型获取本文描述中的单词嵌入向量,即单词级别特征;
基于相邻三个单词组成的词语,采用卷积神经网络获取词语嵌入向量,即短语级别特征;
利用双向长短时记忆循环神经网络来获取带有上下文序列信息的向量表示,即句子级别特征。
首先将文本描述输入到词嵌入模型(Word Embedding)得到单词嵌入向量:
其中G
使用公开的词嵌入模型-GloVe模型获取单词嵌入向量,预训练好的GloVe 词嵌入模型是现有已经训练好的。
与图像区域进行匹配关联时,存在图像区域对应于短语级别的信息。与单个单词相比,短语可以提供更加丰富的语义信息,因此本文通过相邻三个单词组成的短语进行嵌入,获取词语嵌入向量。
具体的,本文采用一层卷积层和一层池化层来获取短语特征:
x
x
其中,x
基于短语特征的基础,使用卷积神经网络模型获取短语特征。
具体操作为使用大小为三的卷积核进行卷积,然后使用一层池化层降维获取短语特征。
在进行句子特征提取的过程中,本文使用双向长短时记忆循环神经网络 (Bi-directional LSTM RNN)来获取带有上下文序列信息的向量表示。
双向长短时记忆循环神经网络接受单词嵌入向量x
其中
整个句子中的所有单词相对于情感预测的作用是不平等的,有些单词具有较多的情感意义信息。因此在对句子特征向量提取的过程中应该增大某些词的影响力。为此在构建句子特征提取网络中引入注意力为每个单词分配一个对应句子表示中的影响力权重。在双向长短时记忆神经网络的输出进行加权以突出关键单词的影响力,获得更加精确的句子特征表示。
e
其中e
所述获取图像数据的图像特征,具体为:
对图像数据进行像素调整,将输入图像I
在进行使用残差网络提取图像特征之前对图像的预处理为将图像大小统一调整为224×224像素。采用在ImageNet数据集上训练好的残差网络ResNet-152 进行图像特征的提取。
基于调整后的图像数据,利用预先训练好的残差网络ResNet-152模型得到图像特征表示;
其中,利用预先训练好的残差网络ResNet-152模型得到图像特征表示,具体为:
y=ResNet(I) (9)
其中,y为图像I的图像特征表示,
在步骤S3中,所述将多粒度联合文本特征与图像特征进行交互学习,挖掘多粒度联合文本特征和图像特征之间的关联关系,具体为:
将多粒度联合文本特征与图像特征映射到同一维度空间;
基于图像特征与多粒度联合文本特征的相关性,将注意力权重分配给每个图像的区域特征;
由所有的区域特征以及其注意力分数加权,得到带有文本注意力的图像特征。
采用多层感知机模型将带有文本注意力的图像特征和多粒度联合文本特征融合,得到图片联合特征。
将多粒度文本特征进行拼接获取联合文本特征,然后将多粒度文本联合特征和图像特征映射到同一维度空间。映射过程描述如下:
t=T
T=tanh(W
v=tanh(W
其中,联合文本特征t;图像特征v;
基于图像特征V
g=tanh(T
V=∑vβ (15)
其中,g为注意力打分函数,β为经过softmax处理的标准化注意力权重,带有注意力的图像特征由注意力权重与每个区域特征加权得到,V为多粒度文本特征引导注意力的图像特征。
带有文本注意力的图像特征由所有的区域特征以及其注意力分数加权所得到。
采用多层感知机模型(Multi-layer Perceptron,MLP)将带有文本注意力的图像特征和多粒度文本特征融合:
其中H
将图像和文本的联合特征输入到softmax层进行情感标签 F∈{positive,netural,negative}的分类:
p(H)=softmax(W
在模型训练阶段本文使用多分类交叉熵作为softmax层的目标函数来计算损失:
K为标签种类的数量,本文中k=3;F
实施例二
本实施例提供了一种基于多粒度特征注意力融合的图文情感分析系统,包括:
数据获取模块,被配置为获取文本数据和图像数据并进行预处理;
图文情感分析模块,被配置为基于预处理后的文本数据和图像数据,利用训练好的多粒度特征注意力融合网络进行图文情感分析;
其中,所述训练多粒度特征注意力融合网络的过程,具体为:
获取文本数据的多粒度文本特征和图像数据的图像特征;
将多粒度文本特征进行拼接获取多粒度联合文本特征;
将多粒度联合文本特征与图像特征进行交互学习,挖掘多粒度联合文本特征和图像特征之间的关联关系,得到带有多粒度联合文本特征的图像特征;
将交互学习后的带有多粒度联合文本特征的图像特征与联合文本特征融合进行情感分类。
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于多粒度特征注意力融合的图文情感分析方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于多粒度特征注意力融合的图文情感分析方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
机译: 基于音高和音量信息特征分类的基于情感图的情感分析方法
机译: 基于注意力的融合网络的多媒体数据语义分析的系统和方法
机译: 基于注意力的融合网络的多媒体数据语义分析的系统和方法