法律状态公告日
法律状态信息
法律状态
2015-10-14
授权
授权
2013-04-10
实质审查的生效 IPC(主分类):G06F17/30 申请日:20120828
实质审查的生效
2013-01-09
公开
公开
技术领域
本发明涉及一种应用于搜索引擎的多情感倾向度映射方法与情感句型结构分析方法,属 于计算机科学技术与语言学的交叉领域。
背景技术
搜索引擎作为用户与海量网络数据交互的中间站,使用户能快速准确地获取有用信息, 在当今的网络技术发展中占据着非常重要的角色。近几年兴起的情感分析领域,正是搜索引 擎的一个重要发展分支。情感分析通过分析自然语言的语义可以确定用户的情感倾向度,搜 索引擎利用情感分析,可以获取用户的情感倾向度,为用户提供个性优化的搜索结果。
国内关于情感分析的研究主要集中在倾向度分析,这其中又包括两个重要的方向。一类 是基于大规模情感语料库的,计算词汇与上下文的统计特性,并将其作为情感倾向度的特征。 较为著名的有中科院谭松波博士文本情感倾向度分析方法。另一类是基于语义网的结构的, 根据概念的上下位、同义反义等关系,获得概念距离,作为情感倾向度的特征。较为著名的 有中科院董振东教授提出的知网体系(Hownet)。
心理学家Robert Plutchik认为情绪是心理演化的综合体,他提出了八种两两相对的基本情 感,即:(Anger)愤怒、(Fear)害怕、(Anticipation)希望、(Surprise)惊奇、(Disgust) 嫌弃、(Trust)信任、(Joy)快乐、(Sadness)悲哀,并以情感模型的形式将这八种情感及 它们的混合情感呈现出来。然而,他没有给出情感的定量表达,这给其情感模型的应用造成 诸多不便。
J.R.Martin与P.R.R.White所著的《英语评价系统》在鉴别句子语义方面享有极高的地位。 他们将语篇语义的评价系统分为三个子系统,即态度(attitude)、介入(engagement)、极差 (graduation)。态度即人的态度,介入即语句中如何通过词体现态度,极差即态度的真伪、强 弱。通过分析句子的态度、介入、极差三个方面,即可得到说话者想要表达的态度。其标注 体系为:情感持有者(emotion holder),情感受体(object),受体特征(object feature), 情感倾向度(emotions),情感词(emotion word)。为了简化系统,我们只选取了情感倾向 度和情感词进行了标注。
在中文文本情感分析领域,大部分的情感分析研究局限在两种(正面、负面)或者三种 (正面、中性、负面)情感分析,而准确把握一般人的情感态度需要更为细致的情感分析。 本发明正是针对目前情感分析领域中存在的情感倾向度分析不够丰富、准确度不高的问题, 提出了一种应用于搜索引擎的多情感倾向度映射方法与情感句型结构分析方法,量化情感倾 向度,发掘隐含情感倾向,有效地解决上述问题。
发明内容
本发明提出了一种应用于搜索引擎的多情感倾向度映射方法与情感句型结构分析方法, 结合心理学与语言学针对情感进行分析,计算情感句的情感倾向度。本发明包括多情感倾向 度映射方法和情感句型结构分析方法两部分,其中,多情感倾向度映射方法包括情感分词模 块、情感词库和多倾向度映射模块三个部分,情感句型结构分析方法包括句型结构模版库和 句型结构分析模块两个部分。它们之间的关系如说明书附图1所示。
下面对多情感倾向度映射方法的三个部分进行说明。
1.情感分词标注模块。该模块完成的功能包括情感句断句、分词,根据情感词典标注情 感词及程度副词三个部分。下面详细介绍情感标注的标准。
(1)断句的标注符。我们将句号“。”、分号“;”作为判断一个句子结束的标志,标注 符为/wsg,其他标点符号参考ICTCLAS进行标注。
(2)基础情感词的标注符。参考情感词库中的情感词,将基础情感词的情感倾向度进 行情感标注,使用作为标示符。定义强化基础情感的强度为1.5,基础情感的强度为1,弱 化基础情感的强度为0.5。标注时并不标注情感强度,任情感向量映射时根据标注符判断情感 词的情感强度,并将其映射为情感倾向度向量的模值。
表1基础情感标注表(24类)
(3)混合情感的标注。混合情感是由两种基础情感混合产生的情感,参照Plutchik的情 感分析,混合情感与基础情感之间的混合规则如下表2所示。混合情感的标注符如表3所示。
表2混合情感混合规则
0生气和快乐,希望和嫌弃,这两组无法产生一个混合情感词,因而未标出。 1在Emotion Wheel中,四对两两相对的情感无法产生混合情感。
表3混合情感(22类)标注表
表3中一阶混合情感,二阶混合情感,三阶混合情感的解释如下:
如说明书附图2Emtion Wheel与表2混合情感混合规则所示,一阶混合情感指的是相邻基 础情感混合出的情感,例如生气+希望,希望+快乐;二阶混合情感指的是相隔一个基础情感 角度(45°)的两个基础情感混合出的情感,例如快乐+内疚,希望+信任;三阶混合情感指的 是相隔两个基础情感角度(90°)的两个基础情感混合出的情感,例如快乐+惊讶,希望+悲哀。
(4)程度词的标注符。使用作为标示符,后面跟“+数字”表示程度级别。标注格式: cd+数字。我们将遇到的程度词分成五个级别,程度级别和标注格式分别为“极 150%(cd+2)”,“很125%(cd+1)”,“较90%(cd-1)”,“稍75%(cd-2)”,“欠50%(cd-3)”。
(5)其它词的标注。情感词库中未登录的情感词及其它词仍然按照ICTCLAS的POS标准 进行词性标注。
2.情感词库。情感词库中储存着情感词汇的情感倾向度映射集s:
其中,W表示登陆情感词集,E表示情感倾向度向量集。例:W={好/ajo,不顺/a+sa,……}, E={jo,sa,……},s={好=jo,不顺=sa,……}。
3.倾向度映射模块。该模块完成倾向度映射的功能。它依据情感词的情感标注,将带有 情感倾向的登录词汇(即情感词)映射到二维情感极坐标空间Emotion Wheel中,构成情感词 的情感倾向度向量ew。标注的情感ej与其在Emtion Wheel(以下简称EW)中情感倾向度向量ew的映射关系如下表4所示。EW中各情感区域定义如表5及说明书附图2所示。
表4 映射关系
表5 Emotion Wheel区域定义
如说明书附图2的EW幅度区间定义如下:半径R=(2.25,1.5]为最外圆环,表示较强烈的 情感倾向度;半径R=(1.5.0.75]为中间的圆环,表示一般情感倾向度;半径R=(0.75,0,25] 为最内圆环,表示较弱情感倾向度;R<0.25为无情感区域。
由于二阶与三阶混合情感无法在二维极坐标中用向量的形式表示出来,对于二阶和三阶 的混合情感,我们只标注出它的情感倾向及它的倾向程度。
下面对情感句型结构分析方法的两个部分进行说明。
4.句型结构模版库。句型结构模版库中记录着程度词修正方法、情感句情感倾向度计算 方法。情感句情感倾向度计算方法,就是通过分析句型结构,利用句子中有效情感词的情感 倾向度计算句子的情感倾向度,将在模块5中详细说明。下面说明程度词修正方法。
程度词修正方法:基于情感词前后相连出现的程度词,对情感词的情感倾向度向量ew的强 弱进行修正。修正参数从模块(1)的程度词标注符中获取。
e′w=cd·ew
其中,e′w为修正后的情感词倾向度向量,cd为程度词的程度级别,ew为修正前的情感词 倾向度向量。
5.句型结构分析模块。根据句型结构识别方法对句型进行识别,依据模板库中的情感句 情感倾向度计算方法,计算句子情感倾向度,确定句子情感倾向度向量。该模块实现的功能: 包括句型结构的识别方法和情感句情感倾向度计算方法。
(1)情感句句型结构的识别方法
a)并列、递进句结构特点及判断依据:如果一个整句由几个小句组成,小句的结构 相似,或着有并列或递进关系的连词出现,则考虑判断为并列、递进句。作为并列、递进 句判断依据的连接词有:和、与、同、及、而、况且、何况、乃至,不但、而且、并、并 且等。判断依据有两个:有无连接词出现;小句的结构是否相似。若有连接词出现则将该 句子判断为并列、递进句;若没有连接词出现,但是句子中小句的结构相似,则将该句子 判断为并列、递进句。
b)否定句结构特点及判断依据:否定句一般含有否定副词,常见的否定副词有:不、 甭、别、没有、没、不要等。只要句子分词后含有否定副词,我们就将该句子识别为否定 句进行处理。
c)转折句结构特点及判断依据:转折句一般含有转折连词,常见的转折连词有:却、 虽然、但、但是、然而、而、偏偏、只是、不过、至于、致、不料、岂知等。只要句子分 词后含有转折连词,我们就将该句子识别为否定句进行处理。
d)不能判断为上述三类句型的句子作为一般句进行情感倾向度计算。
(2)情感句情感倾向度的计算方法
a)并列、递进句计算方法:在并列、递进句中,连接词所连接的词语所表达的情感 倾向一般是相似的,是加性的。因此在计算并列、递进句的情感倾向度时,若多个词语的 倾向度向量的方向相同,取模值大的词语的倾向度向量作为句子的倾向度向量。若它们的 倾向度向量方向不同,又分为两种情况,第一,若是一阶混合,句子情感倾向度向量的方 向取向量和的方向,句子情感倾向度向量的大小取模值最大的情感词倾向度向量的模值; 第二,若是二阶或者三阶混合,只做情感倾向度向量标注,其大小取情感词情感倾向度向 量模值最大的模值。
b)否定句计算方法:否定副词“不、没有”等一般只否定紧跟在其后的语义,若其 后紧跟情感词,则否定副词仅改变情感词的情感倾向。计算方法分为两种:第一,若句子 中所有的情感词都是由否定副词修饰着,句子的情感倾向度取情感词倾向度的反向;第二, 若句子中有情感词不是由否定副词修饰的,则句子的情感倾向度与被否定副词修饰的情感 词无关,由其他的没有否定副词修饰的情感词决定。
c)转折句计算方法:转折句中一般句子结构分为两个部分,后句的语义是前句的转 折,故在转折句中,其情感倾向由后句决定。因此只计算后句的情感倾向度作为整句的情 感倾向度向量,后句的情感倾向度向量按一般句进行处理。
d)一般句的计算方法:不能判断为上述三类句子的即为一般句,其情感倾向度由其 句子中词的情感倾向度向量ei欧式和的平均决定:
附图说明
图1情感句情感倾向度分析流程图
图2Emotion Wheel
具体实施方式
下面就根据具体的例子说明本发明的计算过程。我们使用四个句子进行分析,分别代表 并列递进句、否定句、转折句和一般句。
1.环境很好,地点很方便,服务也很好,下回还会住的。
2.这里的服务不专业。
3.虽然在这个世界上总会遇到一些不顺的事,但只要以乐观的心态面对,就会发现一切都 是那么美好。
4.看着他渐行渐远的背影,她伤心的泪水如决堤般涌出。
第一步,上述四个句子在情感分词标注模块分词标注后,句子的格式如下:
1.环境/n很/dcd+1好/ajo,/w地点/n很/dcd+1方便/atr,/w服务/v也/d很 /dcd+1好/ajo,/w下回/t还/d会/v住/v的/u。/wsg
2.这里/r的/u服务/v不/d专业/ntr。/wsg
3.虽然/c在/p这个/r世界/n上/f总/d会/v遇到/v一些/m不顺/a+sa的/u事/n,/w 但/c只要/c以/p乐观/a+op的/u心态/n面对/v,/w就/d会/v发现/v一切/r都 /d是/v那么/r-1美好/ajo。/wsg
4.看着/v他/r渐行渐远/ape的/u背影/n,/w她/n伤心/asa的/u泪水/n如/v决 堤/v般/u涌出/v。/wsg
第二步,在倾向度映射模块映射后,它们的计算结果如下所示:
1.很/dcd+1好/ajo很/dcd+1方便/atr很/dcd+1好/ajo
e1=(1,337.5°),e2=(1,292.5°),e3=(1,337.5°)
2.不/d专业/ntr
e4=(1,292,5°)
3.虽然/c一些/mcd-2不顺/a+sa但/c只要/c乐观/a+op那么/rcd-1美好/ajo
e5=(1,157.5°),e6=(1,0°),e7=(1,337.5°)
4.渐行渐远/ape伤心/asa
e8=(1,157.5°),e9=(0.5,157.5°)
第三步,句子结构分析模块的计算过程与结果如下:
1.修正后的情感词倾向度向量为:
e′1=(1.25,337.5°),e′2=(1.25,292.5°),e′3=(1.25,337.5°)
句子中出现的三次“很/dcd+1”,判定这个句子为排比句,其句子情感倾向度向量为:
es1=(1.25,322.36°)
根据Emotion wheel规则可以判定句子“环境很好,地点很方便,服务也很好,下回还会 住的。”的情感倾向为热爱。
2.句子中出现否定词“不”,判定该句子为否定句,其句子的情感倾向度向量为:
es2=-e′4=(1,112.5°)
根据Emotion wheel规则可以判定句子“这里的服务不专业。”的情感倾向为嫌弃。
3.句子中出现“虽然……但”,判定句子为转折句,故只计算“但”后边的情感词的情感 倾向度向量,修正后的情感词倾向度向量为:
e′6=(1,0°).e′7=(0.9.337.5°)
而句子的情感倾向度向量为:
根据Emotion wheel规则可以判定句子“虽然在这个世界上总会遇到一些不顺的事,但只 要以乐观的心态面对,就会发现一切都是那么美好。”情感倾向为快乐。
4.本句不是上述三种句子类型的任意一种,故而采用一般句子类型进行分析。其句子情感 倾向度向量为:
根据Emotion wheel规则可以判定句子“看着他渐行渐远的背影,伤心的泪水如决堤般涌 出。”的情感倾向为悲哀。
机译: 终端设备,情感分析设备,情感分析系统和情感分析方法
机译: 情感映射方法,情感映射设备和车辆,包括相同
机译: 播放器情感分析方法为虚拟现实游戏,球员情感的虚拟现实服务管理方法和虚拟现实系统