首页> 中国专利> 情感分析方法、评价、情感分析模型的训练方法及装置

情感分析方法、评价、情感分析模型的训练方法及装置

摘要

本申请提供一种情感分析方法、评价、情感分析模型的训练方法及装置,涉及计算机语言文字处理技术领域。其中,通过获取待分析文本数据;采用评价主体提取模型,提取待分析文本数据中的评价主体,其中,评价主体提取模型通过评价样本数据训练获取;采用情感分析模型对各评价主体对应的待分析文本数据进行情感分析,获取各评价主体对应的情感分析结果,在此过程中,由于可以通过评价主体提取模型提取到待分析文本数据中的评价主体,进而后续进行情感分析时,可针对所提取的评价主体进行有针对性的分析,提高情感分析结果的准确性。

著录项

  • 公开/公告号CN112256826A

    专利类型发明专利

  • 公开/公告日2021-01-22

    原文格式PDF

  • 申请/专利权人 网易(杭州)网络有限公司;

    申请/专利号CN202011121695.0

  • 申请日2020-10-19

  • 分类号G06F16/33(20190101);G06F16/9536(20190101);G06F40/211(20200101);

  • 代理机构11646 北京超成律师事务所;

  • 代理人张芮

  • 地址 310052 浙江省杭州市滨江区长河街道网商路599号4幢7层

  • 入库时间 2023-06-19 09:38:30

说明书

技术领域

本申请涉及计算机语言文字处理技术领域,特别涉及一种情感分析方法、评价、情感分析模型的训练方法及装置。

背景技术

由于网络上的社交媒体,例如产品评论,论坛讨论,微博,微信的快速发展,情感分析方法作为挖掘人们观点,情绪,评估对诸如产品、服务、组织等实体的态度发挥越来越重要的作用。比如,通过进行情感分析,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。

现有的进行情感分析方式,一般采用句子级别的情感分析,其可以将文本数据作为模型的输入,根据已训练好的下游网络返回相关的情感倾向。

但由于现有的情感分析方法比较简单,当面对较长、较复杂的语句时,会存在分析结果不准确的问题。

发明内容

本申请的目的在于,针对上述现有技术中的不足,提供一种情感分析方法、评价、情感分析模型的训练方法及装置,可以提高情感分析结果的准确性。

为实现上述目的,本申请实施例采用的技术方案如下:

第一方面,本申请实施例提供了一种情感分析方法,包括:

获取待分析文本数据;

采用评价主体提取模型,提取所述待分析文本数据中的至少一个评价主体,其中,所述评价主体提取模型通过评价样本数据训练获取;

采用情感分析模型对各所述评价主体对应的待分析文本数据进行情感分析,获取各所述评价主体对应的情感分析结果。

可选地,上述采用评价主体提取模型,提取所述待分析文本数据中的至少一个评价主体之后,还包括:

若针对所述待分析文本数据未提取到所述评价主体,则采用整句分析模型对所述待分析文本数据进行情感分析,获取所述待分析文本数据的情感分析结果。

可选地,上述采用情感分析模型对各所述评价主体对应的待分析文本数据进行情感分析,获取各所述评价主体对应的情感分析结果,包括:

采用情感分析模型对所述待分析文本数据进行情感提取,获取各所述评价主体对应的评价维度;

根据各所述评价主体对应的所述评价维度,获取所述评价维度对应的情感评价倾向;

根据所述评价主体对应的所述评价维度以及所述评价维度对应的所述情感评价倾向,获取所述评价主体对应的情感分析结果。

可选地,上述获取待分析文本数据,包括:

采集原始文本数据;

对所述原始文本数据进行预处理,获取预处理后的所述待分析文本数据。

可选地,上述对所述原始文本数据进行预处理,获取预处理后的所述待分析文本数据,包括:

对所述原始文本数据进行去噪,获取去噪后的文本数据;

根据所述去噪后的文本数据,获取预处理后的所述待分析文本数据。

可选地,上述根据所述去噪后的文本数据,获取预处理后的所述待分析文本数据,包括:

根据所述去噪后的文本数据以及所述原始文本数据所属原贴,检测获取所述去噪后的文本数据与所述原贴之间的关系;

根据所述去噪后的文本数据与所述原贴之间的关系,对所述去噪后的文本数据进行补全,获取预处理后的所述待分析文本数据。

第二方面,本申请实施例提供了一种评价模型的训练方法,包括:

获取第一训练数据集,所述第一训练数据集包括多个第一样本文本数据,所述第一样本文本数据标注有至少一个样本评价主体;

根据所述第一训练数据集,训练获取所述评价主体提取模型,所述评价主体提取模型用于获取文本数据中的至少一个评价主体。

可选地,上述根据所述第一训练数据集,训练获取所述评价主体提取模型,包括:

通过预训练模型获取各所述第一样本文本数据的句向量;

根据各所述第一样本文本数据的句向量和条件随机场模型,训练获取所述评价主体提取模型。

第三方面,本申请实施例提供了一种情感分析模型的训练方法,所述方法还包括:

获取第二训练数据集,所述第二训练数据集包括多个第二样本文本数据,所述第二样本文本数据标注有至少一个评价主体、各所述评价主体对应的评价维度、所述评价维度对应的情感评价倾向以及各所述评价主体对应的情感分析结果;

根据所述第二训练数据集,训练获取所述情感分析模型,所述情感分析模型用于获取文本数据中评价主体对应的情感分析结果。

第四方面,本申请实施例提供了一种情感分析装置,包括:获取模块、提取模块以及分析模块;

所述获取模块,用于获取待分析文本数据;

所述提取模块,用于采用评价主体提取模型,提取所述待分析文本数据中的至少一个评价主体,其中,所述评价主体提取模型通过评价样本数据训练获取;

所述分析模块,用于采用情感分析模型对各所述评价主体对应的待分析文本数据进行情感分析,获取各所述评价主体对应的情感分析结果。

可选地,所述提取模块,还用于若针对所述待分析文本数据未提取到所述评价主体,则采用整句分析模型对所述待分析文本数据进行情感分析,获取所述待分析文本数据的情感分析结果。

可选地,所述获取模块,具体用于采用情感分析模型对所述待分析文本数据进行情感提取,获取各所述评价主体对应的评价维度;

根据各所述评价主体对应的所述评价维度,获取所述评价维度对应的情感评价倾向;

根据所述评价主体对应的所述评价维度以及所述评价维度对应的所述情感评价倾向,获取所述评价主体对应的情感分析结果。

可选地,所述获取模块,具体用于采集原始文本数据;

对所述原始文本数据进行预处理,获取预处理后的所述待分析文本数据。

可选地,所述获取模块,具体用于对所述原始文本数据进行去噪,获取去噪后的文本数据;

根据所述去噪后的文本数据,获取预处理后的所述待分析文本数据。

可选地,所述获取模块,具体用于根据所述去噪后的文本数据以及所述原始文本数据所属原贴,检测获取所述去噪后的文本数据与所述原贴之间的关系;

根据所述去噪后的文本数据与所述原贴之间的关系,对所述去噪后的文本数据进行补全,获取预处理后的所述待分析文本数据。

第五方面,本申请实施例提供了一种评价模型的训练装置,所述装置包括:第一获取模块和第一训练模块;

所述第一获取模块,用于获取第一训练数据集,所述第一训练数据集包括多个第一样本文本数据,所述第一样本文本数据标注有至少一个样本评价主体;

所述第一训练模块,用于根据所述第一训练数据集,训练获取所述评价主体提取模型,所述评价主体提取模型用于获取文本数据中的至少一个评价主体。

可选地,所述第一训练模块,用于通过预训练模型获取各所述第一样本文本数据的句向量;

根据各所述第一样本文本数据的句向量和条件随机场模型,训练获取所述评价主体提取模型。

第六方面,本申请实施例提供了一种情感分析模型的训练装置,所述装置包括:第二获取模块和第二训练模块;

所述第二获取模块,用于获取第二训练数据集,所述第二训练数据集包括多个第二样本文本数据,所述第二样本文本数据标注有至少一个评价主体、各所述评价主体对应的评价维度、所述评价维度对应的情感评价倾向以及各所述评价主体对应的情感分析结果;

所述第二训练模块,用于根据所述第二训练数据集,训练获取所述情感分析模型,所述情感分析模型用于获取文本数据中评价主体对应的情感分析结果。

第七方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行上述方法的步骤。

第八方面,本申请实施例提供了一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述方法的步骤。

本申请的有益效果是:

本申请实施例提供的情感分析方法、评价、情感分析模型的训练方法及装置中,通过获取待分析文本数据;采用评价主体提取模型,提取待分析文本数据中的评价主体,其中,评价主体提取模型通过评价样本数据训练获取;采用情感分析模型对各评价主体对应的待分析文本数据进行情感分析,获取各评价主体对应的情感分析结果,在此过程中,由于可以通过评价主体提取模型提取到待分析文本数据中的评价主体,进而后续进行情感分析时,可针对所提取的评价主体进行有针对性的分析,提高情感分析结果的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种情感分析方法的流程示意图;

图2为本申请实施例提供的另一种情感分析方法的流程示意图;

图3为本申请实施例提供的又一种情感分析方法的流程示意图;

图4为本申请实施例提供的另一种情感分析方法的流程示意图;

图5为本申请实施例提供的又一种情感分析方法的流程示意图;

图6为本申请实施例提供的另一种情感分析方法的流程示意图;

图7为本申请实施例提供的一种评价模型的训练方法的流程示意图;

图8为本申请实施例提供的另一种评价模型的训练方法的流程示意图;

图9为本申请实施例提供的一种情感分析模型的训练方法的流程示意图;

图10为本申请实施例提供的一种情感分析装置的功能模块示意图;

图11为本申请实施例提供的一种评价模型的训练装置的功能模块示意图;

图12为本申请实施例提供的一种情感分析模型的训练装置的功能模块示意图;

图13为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

情感分析是自然语言处理(Natural Language Processing,NLP)的一个主要的分类分析任务,情感分析任务即对文本进行编码,然后将编码结果根据标注数据标准对评论文本分类处理。

现有的在进行情感分析时,一般采用句子级别的情感分析方法,其可以将文本数据作为模型的输入,根据已训练好的下游网络返回相关的情感倾向,但该方式由于比较简单,若语句中出现多个评价对象时,现有的情感分析方法无法确定以其中哪个评价对象作为评价主体,会造成最后判断失效,也即会存在评价不准确的问题。常见在于,若语句中出现两个评价对象,且情感倾向不一致的情况。例如,这个餐馆的服务非常棒,但菜的味道不是很好,针对该语句,里面存在多个评价对象:餐馆的服务、菜的味道,且有褒义评价也有贬义评价,采用句子级别的情感分析无法得到正确的分析结果。

另外,现有的也有利用神经网络对特定对象进行情感分析的方法,其可以将文本数据和特定对象作为模型的输入,根据下游网络进行相关权重处理之后得到关于该特定对象的情感倾向,但是由于该方法只是针对于通用文本中的特定对象,采用该方法,如果对未出现在训练集中的特定对象进行相关的预测时,由于不同的分析对象会造成文本数据的语言风格和结构不同,因此,该方法的情感分析的准确性较低。此外,该方法大多建立在分词的基础上,对于社交媒体数据来说,由于社交媒体数据的特殊性,非常容易出现一些新词,会造成因为分词不准导致最后的准确性不高的问题。例如:玩这个游戏,我感觉慌的一笔,分词器在遇到新词“慌的一笔”时,并无法将之识别成一个完整词,从而导致对该语句的情感倾向性判断有误,情感分析的准确性较低。

此外,对于上述两种情感分析方法,其分析维度均是在一句话的基础上进行情感分析,对于社交媒体数据来说,大量文本数据并非仅仅是以一个句子维度进行,例如,在微博或者贴吧上,很多文本数据是对原博或者主贴的回复信息,在进行情感分析时,如果仅仅是针对单句进行分析,很容易丧失其中的语义信息,不能正确识别出其中蕴含的情感倾向。因此,从该方面来说,现有的两种情感分析方法均存在情感分析的准确性较低的问题。

图1为本申请实施例提供的一种情感分析方法的流程示意图,该方法的执行主体可以是计算机、服务器、处理器等可以进行数据处理的设备,也可以是终端设备,例如手机、平板电脑等,本申请在此不作限定。如图1所示,该方法可以包括:

S101、获取待分析文本数据。

待分析文本数据为需要进行情感分析的文本数据,可以为用户输入的文本数据,又或者,可以是从网站、社交平台(比如,贴吧、微博、知乎、论坛等)等获取的社交媒体数据,该待分析文本数据可以包括一句或多句文本数据,在此不作限定。可选地,所获取的待分析文本数据可以通过文本数据导入的方式导入上述设备。

S102、采用评价主体提取模型,提取待分析文本数据中的至少一个评价主体,其中,评价主体提取模型通过评价样本数据训练获取。

在获取到该分析文本数据后,可以采用评价主体提取模型提取该待分析文本数据中的评价主体。其中,所提取的评价主体可以包括一个或多个,根据不同的待分析文本数据,该评价主体可以包括产品、服务、组织等,本申请在此不作限定。比如,该评价主体可以为某应用软件、某商场、某旅游景点等,但不以为限。

S103、采用情感分析模型对各评价主体对应的待分析文本数据进行情感分析,获取各评价主体对应的情感分析结果。

其中,所提取的评价主体包括多个时,可以理解的是,在进行情感分析时,可以采用情感分析模型对各评价主体对应的待分析文本数据进行情感分析,实现对各评价主体有针对性的情感分析,进而获取的各评价主体对应的情感分析结果可以更为准确。

在一些实施例中,情感分析模型可以包括:预训练模型和神经网络模型,其中,预训练模型可以用于获取各评价主体的句向量、各评价主体对应的待分析文本数据的句向量,根据各评价主体的句向量、各评价主体对应的待分析文本数据的句向量以及神经网络模型,可以获取各评价主体对应的情感分析结果,但实际构建方式并不以此为限。

关于预训练模型可参加下述的相关内容,预训练模型即自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)模型,BERT是一种基于微调的多层双向变换器编码器,是通过训练掩蔽语言模型(Masked LanguageModel,MLM)和预测下一句任务得到的模型。关于BERT模型的原理可参见下述内容,使用BERT模型有两个阶段:预训练和微调。在预训练期间,模型在不同的预训练任务上训练未标记的数据;对于微调,首先使用预训练参数初始化BERT模型,并使用来自下游任务的标记数据对所有参数进行微调,每个下游任务都有单独的微调模型,即使它们使用相同的预训练参数进行初始化,在微调期间,所有参数都经过微调。

需要说明的是,根据不同的应用场景,各评价主体对应的情感分析结果可以包括针对该评价主体的评价观点、情感倾向等,在此不作限定。

综上,本申请实施例所提供的情感分析方法通过获取待分析文本数据;采用评价主体提取模型,提取待分析文本数据中的评价主体,其中,评价主体提取模型通过评价样本数据训练获取;采用情感分析模型对各评价主体对应的待分析文本数据进行情感分析,获取各评价主体对应的情感分析结果,在此过程中,由于可以通过评价主体提取模型提取到待分析文本数据中的评价主体,进而后续进行情感分析时,可针对所提取的评价主体进行有针对性的分析,提高情感分析结果的准确性。

图2为本申请实施例提供的另一种情感分析方法的流程示意图。可选地,如图2所示,上述采用评价主体提取模型,提取待分析文本数据中的至少一个评价主体之后,还包括:

S201、若针对待分析文本数据未提取到评价主体,则采用整句分析模型对待分析文本数据进行情感分析,获取待分析文本数据的情感分析结果。

对于待分析文本数据来说,根据实际的应用场景,其可以包括一个或多个评价主体,对于包括一个或多个评价主体的情况,可以根据前述实施例的方法进行情感分析结果的获取,而对于不包括评价主体的情况,也即针对该待分析文本数据未提取到评价主体时,则可以采用整句分析模型对该待分析文本数据进行情感分析以获取该其对应的情感分析结果。

其中,对于不包括评价主体的待分析文本数据,该待分析文本数据的情感分析结果可以包括正面、负面或其他的情感倾向。比如,某待分析文本数据为:今天心情不错,则该待分析文本数据的情感分析结果为正面。

可选地,整句分析模型可以基于预训练模型和全连接层实现,其中,预训练模型可以用于获取该待分析文本数据的句向量,全连接层可以用于根据该待分析文本数据的句向量输出相应的情感倾向。当然,本申请在此并不限定整句分析模型的构建方式,根据实际的应用场景可以灵活调节。关于预训练模型的说明可参见前述的相关部分,本申请在此不再赘述。

可选地,上述采用评价主体提取模型,提取所述待分析文本数据中的至少一个评价主体,可以包括:

采用评价主体提取模型,获取待分析文本数据中的至少一个评价对象;

根据待分析文本数据中的至少一个评价对象,获取待分析文本数据中的至少一个评价主体。

其中,需要说明的是,对于某待分析文本数据,可以先获取该待分析文本数据中的至少一个评价对象,进而根据该至少一个评价对象,可以进一步获取待分析文本数据中的至少一个评价主体。可以理解的是,待分析文本数据包括一个评价对象时,该评价对象可以作为该待分析文本数据中的评价主体;待分析文本数据包括多个评价对象时,若该多个评价对象对应一个主评价对象时,该主评价对象即可作为该待分析文本数据中的评价主体;若待分析文本数据包括多个主评价对象时,则该多个主评价对象可以作为待分析文本数据中的多个评价主体。

图3为本申请实施例提供的又一种情感分析方法的流程示意图。可选地,如图3所示,上述采用情感分析模型对各评价主体对应的待分析文本数据进行情感分析,获取各评价主体对应的情感分析结果,包括:

S301、采用情感分析模型对待分析文本数据进行情感提取,获取各评价主体对应的评价维度。

S302、根据各评价主体对应的评价维度,获取评价维度对应的情感评价倾向。

其中,评价主体对应的评价维度可以为该评价主体对应的具体评价方面,一个评价主体可以对应一个或多个评价维度,在此不作限定;在获取到该评价主体对应的评价维度后,可以获取该评价维度对应的情感评价倾向,该情感评价倾向可以包括正面、负面或其他。需要说明的是,此处的评价维度可以为评价对象的属性信息,举例说明,某待分析文本数据为“XX游戏的画面不错,但是可玩性不太行”,对于该待分析文本数据来说,其中包括一个评价对象“XX游戏”,则该评价对象即为该待分析文本数据中的评价主体,对应的,该评价对象的评价维度“画面”和“可玩性”即为该评价主体的评价维度。

S303、根据评价主体对应的评价维度以及评价维度对应的情感评价倾向,获取评价主体对应的情感分析结果。

根据前述实例的内容,在获取到评价主体对应的评价维度以及该评价维度对应的情感评价倾向后,可以进一步获取针对该评价主体的情感分析结果,该情感分析结果可以包括针对各评价维度的评价观点,根据评价维度的数量,对应的评价观点可以为一个或多个,在此不作限定。

举例说明,比如,待分析文本数据为“XX餐厅的面还是非常不错的,就是上菜速度有点慢”,对于该待分析文本数据来说,其中的评价主体为“XX餐厅”,而该评价主体对应的评价维度为“面”和“上菜速度”,也即“面”和“上菜速度”为该“XX餐厅”的具体评价方面。其中,对于评价维度“面”来说,其对应的情感评价倾向为:正面;对于评价维度“上菜速度”来说,其对应的情感评价倾向为:负面;相应地,对于评价主体“XX餐厅”来说,该评价主体对应的情感分析结果可以包括“面不错”、“上菜速度慢”的评价观点,当然,实际的应用场景并不以此为限。

可选地,上述根据各所述评价主体对应的所述评价维度,获取所述评价维度对应的情感评价倾向,可以包括:

基于预训练模型,获取各评价主体对应的评价维度的句向量,以及评价维度对应的待分析文本数据的句向量;根据各评价主体对应的评价维度的句向量、评价维度对应的待分析文本数据的句向量以及神经网络模型,获取评价维度对应的情感评价倾向。

在一些实施例中,获取评价维度对应的情感评价倾向时,可以基于预训练模型和神经网络结构实现,其中,可以通过预训练模型获取各评价主体对应的评价维度的句向量,以及评价维度对应的待分析文本数据的句向量,基于该各评价主体对应的评价维度的句向量,以及评价维度对应的待分析文本数据的句向量,可以通过神经网络结构进行情感倾向分析,获取评价维度对应的情感评价倾向。可选地,神经网络结构可以基于cross-attention机制实现,但不以为限,基于cross-attention机制实现时,可以对评价维度的句向量,以及评价维度对应的待分析文本数据的句向量进行矩阵乘法和线性变化操作后,得到这两个句向量之间的矩阵向量。

在得到矩阵向量后,可以按行或按列进行求和,对求和后的句向量进行归一化处理,从而得到评价维度的句向量A对评价维度对应的待分析文本数据的句向量B的加权系数,反之,可以得到评价维度对应的待分析文本数据的句向量B对评价维度的句向量A的加权系数;对于句向量A来说,可以根据该句向量A和其对应的加权系数,对该句向量A进行加权处理,获取加权处理后的句向量A,可以理解的是,根据上述对句向量A的处理过程,相应地,可以获取加权处理后的句向量B;将加权处理后的句向量A和加权处理后的句向量B进行拼接,获取拼接后的句向量,对该拼接后的句向量进行线性映射,从而可以得到该评价维度对应的情感评价倾向。

在一些实施例中,对该拼接后的句向量进行线性映射时,也即将该拼接后的句向量从高维空间映射至低维空间,映射至低维空间后,得到低维拼接向量,进而可以根据该低维拼接向量对应的情感评价倾向标签,得到该评价维度对应的情感评价倾向。举例说明,比如,该低维拼接向量对应的情感评价倾向标签为正面,则可以认为该评价维度对应的情感评价倾向为正面;可选地,若对应的情感评价倾向标签为负面,则可以认为该评价维度对应的情感评价倾向为负面,但实际判断方式并不以此为限。

图4为本申请实施例提供的另一种情感分析方法的流程示意图。可选地,如图4所示,上述获取待分析文本数据,包括:

S401、采集原始文本数据。

S402、对原始文本数据进行预处理,获取预处理后的待分析文本数据。

其中,原始文本数据可以为从网站、社交平台(比如,微博、知乎、论坛等)等采集的原始社交媒体数据,对于该原始文本数据来说,有必要对其进行预处理,可选地,预处理方式可以包括但不限于:字符级预处理、噪音数据去除、文本数据检测、文本数据补全等,本申请在此不作限定。其中,通过对原始文本数据进行预处理,可以将原始文本数据表示成下游模型(也即评价主体提取模型和情感分析模型)可以处理的自然语言形式,使得基于预处理后的待分析文本数据进行情感分析时,可以得到较为准确的情感分析结果。

图5为本申请实施例提供的又一种情感分析方法的流程示意图。可选地,如图5所示,上述对原始文本数据进行预处理,获取预处理后的待分析文本数据,包括:

S501、对原始文本数据进行去噪,获取去噪后的文本数据。

S502、根据去噪后的文本数据,获取预处理后的待分析文本数据。

去噪操作可以包括:字符级预处理和噪音去除操作,其中字符级预处理可以包括但不限于对原始文本数据中出现的乱码字符、网页链接等信息进行统一去除和规范化处理。噪音去除操作可以用于对原始文本数据中的噪音数据进行去除,其中,该噪音数据可以包括但不限于用户表义不明的文本数据、第三方应用自动发布的广告信息等。

可选地,对于用户表义不明的文本数据,比如,纯数字的文本数据,可以通过正则表达式的形式以保留包含2个汉字以上的文本数据;对于第三方应用自动发布的广告信息,也可以通过正则表达式进行去除,比如,在微博中出现某微博视频时,可以通过正则表达式的形式,将该广告信息去除,但去除方式并不以此为限。

图6为本申请实施例提供的另一种情感分析方法的流程示意图。可选地,如图6所示,上述根据去噪后的文本数据,获取预处理后的待分析文本数据,包括:

S601、根据去噪后的文本数据以及原始文本数据所属原贴,检测获取去噪后的文本数据与原贴之间的关系。

S602、根据去噪后的文本数据与原贴之间的关系,对去噪后的文本数据进行补全,获取预处理后的待分析文本数据。

原始文本数据所属原贴也即原始文本数据对应的原贴,又或者可以理解为该原始文本数据对应的主话题,而该原始文本数据则为该主话题下的评论内容或回复内容。

举例说明,以贴吧为例,原始文本数据可以为某帖子下用户的评论语句,而该原始文本数据所属原贴即为该帖子;又或者,以微博为例,原始文本数据可以为某微博下用户的评论语句,而该原始文本数据所属原贴即为该微博。

其中,去噪后的文本数据与原贴之间的关系可以包括但不限于:并列,转折,补充,问答,无关等。其中,若为“问答关系”,即去噪后的文本数据是对原始文本数据所属原贴内容的回复、应答等;若为“补充关系”,即去噪后的文本数据是对原始文本数据所属原贴内容的解释、补充说明等。根据去噪后的文本数据与原贴之间的关系,通过对去噪后的文本数据进行补全,使得基于预处理后的待分析文本数据进行情感分析时,由于可以结合其对应的上文信息,因此,对于该待分析文本数据进行情感分析时,可以得到较为准确的情感分析结果。其中,在进行补全操作时,可以根据其关系类型进行补全,若关系类型为转折、补充或回答时,则对该去噪后的文本数据进行补全操作,否则可以不进行补全操作。

可选地,对于上述S601步骤,可以基于预训练模型将该去噪后的文本数据以及原始文本数据所属原贴进行表示后,通过分类模型检测获取去噪后的文本数据与原贴之间的关系;对于上述S602步骤,可以基于seq2seq模型对去噪后的文本数据进行补全,获取预处理后的待分析文本数据。其中,Seq2Seq模型是一个Encoder-Deocder结构的模型,该模型输入是一个序列,输出也是一个序列,编码器Encoder可以将一个可变长度的输入序列变为固定长度的向量,解码器Decoder可以将这个固定长度的向量解码成可变长度的输出序列。当然,实现方式并不以此为限,根据实际的应用场景可以灵活选择。

举例说明,某原始文本数据为“A应用软件1111”,该原始文本数据所属原帖的内容为“你最喜欢的应用为?”,其中,对该原始文本数据进行去燥,获取的去燥后的文本数据可以为“A应用软件”,则通过检测获取到该去燥后的文本数据(即A应用软件)和原始文本数据所属原贴(即你最喜欢的应用为?)之间的关系为“问答关系”,则根据该关系,即可对该去燥后的文本数据进行补全,可以得到预处理后的待分析文本数据为“你最喜欢的应用为A应用软件”。

又或者,某原始文本数据为“我正好相反”,该原始文本数据所属原帖的内容为“我还挺喜欢游戏B的”,其中,对该原始文本数据进行去燥,由于其不存在噪音,则获取的去燥后的文本数据与该原始文本数据内容相同,均为“我正好相反”,则通过检测获取到该去燥后的文本数据(即我正好相反)和原始文本数据所属原贴(即我还挺喜欢游戏B的)之间的关系为“转折关系”,根据该关系,即可对该去燥后的文本数据进行补全,可以得到预处理后的待分析文本数据为“我正好不喜欢游戏B”。

图7为本申请实施例提供的一种评价模型的训练方法的流程示意图,该方法的执行主体可以是计算机、服务器、处理器等可以进行数据处理的设备。可选地,该评价模型的训练方法的执行主体可以与上述情感分析方法的执行主体为同一设备,如图7所示,该方法可以包括:

S701、获取第一训练数据集,第一训练数据集包括多个第一样本文本数据,第一样本文本数据标注有至少一个样本评价主体。

其中,第一训练数据集可以通过网站、社交平台(比如,贴吧、微博、知乎、论坛等)等获取,该第一训练数据集可以包括多个第一样本数据,可选地,可以通过人工标注的方式标注出各第一样本文本数据中的样本评价主体,该样本评价主体可以包括一个或多个。当然,本申请在此并不对该第一样本数据的数量进行限定,可以包括200条、300条等,根据实际的应用场景可以自行选择。

S702、根据第一训练数据集,训练获取评价主体提取模型,评价主体提取模型用于获取文本数据中的至少一个评价主体。

在获取到上述第一训练数据集后,即可用于训练获取评价主体提取模型,该评价主体提取模型可以用于提取文本数据中的评价主体,其中,该文本数据包括多个评价对象时,该评价主体可以为该多个评价对象中的主评价对象,避免出现多个评价对象而无法确定评价主体所导致的情感分析结果不准确的问题。

举例说明,若某文本数据为:“A餐馆的面还是非常不错的,就是上菜速度有点慢。不过B餐馆的汉堡也不差”,对于该文本数据,其中的评价对象包括:A餐馆、面、上菜速度、B餐馆及汉堡,而通过评价主体提取模型可以获取到其中的评价主体为A餐馆和B餐馆,进而可以针对评价主体“A餐馆”和“B餐馆”依据前述的方法进行情感分析,避免出现多个评价对象时造成情感分析结果难以确定的问题。

综上,应用本申请实施例,当文本数据包括多个评价对象时,可以通过上述训练获得的评价主体提取模型获取该文本数据中的至少一个主评价对象作为至少一个评价主体,实现了可以在多个评价对象确定评价主体,可以提高针对该文本数据的情感分析结果的准确性。

图8为本申请实施例提供的另一种评价模型的训练方法的流程示意图。可选地,如图8所示,上述根据第一训练数据集,训练获取评价主体提取模型,包括:

S801、通过预训练模型获取各第一样本文本数据的句向量。

S802、根据各第一样本文本数据的句向量和条件随机场模型,训练获取评价主体提取模型。

可选地,该评价主体提取模型可以包括预训练模型和条件随机场模型,其中,预训练模型可以参见前述的相关部分,通过该预训练模型可以获取到各第一样本文本数据对应的语义信息完整的句向量;条件随机场模型(conditional random field,CRF)是一种鉴别式机率模型,是随机场的一种,通过CRF模型可以基于预训练模型得到的句向量训练得到评价主体提取模型。可选地,训练过程中,可以根据交叉熵损失来训练该评价主体提取模型,但不以此为限。

综上,应用本申请实施例,由于训练获取评价主体提取模型时,利用了预训练模型获取各第一样本文本数据的句向量,因此,可以隐式的提升评价主体提取模型的泛化能力。

基于上述训练得到的评价主体提取模型,可以理解的是,若评价主体提取模型包括预训练模型和条件随机场模型时,上述采用该评价主体提取模型提取待分析文本数据中的至少一个评价主体,可以包括:根据预训练模型获取待分析文本数据的句向量,根据该待分析文本数据的句向量和条件随机场模型,提取该待分析文本数据中的至少一个评价主体。

图9为本申请实施例提供的一种情感分析模型的训练方法的流程示意图,该方法的执行主体可以是计算机、服务器、处理器等可以进行数据处理的设备。可选地,该情感分析模型的训练方法的执行主体可以与上述情感分析方法的执行主体为同一设备,如图9所示,该方法可以包括:

S901、获取第二训练数据集,第二训练数据集包括多个第二样本文本数据,第二样本文本数据标注有至少一个评价主体、各评价主体对应的评价维度、评价维度对应的情感评价倾向以及各评价主体对应的情感分析结果。

其中,第二训练数据集可以与上述第一训练数据集相同,如此,可以提高第二训练数据集的生成效率。可选地,第二训练数据集所标注的内容可以通过人工标注的方式或借助第三方应用软件进行标注,本申请在此不作限定。

S902、根据第二训练数据集,训练获取情感分析模型,情感分析模型用于获取文本数据中评价主体对应的情感分析结果。

在获取到该第二训练数据集后,即可根据该第二训练数据集训练获取情感分析模型,当然,训练过程中,可以根据预设的损失函数进行监督训练,本申请在此不作限定。可选地,该情感分析模型可以与上述评价主体提取模型的构建方式相同,也即基于预训练模型和条件随机场模型,但不以此为限。

图10为本申请实施例提供的一种情感分析装置的功能模块示意图,该装置基本原理及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。如图10所示,该情感分析装置100可以包括:获取模块110、提取模块120以及分析模块130;

所述获取模块110,用于获取待分析文本数据;

所述提取模块120,用于采用评价主体提取模型,提取所述待分析文本数据中的至少一个评价主体,其中,所述评价主体提取模型通过评价样本数据训练获取;

所述分析模块130,用于采用情感分析模型对各所述评价主体对应的待分析文本数据进行情感分析,获取各所述评价主体对应的情感分析结果。

可选地,所述提取模块120,还用于若针对所述待分析文本数据未提取到所述评价主体,则采用整句分析模型对所述待分析文本数据进行情感分析,获取所述待分析文本数据的情感分析结果。

可选地,所述获取模块110,具体用于采用情感分析模型对所述待分析文本数据进行情感提取,获取各所述评价主体对应的评价维度;根据各所述评价主体对应的所述评价维度,获取所述评价维度对应的情感评价倾向;根据所述评价主体对应的所述评价维度以及所述评价维度对应的所述情感评价倾向,获取所述评价主体对应的情感分析结果。

可选地,所述获取模块110,具体用于采集原始文本数据;对所述原始文本数据进行预处理,获取预处理后的所述待分析文本数据。

可选地,所述获取模块110,具体用于对所述原始文本数据进行去噪,获取去噪后的文本数据;根据所述去噪后的文本数据,获取预处理后的所述待分析文本数据。

可选地,所述获取模块110,具体用于根据所述去噪后的文本数据以及所述原始文本数据所属原贴,检测获取所述去噪后的文本数据与所述原贴之间的关系;根据所述去噪后的文本数据与所述原贴之间的关系,对所述去噪后的文本数据进行补全,获取预处理后的所述待分析文本数据。

图11为本申请实施例提供的一种评价模型的训练装置的功能模块示意图,该装置基本原理及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。如图11所示,该评价模型的训练装置200可以包括:第一获取模块210和第一训练模块220;

所述第一获取模块210,用于获取第一训练数据集,所述第一训练数据集包括多个第一样本文本数据,所述第一样本文本数据标注有至少一个样本评价主体;

所述第一训练模块220,用于根据所述第一训练数据集,训练获取所述评价主体提取模型,所述评价主体提取模型用于获取文本数据中的至少一个评价主体。

可选地,所述第一训练模块220,用于通过预训练模型获取各所述第一样本文本数据的句向量;根据各所述第一样本文本数据的句向量和条件随机场模型,训练获取所述评价主体提取模型。

图12为本申请实施例提供的一种情感分析模型的训练装置的功能模块示意图,该装置基本原理及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。如图12所示,该情感分析模型的训练装置300包括:第二获取模块310和第二训练模块320;

所述第二获取模块310,用于获取第二训练数据集,所述第二训练数据集包括多个第二样本文本数据,所述第二样本文本数据标注有至少一个评价主体、各所述评价主体对应的评价维度、所述评价维度对应的情感评价倾向以及各所述评价主体对应的情感分析结果;

所述第二训练模块320,用于根据所述第二训练数据集,训练获取所述情感分析模型,所述情感分析模型用于获取文本数据中评价主体对应的情感分析结果。

上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。

图13为本申请实施例提供的一种电子设备结构示意图。如图13所示,该电子设备可以包括:处理器510、存储介质520和总线530,存储介质520存储有处理器510可执行的机器可读指令,当电子设备运行时,处理器510与存储介质520之间通过总线530通信,处理器510执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。

可选地,本申请还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号