首页> 中国专利> 基于事件图卷积神经网络的微博评论观点对象分类方法

基于事件图卷积神经网络的微博评论观点对象分类方法

摘要

本发明涉及基于事件图卷积神经网络的微博评论观点对象分类方法,属于自然语言处理技术领域。本发明包括步骤:以微博正文和评论作为文档节点,显式的将关键词共现关系,回复关系和文档相似性作为文档节点的边的权重,以此为基础构造图卷积神经网络的邻接矩阵。同时对与关键词密切相关的文档节点和词节点的初始特征给予更多权重。最后,在少量标签的监督下,学习词节点和文档节点的表示,以完成分类。本发明在两个事件微博数据集上的实验结果表明,与其他基准模型相比,EventGCN可以显著提高观点对象的分类性能。

著录项

  • 公开/公告号CN112925907A

    专利类型发明专利

  • 公开/公告日2021-06-08

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN202110164081.9

  • 申请日2021-02-05

  • 分类号G06F16/35(20190101);G06F40/284(20200101);G06F40/216(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构53204 昆明人从众知识产权代理有限公司;

  • 代理人何娇

  • 地址 650093 云南省昆明市五华区学府路253号

  • 入库时间 2023-06-19 11:19:16

说明书

技术领域

本发明涉及基于事件图卷积神经网络的微博评论观点对象分类方法,属于自然语言处理技术领域。

背景技术

微博评论观点对象分类是按照评论对象将微博评论划分为不同类别,属于文本分类任务。传统的文本分类研究主要集中在特征工程和分类算法上。最常采用的分类特征是one-hot、n-gram、IF-IDF,而分类算法包括朴素贝叶斯,k近邻分类器和支持向量机。近年来,神经网络模型受到广泛关注,基于递归神经网络(RNN)和卷积神经网络(CNN)的模型在文本分类方面取得了良好的效果。基于神经网络的模型可以捕获文本语义的分布式表示,这可以大大减少特征设计的工作量。然而,这些方法需要大量的标记样本来建立具有良好性能的分类器。收集此类训练数据需要领域专家通读大量文档,并用领域知识仔细标记。由于事件发生的实时性,标记大量样本是不现实的。因此,有监督文本分类方法不适合此任务。为了减轻标记数据不足的问题,有方法采用基于预训练语言模型或遮罩语言模型,这些方法在大量文本上进行了预训练,然后根据文本分类任务进行微调。除了标记的数据外,还可以使用大量未标记的数据。研究人员利用去噪自编码器或变分自编码器,通过在未标记数据上引入额外的损失函数来帮助文本分类。他们利用潜在变量来重构带有标签和未标记的输入句子,并使用这些潜在变量预测句子标签。尽管这些半监督方法有效地利用了未标记样本,但它们将每个短句视为独立且均匀分布(IID),只关注句子本身的局部上下文,并且句子之间的关系信息丢失。最近,基于图的方法被用于解决该问题。例如,Defferrard等人首先在文本分类任务中使用图卷积神经网络,并且优于传统的CNN模型。此外,基于图卷积网络的半监督分类得到了广泛的关注。 Yao等人提出了一种文本图卷积网络(TextGCN),将文本分类问题变成一个节点分类问题,但是没有考虑细粒度的文本级单词交互。Zhang等人结合单词节点作为文档嵌入,以捕获每个文档中的上下文单词关系。此外,Huang等人通过引入消息传递机制并减少内存消耗来改进文本图卷积网络。由于稀疏性和有限的标记数据,大多数现有的基于图的研究都集中在长文本上,而在短文本上却无法获得令人满意的性能。对于简短文本的建模,Hu等人提出了一种异构信息网络框架(HIN),该框架可以集成任何类型的附加信息并捕获它们之间的关系以解决语义稀疏性。这些基于图神经网络的方法并不是专门为微博观点对象分类而设计的,应用于该任务时性能受到了局限。

发明内容

本发明提供了基于事件图卷积神经网络(EventGCN)的微博评论观点对象分类方法,以微博正文和评论作为文档节点,显式的将关键词共现关系,回复关系和文档相似性作为文档节点的边的权重,以此为基础构造图卷积神经网络的邻接矩阵。同时对与关键词密切相关的文档节点和词节点的初始特征给予更多权重。最后,在少量标签的监督下,学习词节点和文档节点的表示,以完成分类。

本发明的技术方案是:基于事件图卷积神经网络的微博评论观点对象分类方法,所述方法包括:

步骤1、收集文本(某事件的微博正文以及评论)作为训练语料和测试语料;

步骤2、文本预处理:文本的预处理包括:分词、去除停用词;

步骤3、利用词节点之间、文档节点之间、文档节点和词节点之间的关系计算任意两个节点之间边的权重,以此构建邻接矩阵;

步骤4、利用预训练的词向量和句向量构造特征矩阵;

步骤5、将特征矩阵和邻接矩阵输入到图卷积网络中,得到节点的聚合特征;

步骤6、基于节点的聚合特征,利用softmax分类器得到观点对象的分类结果。

作为本发明的进一步方案,所述步骤3中的邻接矩阵,由三部分组成,分别是文档节点和词节点之间边的权重、词节点之间边的权重和文档节点之间边的权重;它们分别用词频-逆文本频率TF-IDF、点互信息PMI和D(i,j)=E(i,j)+R(i,j)+S(i,j) 计算,其中E(i,j)、R(i,j)和S(i,j)分别为关键词共现关系、回复关系和文档相似性作为文档节点的边的权重,基于从微博正文中抽取的事件相关关键词,通过下式得到基于关键词的文档节点之间边的权重,计算公式为:

其中#E是语料库中的关键词总数,e

由于两个具有回复关系的评论更倾向于讨论同一个观点对象类别,故通过以下公式得到回复图中文档节点之间边的权值:

又由于两个具有相似性的文档更可能是同一个类别,故通过以下公式计算文档相似度图中文档节点之间边的权值:

其中#D

根据上述计算,构造了一个完整的邻接矩阵。此外,假设每个节点都与其自身相连。由于自循环,A的对角线元素被设置为1。

作为本发明的进一步方案,所述步骤4中的特征矩阵,其构建方式为:首先抽取语料库的关键词集E,使用word2vec等预训练的词向量嵌入为词向量查找表;其中x

作为本发明的进一步方案,所述步骤5中将特征矩阵和邻接矩阵输入到图卷积网络中;其公式为:

其中L

其中j表示层号,L

作为本发明的进一步方案,所述步骤6中利用两层图卷积得到的节点的聚合特征,输入到softmax分类器中,得到评论的观点对象类别:

其中ReLU是激活函数,W

其中D

本发明的有益效果是:

1、将微博内容和评论均视为文档节点,并利用微博关键词捕捉文档节点之间的关系,初始化节点特征,能更好地进行文档节点的特征学习。

2、构建了一个针对整个语料库的事件图卷积网络,该网络能够充分利用有限的标记文档来捕获未标记文档节点的特征,用于观点对象分类。

2、在两个微博数据集上的实验结果表明,事件图卷积网络在很少的标注数据情况下取得了很好的效果,优于多种最新的观点对象分类方法。

附图说明

图1为本发明所提出的事件图卷积神经网络图;

图2为本发明构建邻接矩阵的示意图;

图3为不同模型的观点对象分类结果,其中(a)是数据集1的结果,(b)是数据集2的结果;

图4为本发明构建不同邻接矩阵的分类结果,其中(a)是数据集1的结果,(b) 是数据集2的结果。

具体实施方式

实施例1:如图1-4所示,基于事件图卷积神经网络的微博评论观点对象分类方法,所述方法包括:

步骤1、收集如表1所示的事件微博正文以及评论作为训练语料和测试语料。从新浪微博平台收集了两个与法律相关的事件数据集,用于模型训练和测试。三位专家同时为评论标注观点对象类别,最后选取标签一致的评论。数据集的基本信息如表2所示。第一个数据集包含32220个未标记样本和1925个标记样本,共有4类观点对象,即法律机构、商家、消费者和其它。第二个数据集包含20294个未标记样本和1658个标记样本,共有4类观点对象,即政府机构、公交司机、媒体和其它。从两个数据集中抽取70%的标记样本作为测试集,进行最终的分类性能评估,剩下的30%样本作为候选的训练数据。

表1微博示例

表2数据集汇总统计

步骤2、文本预处理:文本的预处理包括:分词、去除停用词等;中文分词采用jieba分词系统接口实现;

步骤3、构造EventGCN中的邻接矩阵和初始特征矩阵;

(a)、利用词节点之间、文档节点之间、文档节点和词节点之间的关系计算任意两个节点之间边的权重,以此构建邻接矩阵;

首先利用如下公式构造EventGCN的邻接矩阵:

在这个邻接矩阵中,文档节点和词节点之间的边的权重是词频-逆文本频率(TF-IDF)。词节点之间的边的权重利用点互信息(PMI)进行计算:

其中,#W(i)是语料库中包含单词i的滑动窗口数,#W(i,j)是同时包含单词i和j的滑动窗口数,#W是语料库中滑动窗口的总数。

所述步骤3中的邻接矩阵,由三部分组成,分别是文档节点和词节点之间边的权重、词节点之间边的权重和文档节点之间边的权重;它们分别用词频-逆文本频率 TF-IDF、点互信息PMI和D(i,j)=E(i,j)+R(i,j)+S(i,j)计算,其中E(i,j)、R(i,j)和 S(i,j)分别为关键词共现关系、回复关系和文档相似性作为文档节点的边的权重,基于从微博正文中抽取的事件相关关键词,通过下式得到基于关键词的文档节点之间边的权重,计算公式为:

其中#E是语料库中的关键词总数,e

由于两个具有回复关系的评论更倾向于讨论同一个观点对象类别,故通过以下公式得到回复图中文档节点之间边的权值:

又由于两个具有相似性的文档更可能是同一个类别,故通过以下公式计算文档相似度图中文档节点之间边的权值:

其中#D

根据上述计算,构造了一个完整的邻接矩阵。此外,假设每个节点都与其自身相连。由于自循环,A的对角线元素被设置为1。

(b)、利用预训练的词向量和句向量构造特征矩阵;

所述步骤(b)中的特征矩阵,其构建方式为:首先抽取语料库的关键词集E,使用word2vec等预训练的词向量嵌入为词向量查找表;其中x

作为本发明的优选方案,所述步骤3中设置滑动窗口数为20,关键词抽取工具使用TextRank,关键词个数设置为30,系数α为10,词向量采用在0.73G新浪微博数据集上预训练的300维词向量。

步骤4、将特征矩阵和邻接矩阵输入到图卷积网络中,得到节点的聚合特征;

作为本发明的进一步方案,所述步骤4中将特征矩阵和邻接矩阵输入到图卷积网络中;其公式为:

其中L

其中j表示层号,L

步骤5、基于节点的聚合特征,利用softmax分类器得到观点对象的分类结果。

作为本发明的进一步方案,所述步骤5中利用两层图卷积得到的节点的聚合特征,输入到softmax分类器中,得到评论的观点对象类别:

其中ReLU是激活函数,W

其中D

作为本发明的优选方案,模型的学习率为0.02,dropout率为0.5,优化器为Adam。随机选取训练集中10%的标记数据作为验证集,并使用对EventGCN进行最多500 个轮次的训练。

将EventGCN与其他8个基线模型在两个数据集上的分类结果进行比较,分别是SVM、Bi-LSTM、TextCNN、FastText、Bert、ABAE-labeled、MATE-labeled、TextGCN,计算出每个观点对象类别的精确度(P)、召回率(R)、F1和加权平均值,如表3和表4所示。

表3基于不同模型的数据集1观点对象分类结果

表4基于不同模型的数据集2观点对象分类结果

从表3和表4可以看出,EventGCN相比其他8种基线方法,P、R、F1值都有较大的提升。相比基础的图卷积神经网络TextGCN,加权平均值在两个数据集上提升了10%以上。

为了证明本发明所提出的关键词图、回复图和文档相似度图的作用,进行了三种图和EventGCN的对比实验。图3中“keywords-based”、“Reply-based”和“Similarity-based”三种方法是指单独使用E(i,j),R(i,j)和S(i,j)计算文档节点的边的权重,构建邻接矩阵,而特征矩阵的构建与EventGCN相同。对于数据集1,基于关键词图的方法P、R和F1值比基于回复图和基于文档相似度图的方法提高了0.5%左右,表明使用事件关键词来建立不同文档之间的相关性比使用回复关系或文档的相似性更有效。基于回复图和基于文档相似性图的结果相似。另外,当三种图同时使用时,F1值比单独使用基于文档相似性图提高了1.1%。结果表明,所提出的三种图的组合是有效的。对于数据集2,与数据集1相同,三种图的组合可以获得最佳结果。

为了证明本发明所提出的特征矩阵初始化方法的作用,进行了不同节点初始化方法的比较。图4中“Unweighted word vector-based initialization”是指在计算特征矩阵时,将系数α设为1;而“Bert-based initialization”是指将单个的字作为节点,不以中文分词后的词作为节点。同时,将字节点的初始特征设置为中文Bert字向量,文档节点的初始特征为Bert预训练模型进行编码的文档向量。从图4中可以看出, TextGCN的P、R和F1值最低。“Bert-based initialization”模型与TextGCN相比有明显的改进,但不如“Unweightedword vector-based initialization”。主要原因是基于Bert 的初始化模型使用字作为节点,因此,邻接矩阵中节点间边的权值表示得不好,影响了性能。此外,与“Unweighted wordvector-based initialization”相比,EventGCN 有少量的性能提升,这表明通过关键词来强化初始节点特征是有益的。实验结果表明,本发明所提出的特征矩阵初始化方法由于充分利用了先验知识,因此与其他三种初始化方法相比是最有效的。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号