首页> 中国专利> 融合不同传播模式的双流图卷积网络微博话题检测方法

融合不同传播模式的双流图卷积网络微博话题检测方法

摘要

本发明公开一种融合不同传播模式的双流图卷积网络微博话题检测方法,包括如下步骤:(1)根据用户交互关系构建用户级社交网络;(2)针对不同的传播模式,利用图卷积网络的消息传递机制,聚合每个用户节点的相关节点的属性信息,学习包含特定传播模式特征的用户节点嵌入表示;(3)将包含两种传播模式特征的用户节点嵌入表示拼接起来,利用变分自编码器中的编码器部分生成潜在话题向量与话题分布,利用解码器部分训练话题‑词分布,重构用户节点嵌入表示。本发明通过建模更加完整的社交上下文信息,学到了更好的用户节点嵌入表示,生成了更加连贯的话题。实验结果相较现有模型取得了更好的结果。

著录项

  • 公开/公告号CN113870040A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN202111044665.9

  • 发明设计人 贺瑞芳;王浩成;刘焕宇;

    申请日2021-09-07

  • 分类号G06Q50/00(20120101);G06F16/30(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构12201 天津市北洋有限责任专利代理事务所;

  • 代理人刘子文

  • 地址 300350 天津市津南区海河教育园雅观路135号天津大学北洋园校区

  • 入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明涉及自然语言处理以及社会媒体数据挖掘技术领域,具体为一种融合不同传播模式的双流图卷积网络微博话题检测方法。

背景技术

随着推特和新浪微博等社交媒体的流行,互联网上每天都会产生无数的短文本。这些文本包含了用户的意见、观点等丰富的信息。人工分析这些帖子的内容是一项艰巨的任务,耗时耗力。话题模型是一种常见的自动分析海量文本的工具。它可以从文档中自动地检测话题,输出文档-话题分布和话题-词分布。传统的话题模型基于文档中丰富的词共现模式来推断话题。它们采用马尔可夫链蒙特卡罗(Markov chain Monte Carlo,MCMC)或期望最大化(Expectation-Maximum,EM)算法进行参数推断。这些方法在长文本上已经被证明是有效的。然而,由于短文本中缺乏足够的词共现模式,这些方法在社交媒体中的文本上表现较差。

为了解决上述问题,研究者提出了三种改进策略:(1)一些模型将短文本聚合起来捕获跨文档的词共现模式。聚合策略包括按照用户聚合、按照hashtag聚合等等。还有些模型直接建模语料库中无序的词对的共现模式。(2)一些研究侧重于表示学习和话题建模的结合,利用词嵌入技术来捕获文本中的语义信息。然而,上述两种方法都只考虑了社交网络中的内容信息。(3)一些方法在话题建模中集成静态网络结构信息,如社交网络中的关注关系。结构是对内容信息的补充,对社交媒体话题检测具有重要作用。然而,随着模型变得越来越复杂,贝叶斯推理变得难以处理。参数推断成为了限制话题检测发展的一大障碍。

神经变分推理(Neural variational inference,NVI)提供了一个强大的自动编码器框架。它用强大的神经网络代替了概率模型中繁重的推理工作,也促进了神经话题模型的发展。变分自动编码器(Variational auto-encoder,VAE)是最流行的应用。它以文档的词袋向量作为输入,经过推理网络和生成网络,输出文档的话题-词分布。在此基础上,又有模型在话题推断之前建模社交上下文,挖掘用户动态行为,学到了更好的节点嵌入表示。

上述方法尽管取得了不错的效果,然而在建模社交上下文时忽视了对传播特征的挖掘。一个话题在社交网络中有两种传播方式:宽度扩散和深度传播。(1)对于宽度扩散(中心式传播,从中心向四周扩散),话题以“从点到面”的方式渗透到低阶邻域中的每个用户个体。根据社会相关性理论,同一个社区内的好友会看到相同的话题,发布高度相关的内容。它们将具有更相似的属性。好友所发表的信息可以被视为个体信息的补充,以获取更完整信息。(2)对于深度传播(链式传播,从起始用户沿着传播链传播),话题以“从点到线”的方式到达各个社区或群体。由于这些社区的兴趣和背景不同,面对同一话题,他们将关注不同的方面。例如,对于COVID-19话题,一些群体或社区更关注其对人类社会的影响,有的更关注其疫苗的研制进展,另一些则更关注其病毒的可追溯性。沿着传播链,话题的焦点将继续变化。这些不同的内容可以构成更多样化的信息。宽度扩散和深度传播是两种不同的模式。如何在话题检测时对不同的传播模式进行综合建模是一个重要的问题。

发明内容

本发明的目的是为了克服现有技术中的不足,提供一种融合不同传播模式的双流图卷积网络微博话题检测方法。GCN在整合网络结构信息和内容信息方面已经被证明是有效的。本方法使用GCN来聚合社交网络中相关用户节点的信息。针对社交媒体中存在的不同话题传播模式,提出一种适用于用户级社交网络的双流图卷积网络模型。该模型建模不同的传播模式,以更好地建模社交上下文,学习更好的用户节点嵌入表示。最后引入变分自动编码器来融合两种传播模式的特征并推断更加连贯的话题。

本发明的目的是通过以下技术方案实现的:

一种融合不同传播模式的双流图卷积网络微博话题检测方法,包括以下步骤:

(1)根据社交网络中用户的交互关系,构建用户级社交网络;

(2)针对话题在社交网络中的两种传播模式,即宽度扩散和深度传播,利用双流图卷积网络,训练得到包含不同传播模式特征的用户节点嵌入表示;

(3)将包含不同传播模式特征的用户节点嵌入表示拼接起来,利用变分自编码器中的编码器生成潜在话题向量与话题分布,利用解码器训练话题-词分布矩阵并重构用户节点嵌入表示。

进一步的,步骤(1)具体包括:

根据用户之间的转发、评论关系,构建一个用户级的社交网络G=(V,E,T);其中,V={v

根据用户交互关系,得到一阶邻接矩阵A;根据帖子集合T,将帖子中的每个词替换为其对应的词嵌入向量,得到属性矩阵X;由于每个用户的帖子长度不同,使用截断和填充方法标准化为相同的长度;词嵌入向量采用随机初始化的方法。

进一步的,步骤(2)具体包括:

利用双流图卷积网络学习包含不同传播模式特征的用户节点嵌入表示;对于宽度扩散模式,以用户级社交网络作为输入,使用两层图卷积网络GCN学习包含宽度扩散特征的用户节点嵌入表示:

其中

对于深度传播模式,要计算高阶邻接矩阵A

其中,diag_zero表示将对角线置为零;同样使用两层图卷积网络GCN学习包含深度传播特征的用户节点嵌入表示,邻接矩阵采用公式(4)计算得到的高阶邻接矩阵,属性矩阵X与宽度扩散模式中所使用的属性矩阵相同;具体公式如下:

其中

图卷积网络GCN的损失函数采用无监督的双流损失函数;两种传播模式使用相同的损失函数公式,但有不同的输入;损失函数的公式如(8)(9)所示:

上述损失函数的目标是,给定用户v

进一步的,步骤(3)具体包括:

将每个用户的两种用户节点嵌入表示拼接起来,如公式(10)所示;将拼接后的向量送入变分自编码器中的编码器部分;编码器为两层全连接网络,首先将拼接的用户节点嵌入表示映射到非线性空间,然后计算话题后验分布的均值和方差;

接着,定义一个话题-词分布矩阵φ

损失函数如下所示,由重构误差项E

loss

将双流图卷积网络的损失函数与变分自编码器的损失函数相加,联合训练图卷积网络与变分自编码器,得到最终的损失函数,如下所示:

L=loss

与现有技术相比,本发明的技术方案所带来的有益效果是:

(1)为了缓解社交媒体中帖子简短且表达不正式的问题,本发明方法同时考虑了帖子内容和社交网络结构信息,建模更加完整的社交上下文。

(2)为了综合建模话题在社交网络上不同的传播模式,本发明方法提出双流图卷积网络模型,分别学习包含宽度扩散特征以及深度传播特征的用户节点嵌入表示。。

(3)为训练双流图卷积网络,本发明方法设计了双流损失函数,分别对用不同传播模式的建模,训练得到用户节点嵌入表示。

(4)为了生成更加连贯的话题,本发明方法将包含两种传播模式特征的用户节点嵌入表示拼接起来,融合不同的传播模式,得到话题在社交网络中更加全面的信息。输入到变分自编码器中,利用神经网络的强大能力,推断连贯性得分更高的话题。

(5)在真实的新浪微博数据集上的实验结果表明本发明方法的有效性,并证明了建模话题不同的传播模式对微博话题检测的有效性。

附图说明

图1为通过本发明方法提供的融合不同传播模式的双流图卷积微博话题模型框架示意图。按照本发明方法其组成框架依次为用户级社交网络、双流图卷积网络模块和基于变分自编码器的话题推断模块。

图2为双流图卷积网络模块中损失函数的示意图。

图3为模型的评价指标连贯性得分在随机游走序列长度取不同值时的变化情况。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

以新浪微博数据集为例给出本发明的具体实施方法,该方法的整体框架如图1和图2所示。整个算法流程包含构建用户级社交网络、双流图卷积网络模块、基于变分自编码器的话题推断模块三个步骤。

具体步骤如下:

(1)构建用户级社交网络:

本发明使用公开的新浪微博数据集。该数据集收集了2014年5月、6月和7月三个月份的涵盖50个热门话题的相关微博。本发明以这三个月的数据集为原始语料,并按照以下步骤来构建用户级社交网络:1)过滤删除没有转发或评论关系的用户;2)将用户的所有帖子都拼接在一起,作为该用户的帖子文本;3)根据用户之间的交互关系构建网络,若两个用户之间存在交互,则两个用户节点之间存在边,相反则不存在。用户的帖子文本作为社交网络中用户节点的属性信息。图1左侧用户级社交网络部分展示了根据转发和评论关系构建的用户级对话网络。

表1展示了三个月数据集的统计信息,具体如下:5月数据集共包括8907个用户,10435次交互,词表大小为5914;6月数据集共包括19293个用户,35962次交互,词表大小为9368;7月数据集共包括16990个用户,20971次交互,词表大小为9663。

表1微博数据集统计信息

(2)双流图卷积网络模块:

利用两个平行的图卷积网络学习用户节点嵌入表示。对于宽度扩散模式,使用一阶邻接矩阵A

(3)基于变分自编码器的话题推断模块:

将每个用户的两种用户节点嵌入表示拼接起来。将拼接后的向量送入变分自编码器中的编码器部分。编码器为全连接网络,首先将拼接的用户节点嵌入表示映射到非线性空间,然后计算话题后验分布的均值和方差,过程如下公式所示:

e=f(W

μ=W

其中,

将z通过线性变换与softmax函数得到话题分布θ=(p(t

θ=softmax(W

其中,W

d=softmax(φ

h′=f(W

其中,d表示每个用户节点的属性信息中出现各个词的概率值,h′表示解码器重构的用户节点嵌入表示。损失函数定义如下所示,由重构误差项E

loss

将双流图卷积网络模块的损失函数与话题推断模块的损失函数相加,得到该方法损失函数,联合训练双流图卷积网络与变分自编码器,如下所示:

L=loss

在具体实施过程中,首先对每个用户节点的帖子文本进行预处理。经过聚合,每个用户的帖子文本将包含50个词。在双流图卷积网络中,将隐藏层的维度设置为400和200,学习率设置为0.01。为了防止过拟合,采用了dropout。在话题推断模块,第一层编码器的维度设置为200,学习速率被设置为0.01。同样使用了dropout以避免过拟合。

为了验证本发明方法的有效性,将本发明方法(DGTM)与当前先进并具有代表性的方法(BAT

BAT探索了双向对抗训练在神经话题模型中的应用。它是为长文档设计的,在应用于短文本时面临严重的数据稀疏性。

BTM通过直接建模整个语料库中词对的生成来学习话题。

LCTM通过建模潜在概念的共现模式来揭示话题,这些潜在概念用来捕获词汇的概念相似性。

LeadLDA将帖子区分为领导者帖子和跟随者帖子,并认为到领导者信息和跟随者帖子包含关键话题词的不同程度。

AdjEnc在学术论文、网页等结构化长文档中将网络结构引入了话题推理。

IATM建模了动态交互,以学习交互感知的边嵌入,利用神经变分推理生成话题。

DGTM(remove wide)去除宽度扩散模式的建模,只保留深度传播模式。

DGTM(remove deep)去除深度传播模式的建模,只保留宽度扩散模式。

模型性能的评价指标采用话题连贯性(Topic coherence),公式如下:

表2,3,4分别展示了本方法和所有比较方法在三个月微博数据集上的话题连贯性结果。对每个数据集,分别记录了话题数K=50,100时所推断话题的前10(N=10),15(N=15),20(N=20)个词的连贯性得分。话题连贯性越高表示该模型性能越好。

表2本发明方法与比较方法在5月数据集上的性能比较

表3本发明方法与比较方法在6月数据集上的性能比较

表4本发明方法与比较方法在7月数据集上的性能比较

从表2,3,4的话题连贯性结果可以看出,建模话题在社交网络中不同的传播模式,可以整合更完整的社交上下文信息,话题连贯性得到了进一步的提升。为了进一步研究随机游走序列长度对话题连贯性的影响,图3展示了本发明方法在五月份数据集上话题连贯性分数随着随机游走长度变化而变化的情况。

以上内容旨在示意性地说明本发明的技术方案,本发明并不限于上文描述的实施方式。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

参考文献:

[1]Rui Wang,Xuemeng Hu,Deyu Zhou,Yulan He,Yuxuan Xiong,Chenchen Ye,and Haiyang Xu.2020.Neural Topic Modeling with Bidirectional AdversarialTraining.In Proceedings of the58th Annual Meeting of the Association forComputational Linguistics.340–350.

[2]Xiaohui Yan,Jiafeng Guo,Yanyan Lan,and Xueqi Cheng.2013.A bitermtopic model for short texts.In In Proceedings of the 22nd internationalconference on World Wide Web.ACM,1445–1456.

[3]Weihua Hu and Jun’ichi Tsujii.2016.A Latent Concept Topic Modelfor Robust Topic Inference Using Word Embeddings.In Proceedings of the 54thAnnual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers).380–386.

[4]Jing Li,Ming Liao,Wei Gao,Yulan He,and Kam-Fai Wong.2016.TopicExtraction from Microblog Posts Using Conversation Structures.In Proceedingsof the 54

[5]Ce Zhang and Hady W.Lauw.2020.Topic Modeling on Document Networkswith Adjacent-Encoder.Proceedings of the AAAI Conference on ArtificialIntelligence 34,04(2020),6737–6745.

[6]Ruifang He,Xuefei Zhang,Di Jin,Longbiao Wang,Jianwu Dang,andXiangang Li.2018.Interaction-Aware Topic Model for Microblog Conversationsthrough Network Embedding and User Attention.In Proceedings of the 27thInternational Conference on Computational Linguistics.1398–1409.

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号