技术领域
本发明属于深度学习技术领域,具体涉及一种基于传播图神经网络的互联网谣言检测方法。
背景技术
在现实中,谣言检测存在诸多挑战:1)信息量大。社交网络上每时每刻都在产生新的新闻和资讯,并且内容涉及各个领域。为了检测谣言,需要处理大量的信息;2)实效性高。社交网络上的用户活跃度高,新闻资讯短时间内传播范围广,对于虚假的谣言必须能够尽早发现,以防止恶劣影响的传播;3)识别困难。有些谣言是精心设计的,有意图和导向性的,不仅普通用户甚至专业人士也难以分辨其真假。
为了能够检测互联网谣言,提出了很多互联网谣言的检测方法,例如申请号为201911158422.0的中国专利公开了一种基于图神经网络的谣言立场检测方法、装置和电子设备。该专利包括:获取谣言数据;根据所述谣言数据的特征构建异构图,其中,所述异构图包括多个节点,所述节点用于表示所述谣言数据;将所述异构图输入图神经网络模型,得到对所述节点的立场分类结果,其中,所述立场分类结果是由所述图神经网络模型确定所述节点的目标特征,并根据每个所述节点的目标特征经过分类得到的。
但是现有方法对于谣言的检测时,面对大量的网络数据时,检测效率不高,准确性相对较差,从而很难有效应对上述的挑战,因此,还需对谣言检测的方法进行深入研究。
发明内容
技术问题:本发明针对现有技术在进行谣言检测时,检测效率地以及准确性不足的问题,提供一种基于传播图神经网络的互联网谣言检测方法,该方法具有较高的检测效率和准确率,实现快速准确地检测谣言的目的。
技术方案:本发明的基于传播图神经网络的互联网谣言检测方法,包括:
步骤S1:获取待检测网页中用户的评论或回复结构,构建传播图;
步骤S2:获取待检测网页中的文本数据,构建文本的向量表示;
步骤S3:将文本的向量表示作为传播图中节点的初始状态,并利用基于门控循环单元的图神经网络更新传播图中节点的向量表示,根据传播图中节点的向量表示对待检测谣言进行分类。
进一步地,步骤S1包括:
获取网页中消息的评论、回复和转发关系,构建传播树结构;
对于传播树中存在的路径,添加方向相反的路径,构成传播图。
进一步地,步骤S2包括:
获取待检测网页中的文本数据,并将文本中的每个单词表示为词向量;
对每个文本中的词向量取均值,作为文本的向量表示。
进一步地,采用word2vec算法将文本中的每个单词表示为词向量。
进一步地,利用基于门控循环单元的图神经网络对传播图中节点的向量表示进行更新,节点v的向量表示从时间步t-1到t的更新过程为:
其中,v表示节点,IN(v)表示传播图中的节点集合,t表示时间步,
进一步地,步骤S3中,在更新传播图中节点的向量表示时,通过注意力机制,动态地调整传播图中各个节点的权重,具体方法为:
将公式
其中,
其中,u′表示与节点u不同的任意节点,节点v沿着某一条关系路径汇聚邻域信息时,会根据该路径两端节点的向量表示动态地调整该路径的权重。
进一步地,步骤S3中,根据传播图中节点的向量表示对待检测谣言进行分类的过程为:
将传播图中所有节点的向量表示取均值得到均值向量c,按如下公式计算:
其中W
对于任意节点v,根据该节点的向量表示H
α
其中,W
得到传播图中所有节点的权重后,计算整个传播图的向量表示,按如下公式计算
其中,g为整个传播图的向量表示,W
将得到的整个传播图的向量表示g作为全连接层的输入,输出最终的分类结果:
其中,F为全连接神经网络,
进一步地,步骤S3中,根据传播图的向量表示对待检测谣言进行分类的过程为:
将传播图中所有节点的向量表示取均值得到均值向量c,按如下公式计算:
其中W
根据每个节点的向量表示得到各自的分类结果,并将所有的分类结果通过线性加和的方式得到最终的分类结果,分类公式如下:
其中,W
进一步地,所述基于门控循环单元的图神经网络至少为两层,其中,第m层经过迭代更新后得到的节点表示
其中,T
有益效果:本发明与现有技术相比,具有以下优点:
本发明根据网页中评论/回复结构构建了传播图,并构建文本的向量表示,利用基于门控循环单元的图神经网络更新传播图中节点的向量表示,并根据传播图中节点的向量表示对待检测谣言进行分类,从而对谣言在互联网上的传播结构进行捕捉和动态更新,有效地提高了谣言的检测效率和准确率,实现了快速准确地检测谣言的目的。
并且,在更新传播图中节点的向量表示时,引入注意力机制,动态地调整传播图中各个节点的权重,从而有效地提升了谣言检测的准确度。
附图说明
图1为本发明的实施例中的方法流程图;
图2为本发明的实施例中传播图的构建方式图;
图3为本发明的实施例中传播图中节点的更新方式图;
图4为本发明的实施例中利用GLO-PGNN方法时迭代更新次数的仿真图;
图5为本发明的实施例中利用ENS-PGNN方法时迭代更新次数的仿真图;
图6为本发明的实施例中利用GLO-PGNN方法时更新的层数M的仿真图;
图7为本发明的实施例中利用ENS-PGNN方法时更新的层数M的仿真图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。首先对对相关概念进行定义。
源推文:一个用户原创的推文,它不是对任何其他推文的回复、评论或是转发,本发明的实施例中,使用s
响应推文:是在源推文发布后,对其进行回复、评论或是转发的推文。本发明的实施例中,使用x
结合图1所示,本发明的方法包括以下步骤:
步骤S1:获取待检测网页中用户的评论或回复结构,构建传播图。
图2(a)展示了ACM官方推特账号发布2019年图领奖获得者的消息后,其他用户对该推文的评论、回复和转发关系。获取推文之间的回复、评论和转发关系构建一个传播树结构,如图2(b)所示。其中,节点0表示源推文,节点1、2、3表示响应推文。
显式关系路径:对于一条推文x
隐式关系路径:对于推文节点x
通过引入关系路径,本发明定义从源推文开始经过多名用户回复、评论和转发形成的图结构为传播图,如图2(c)所示。
传播图的结构定义为:G=(V,E;f,Ψ,Φ),其中V为传播图中所有推文节点的集合,对于
步骤S2:获取待检测网页中的文本数据,构建文本的表示。
在本发明的实施例中,使用Word2vec算法将文本中的每个单词表示为词向量,并对每个文本中的词向量取均值,作为文本的向量表示。
步骤S3:将文本的向量表示作为传播图中节点的初始状态,并利用基于门控循环单元的图神经网络更新传播图中节点的向量表示,根据传播图中节点的向量表示对待检测谣言进行分类。
具体地,将文本的向量表示作为传播图中节点的初始状态,该节点的原始向量表示记作
引入基于门控循环单元的图神经网络,对传播图中的节点进行更新,节点v的向量表示从时间步t-1到t的更新过程如公式(1)~(5)所示:
其中,t表示时间步,
通过引入门控循环单元来控制信息的累积速度。有选择的加入新的邻域汇聚信息,并有选择的遗忘之前时刻的历史信息,从而达到在有限的时间步内不断更新节点的向量表示的目的。
在本发明的实施例中,更新传播图的节点的向量表示过程中,在每次汇集邻域信息时,通过注意力机制,动态地调整传播图中各个节点的权重,具体地,将公式(1)修改为:
其中,
用u′表示与节点u不同的任意节点,节点v沿着某一条关系路径汇聚邻域信息时,会根据该路径两端节点的向量表示动态地调整该路径的权重。
按上述过程更新T个时间步后,即可得到节点的向量表示,但是使用单层图神经网络得到的节点表示,其表达能力相对较弱。在对图像进行特征提取时,通常使用多层卷积神经网络来提取图像中更为抽象的信息。因此在本发明的实施例中,采用的基于门控循环单元的图神经网络至少包括两层门控循环单元,每一层的更新方式均如公式(1)~(5)所示,但是每一层的参数W、U和b等的取值是不一样的,这使得每一层在更新节点的向量表示时能够关注不同的信息。
假设基于门控循环单元的图神经网络共有M层门控循环单元,则第m层经过T
其中,T
本发明的实施例中,将上述方法成为传播图神经网络算法(PNGG),则使用PNGG算法生成节点的向量表示的具体方法如下:
进一步地,在得到传播图中各节点的向量表示H后,根据节点的向量表示对谣言数据进行分类,在本发明的一个实施例中,从全局的角度,整合各个局部节点的信息,得到整个传播图的向量表示,然后用于分类,并与上述的PNGG算法集成为GLO-PNGG。
具体地,将传播图中所有节点的向量表示取均值得到均值向量c,按如下公式计算
其中,
对于任意节点v,根据该节点的向量表示H
α
其中,
得到传播图中所有节点的权重后,计算整个传播图的向量表示,按如下公式计算:
其中,g为整个传播图的向量表示,
将得到的整个传播图的向量表示g作为全连接层的输入,输出最终的分类结果:
其中,F为全连接神经网络,
在本发明的另一种实施例中,先根据每个节点的向量表示得到各自的分类结果,再通过线性加和的方式得到最终的分类结果,并与PNGG算法集成为ENS-PNGG算法。具体地分类计算公式如(13)所示:
其中,c表示均值向量,利用公式(9)计算;σ(·)为sigmoid函数,用于将输出限制在0~1之间,⊙为哈达马积,表示对于两个维度相同的向量、矩阵、张量进行对应位置的逐元素乘积运算,
为了对本发明的效果进行说明,通过仿真试验进行验证,在使用PGNN计算传播图中的节点表示时,更新的层数M和每一层的迭代次数T是需要手动设置。
首先讨论模型的分类效果与迭代次数T的关系。固定更新的层数M=1,即神经网络模型中只包括一层门控循环单元,图4和图5分别展示了利用GLO-PGNN方法和ENS-PGNN方法分类结果的F1值与迭代次数T的关系,对于这两种方法,最优的迭代次数都是2。
固定迭代次数T=2不变,图6和图7分别展示了利用GLO-PGNN方法和ENS-RGNN方法分类结果的F1值与更新层数M的关系,可以看出,最佳的更新层数M均为2。并且可以看出本发明的方法的F1值都相对较高,也说明了本发明的方法具有较高的准确率,能够更好地对谣言数据进行分类,从而更准确地检测谣言。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
机译: 谣言检测系统,谣言检测方法及程序
机译: 基于深度图挖掘的反向传播图像可见度检测方法
机译: 一种利用互联网和地理信息系统或互联网地理信息系统显示房地产价格相关信息的方法,以及一种利用地理信息系统中的地图或土地注册图计算房地产价格并通过互联网主页进行显示的方法