公开/公告号CN114863119A
专利类型发明专利
公开/公告日2022-08-05
原文格式PDF
申请/专利权人 之江实验室;
申请/专利号CN202210424210.8
申请日2022-04-22
分类号G06V10/40(2022.01);G06V10/762(2022.01);G06V10/82(2022.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构杭州浙科专利事务所(普通合伙) 33213;
代理人陈洁
地址 311100 浙江省杭州市余杭区中泰街道之江实验室南湖总部
入库时间 2023-06-19 16:16:00
法律状态公告日
法律状态信息
法律状态
2022-08-23
实质审查的生效 IPC(主分类):G06V10/40 专利申请号:2022104242108 申请日:20220422
实质审查的生效
2022-08-05
公开
发明专利申请公布
技术领域
本发明属于图数据挖掘技术领域,尤其涉及基于三重视图神经网络的多样化社区检测方法。
背景技术
真实系统具有丰富的网络结构,所有的网络结构都可以建模为图。社区是图数据中具有较高内聚性的一种子图,社区检测对于描述和理解复杂图网络具有重要意义。
传统的社区发现是基于固定的内聚性度量,检测出符合约束条件的包含查询节点q的内聚性子图。由此挖掘出的社区不仅将社区禁锢在某种特定度量之内,还只考虑了图数据结构上的信息,没有挖掘节点属性所隐含的语义信息。而现实生活中每个节点会包含多种属性信息,基于属性图的社区挖掘方法主要关注结构紧密性且属性相似的子图结构。然而,节点同质化的社区结构在合作网络中不利于发挥出个体的最大化价值,在推荐系统中不利于打破信息茧房和固有圈层,因此,挖掘具有“结构紧密、属性多样化”特点的多样化社区检测是必要和重要的。
深度聚类方法旨在将深度表示学习与聚类目标相结合。深度聚类算法大致可以分为两类:(1)在学习表示之后应用聚类的两阶段工作,例如利用自编码器来学习原始数据的低维特征,然后运行经典聚类算法(如K-means算法)得到聚类结果。利用稀疏先验的自编码器学习非线性潜在空间中同时适应局部和全局子空间结构的表示,采用传统的聚类算法进行标签分配。这类方法将聚类与训练自动编码器分开,这可能导致学习的表示不是最适合后续的聚类任务。(2)联合优化特征学习和聚类的方法,例如深度嵌入聚类算法使用堆栈式自编码对数据进行预训练,然后移除解码器。剩余编码器通过定义的KL-散度聚类损失微调,从而提高了聚类的内聚性。改进的深度嵌入聚类算法(IDEC)认为定义的聚类损失会破坏特征空间,导致特征不具有代表性,因此它们重新加入解码器,并与聚类损失一起优化重构误差。而这些方法关注从数据本身学习表示特征,很少关注于数据之间的联系。
发明内容
本发明目的在于提供一种基于三重视图神经网络的多样化社区检测方法,以解决上述的技术问题。
为解决上述技术问题,本发明的基于三重视图神经网络的多样化社区检测方法的具体技术方案如下:
一种基于三重视图神经网络模型的多样化社区检测方法,包括以下步骤:
步骤一:从输入的属性图中提取特征:从图数据的空间结构和节点属性矩阵提取第一视图特征,从图数据的异构信息中提取第二视图特征、从属性共现矩阵中提取第三视图特征;
步骤二:将输入的序列信息X={x
步骤三:对输出向量Z进行结构紧密属性多样化聚类;
步骤四:解码器对Encoder生成的Z作为输入,解码出目标序列,从而得到Decoder输出序列X′={x′
进一步地,所述步骤一包括如下具体步骤:
步骤1.1:提取图的空间结构:根据节点和边信息,构造图的邻接矩阵A
步骤1.2:提取图的异构信息:根据节点和属性的异构性构造“节点-属性”和“节点-节点”两种元路径的异构图,将每个属性信息当作为一种节点,图的原始节点为另一种节点,即定义异构图G
步骤1.3:提取图的属性共现矩阵:根据图属性矩阵A
PPMI(x,y)=max(PMI(x,y),0) (1)
进一步地,其特征在于,所述步骤二包括如下具体步骤:
步骤2.1:用GCN模型对属性共现矩阵A
步骤2.2:使用GAT对图的结构信息A
步骤2.3:使用HGCN对节点和属性的异构信息进行表示学习,在异构图中,两个对象可以通过不同的语义路径连接,这些语义路径称为元路径,使用节点-属性,节点-节点两种元路径,每个属性为不同的节点类型,不同类型的节点有不同的特征空间,根据不同属性构建映射矩阵X,通过映射函数f将不同节点映射到同一特征空间:
h′
然后使用自注意力机制学习不同类型的节点权重,对于给定元路径的节点对来说,节点的注意力
异构信息表示学习的过程,采用交叉熵损失函数L
L
最终拼接三个视图的嵌入向量得到最终的嵌入表达
进一步地,所述步骤三包括如下具体步骤:
步骤3.1:使用k-means初始化聚类中心C
步骤3.2:基于找到的聚类中心,采用学生t分布来拟合出节点嵌入向量在嵌入空间的分布,寻找最佳聚类中心C
步骤3.3:通过训练三重视图神经网络模型,不断优化迭代聚类结果,最终实现结构紧密属性多样化聚类。
进一步地,所述步骤四包括如下具体步骤:
步骤4.1:将Z
步骤4.2:损失函数设置如下:使得结构相对熵尽可能小,属性熵尽可能大,聚类损失
本发明的基于三重视图神经网络的多样化社区检测方法具有以下优点:本发明是面向图计算领域基于三视图神经网络的多样化社区挖掘方法,通过对属性图上的结构信息、属性信息、异构信息三个视图分别进行构造以及嵌入学习,能有效地挖掘结构紧密、属性多样化的社区结构。本发明不仅在发掘高内聚性社区问题上获得更高质量的社区结构,在加入多样化因素后,更能有效地保持社区中节点的属性多样性特点,有利于在合作网络、推荐系统等应用场景中,获得更高质量的多样化社区挖掘结果。
附图说明
图1:三重视图神经网络模型的整体结构图;
图2:原始图节点聚类与Z聚类效果图(未加入视图二多样化约束);
图3:原始图节点聚类与Z聚类效果图(加入了视图二多样化约束);
图4:KL散度属性聚类示意图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于三重视图神经网络的多样化社区检测方法做进一步详细的描述。
一种基于三重视图神经网络的多样化社区检测方法,包括以下步骤:
步骤一:从输入的属性图中提取特征。从图数据的空间结构和节点属性矩阵提取第一视图特征,从图数据的异构信息中提取第二视图特征、从属性共现矩阵中提取第三视图特征。
(1.1)提取图的空间结构:根据节点和边信息,构造图的邻接矩阵A
(1.2)提取图的异构信息:根据节点和属性的异构性构造“节点-属性”和“节点-节点”两种元路径的异构图。将每个属性信息当作为一种节点,图的原始节点为另一种节点。即定义异构图G
(1.3)提取图的属性共现矩阵:根据图属性矩阵A
PPMI(x,y)=max(PMI(x,y),0) (1)
步骤二:将输入的序列信息X={x
(2.1)用GCN模型对属性共现矩阵A
(2.2)使用GAT对图的结构信息A
(2.3)使用HGCN对节点和属性的异构信息进行表示学习。在异构图中,两个对象可以通过不同的语义路径连接,这些语义路径称为元路径。在这里我们使用节点-属性,节点-节点两种元路径,每个属性为不同的节点类型,而不同类型的节点有不同的特征空间。为此我们根据不同属性构建映射矩阵X,通过映射函数f将不同节点映射到同一特征空间。
h′
然后使用自注意力机制学习不同类型的节点权重,对于给定元路径的节点对来说,节点的注意力
异构信息表示学习的过程,采用交叉熵损失函数L
L
最终拼接三个视图的嵌入向量得到最终的嵌入表达
步骤三:对输出向量Z进行结构紧密属性多样化聚类。
(3.1)使用k-means初始化聚类中心C
(3.2)基于找到的聚类中心,采用学生t分布来拟合出节点嵌入向量在嵌入空间的分布,寻找最佳聚类中心C
(3.3)通过训练三重视图神经网络模型,不断优化迭代聚类结果,最终实现结构紧密属性多样化聚类。
步骤四:解码器对Encoder生成的Z作为输入,解码出目标序列,从而得到Decoder输出序列X′={x′
(4.1)将Z
(4.2)损失函数设置如下:使得结构相对熵尽可能小,属性熵尽可能大。聚类损失
实施例:
一种基于三重视图神经网络的多样化社区检测方法,包含以下步骤:
S1,输入图数据。以cora数据集作为输入来举例说明。给数据集包含节点总数2708,节点特征总维度1433。节点的邻接矩阵A
S2,使用图变分自编码器学习节点和属性的融合信息,得到嵌入向量Z。
S3,使用k-means聚类得到初始化节点聚类结果,对输出向量Z进行学生t分布拟合,更新聚类中心。
具体地,基于图变分自编码学习到的表示向量Z经过k-means聚类初始化,其中k是聚类数,这里设置k=7,然后通过学生t分布和目标分布迭代聚类结果。
我们对比未加入多样化约束(即视图二)时,将原始1433维数据通过主成分分析(PCA)降维之后聚类与Z聚类的效果,如图2所示。可以看到除了数据压缩造成的变化之外,还有向量Z融合了相邻节点的信息,使得相似的更加相似。
我们对比加入多样化约束后,模型的聚类效果,如图3所示。将Z进行聚类的结果与原始数据节点一一进行对比,可以发现聚类情况不同,在原始数据中值比较接近,即距离相近的聚类到一起。而在Z中,聚类数据不仅依靠于数据的距离,还考虑了相邻节点带来的变化,单从图上来看可以说Z聚类的节点属性更加多样化。
S4,解码器对Encoder生成的Z作为输入,解码出目标序列,从而得到重构的结构矩阵和属性共现矩阵。用聚类损失和重构信息损失和异构训练损失共同构造损失函数,通过对损失函数最小化的方法对模型进行训练得到最终的模型参数。
具体地,在设置模型损失函数时,用最小熵约束子图聚类的紧密性,同时通过KL散度来衡量属性的多样性。我们通过图神经网络计算KL散度之后,进行infomap聚类,结果如图4所示。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
机译: 基于卷积神经网络的睡意检测装置和基于卷积神经网络的睡意检测方法
机译: 在基于DBMS的RDF三重存储中使用视图进行有效推理的系统和方法
机译: 在基于DBMS的RDF三重存储中使用视图进行有效推理的系统和方法