首页> 中国专利> 基于图神经网络的科研知识图谱人才推荐方法及装置

基于图神经网络的科研知识图谱人才推荐方法及装置

摘要

本发明公开了一种基于图神经网络的科研知识图谱人才推荐方法及装置,包括:抽取待处理科研成果论文数据中各实体的实体特征与实体之间的关联关系信息,建立科研知识图谱;依据实体特征,构成各节点的统一特征表示;通过统一特征表示与关联关系信息,构建图神经网络,并对所述图神经网络进行训练,得到各节点的评分值;根据各作者节点的评分值,得到人才推荐的预测结果。本发明通过加入各类实体间的关联关系,丰富后续数据挖掘中可用到的信息,以生成不同的贡献度权重,使模型对信息的利用更有选择性,并将节点入度值作为调整最终得分值的一个重要数值依据,提高了模型的学习预测能力。

著录项

  • 公开/公告号CN112905891A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 中国科学院计算机网络信息中心;

    申请/专利号CN202110244940.5

  • 申请日2021-03-05

  • 分类号G06F16/9535(20190101);G06F16/28(20190101);G06F16/36(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11200 北京君尚知识产权代理有限公司;

  • 代理人余长江

  • 地址 100190 北京市海淀区中关村南四街4号

  • 入库时间 2023-06-19 11:16:08

说明书

技术领域

本发明涉及机器学习人才推荐算法领域,更具体地,涉及一种基于图神经网络的科研知识图谱人才推荐方法及装置。

背景技术

人才的推荐与培养是科研发展中及其重要的一环。针对科研成果论文数据采用人才推荐算法进行分析可以帮助科研机构推荐学科内的优秀人才,为人才引进与培养提供参考意见。传统的人才推荐算法有很多种,有些是基于文献计量方法对论文引用量相关数据进行统计进而推荐排名较高的学者,这种做法存在的缺陷在于仅针对论文数据中的作者个体进行分析,没有利用论文署名顺序、合著关系等信息,并且忽略了不同学科间的差异性。还有一些方法是通过传统机器学习算法对科研学者的特征数据进行抽取训练并预测,这一类方法的缺陷是只考虑了作者自身特征数据但忽略了作者间的合作关系信息等关联信息。

为了更好地还原真实世界中的相互关系,科研知识图谱是科研成果论文数据最好的展示形式,这其中不仅包含科研成果论文特征数据,还包含各个学者之间的合作关系等关联信息。在科研知识图谱的基础上,人才推荐算法模型可以利用更多的相关信息进行预测,进而实现在人才推荐效果上的提升。

公开号为CN104035967A的专利说明书中公开了一种基于社交网络的专家推荐方法,其利用设定种子用户的方法对社交网络中的博客文章进行分析与特征抽取,通过博文领域相关度和用户领域相关度计算确定用户是否属于某领域的专家。该方法在一定程度上实现了专家推荐的效果,但是其在社交网络数据中仅局限于博客文本特征,忽略了用户之间的关联关系特征,且缺乏对博客实体属性特征的利用,如评论数、点赞数等,导致无法实现较好的专家推荐效果。

发明内容

为了解决上述问题,本发明提供一种基于图神经网络的科研知识图谱人才推荐方法及装置,结合使用了多类型的实体特征与实体间关联谓词信息,通过图神经网络模型设计实现节点之间按照不同贡献度进行得分的传递。在利用较少的标注数据的情况下,实现较好的人才推荐效果。

为了实现上述目的,本发明采用如下技术方案:

一种基于图神经网络的科研知识图谱人才推荐方法,其步骤包括:

1)抽取待处理科研成果论文数据中各实体的实体特征与实体之间的关联关系信息,并以实体为节点、关联关系信息为连边,建立科研知识图谱,其中所述节点包括:作者节点、论文节点、机构节点和刊物节点;

2)依据实体特征,分别获取各节点的图嵌入表征向量与属性特征,构成各节点的统一特征表示;

3)通过统一特征表示与关联关系信息,构建图神经网络,并以MSE作为损失函数,对所述图神经网络进行训练,得到各节点的评分值;

4)根据各作者节点的评分值,得到人才推荐的预测结果。

进一步地,所述关联关系信息包括:作者与机构的从属关系、作者与作者的合作关系、论文中作者的位次顺序和作者与作者的合作次数作。

进一步地,获取图嵌入表征向量的方法包括:node2vec方法。

进一步地,作者节点的属性特征包括:作者发表论文数量、作者篇均引用次数和作者学术影响力得分;论文节点的属性特征包括:发表年份和引用次数;刊物节点的属性特征包括:论文数量和论文篇均引用次数。

进一步地,对于不同节点的图嵌入表征向量与属性特征,采用缺值补零的方法,得到统一特征表示。

进一步地,通过以下步骤得到各节点的评分值:

1)通过全连接层,将各节点的统一特征表示转换为初始得分值

2)针对各节点的所有邻居节点进行分数聚合,得到各节点分数s

3)统计每个节点在图中的入度值d(i),并采用log方法将入度值d(i)进行了平滑处理,得到节点中心性评分c(i)=log(d(i)+ε),其中ε为修正项;

4)计算各节点的评分值s

进一步地,进行分数聚合的方法包括:获取各节点与邻居节点的权重值,并对邻居节点的分数进行加权求和。

进一步地,计算所述权重值的方法包括:基于关联关系信息中谓词的注意力机制。

进一步地,训练图神经网络时,使用Adam优化器进行优化。

一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。

本发明与现有技术相比,具有如下优点和有益效果:

1.本发明采用知识图谱的形式构建科研成果论文数据实体网络,其内容不仅包含实体特征属性数据,还加入了各类实体间的关联关系,丰富了在后续数据挖掘中可以用到的信息,也更贴合真实世界场景下的实体关系。

2.本发明结合知识图谱与图神经网络模型,对所有类型的节点都进行统一学习并预测评分,模型在训练时可以仅使用其中一类节点的标注数据,有效避免某些类别的实体缺少标注数据的问题,如缺少作者评分数据。

3.本发明通过设计图神经网络模型对科研关系网络数据进行挖掘,不仅通过全连接网络利用了节点实体特征,还通过基于谓词关系的注意力机制将节点之间的谓词关系应用到权重值的计算当中,并结合图的结构将各邻居节点的分值进行加权聚合,此方式可以有效地利用各类不同的关联关系以生成不同的贡献度权重,使模型对信息的利用更有选择性。

4.本发明在图神经网络模型中加入了节点中心性调整。除了考虑数据特征方面的因素,基于节点入度越高越有可能作为重要节点的特性,将节点入度值作为调整最终得分值的一个重要数值依据,进而通过引入图的结构信息有效的提高了模型的学习预测能力。

附图说明

图1为本发明整体流程示意图。

图2为本发明科研知识图谱结构示意图。

图3为本发明中图神经网络模型结构示意图。

具体实施方式

为了进一步说明实施案例,本发明提供附图进行配合说明。这些附图为本发明展示内容的一部分,可配合说明书的相关描述对运行原理进行解释。配合这些内容,领域内的相关技术人员可以了解本发明的具体实施部署方式以及其优点。

本发明为一种基于图神经网络的科研知识图谱人才推荐方法,如图1,包括如下步骤:

S1:科研知识图谱搭建,通过将科研成果论文数据中的实体特征与关系特征进行抽取,其中包括但不限于作者,论文,机构,刊物等实体节点,以及它们之间的关联关系,如作者与机构的从属关系,作者与作者的合作关系等,但对于关联关系有以下细节需要处理,作者和论文之间的创作关系需针对作者位次顺序将其区分为一作、二作、三作等关系,作者间的合作关系需要增加合作次数作为属性。科研知识图谱结构参见图2所示。

S2:特征抽取,在知识图谱中采用node2vec方法为每个节点训练得到图嵌入表征向量,即通过随机游走进行节点序列采样,再结合word2vec方法为序列中的每一个节点进行表征学习。除图嵌入表征外,对于每一类实体还有相应的属性特征。在模型训练中,各类实体的特征输入数据通过缺值补零的方式使用统一表示方法进行输入,实现不同类型节点的联合训练;

进一步地,所属步骤S2的具体过程是:

对于作者类节点数据,提取特征有:作者发表论文数量,作者篇均引用次数,作者学术影响力评分;对于论文类数据,提取特征有:发表年份,引用次数;对于刊物类数据,提取特征有:论文数量,论文篇均引用次数。所有节点的特征都采用统一的表示方法,故在某些缺失的特征字段上需要进行补零。

S3:构建图神经网络模型,图中各节点的特征经过初始评分值的全连接层,分数聚合层,节点中心性调整层计算后得到最终的预测分值;模型结构图参见附图3所示。

进一步地,所属步骤S3的具体过程是:

图神经网络模型的第一部分为全连接层,其作用为将训练数据的多维特征向量转换为一个初始得分值。具体计算表示如下:

其中,W为图神经网络模型中的参数矩阵。

然后模型的第二部分由多个注意力机制模块构成,每个模块设计相同,都是针对当前节点的所有邻居节点进行分数加权求和计算,其中权重值由基于谓词的注意力机制进行计算,即不同的谓词关系代表不同的向量表示,通过串联起终点得分值与其中的谓词关系向量,计算得到权重值并进行归一化,这个归一化的值即为加权求和的权重值。具体计算如下所示:

其中a为每个邻居节点的权重值,σ

最后是模型的输出部分,该部分根据节点在图谱中的入度值对最终结果进行了调整。首先统计每个节点在图中的入度值d,采用log方法将入度值进行了平滑处理,并设置两个可学习的参数结合入度值对最终的输出结果进行调整,具体计算如下所示:

c(i)=log(d(i)+ε)

c

s

其中c为节点中心性评分,d为节点的入度值,ε为修正项,是一个较小的正数,s为节点的分数值,β,γ为可学习的用于调节中心性的两个参数,σ

S4:模型训练与结果预测,模型训练采用MSE作为损失函数,并使用Adam优化器进行优化。在得到最终的预测结果后,将所有作者按照评分值进行排序,其中得分较高,排名靠前的作者可能为当前领域下的优秀人才,最终通过结合其他类型的科研成果数据对该结论进行验证。

本发明是一种基于图神经网络的科研知识图谱人才推荐方法,通过结合属性特征数据以及关联关系信息进行人才推荐,利用科研知识图谱结合图神经网络模型实现了对上述信息的有效利用,更在人才推荐效果上取得了较大提升。本发明在CSCD中国科学引文数据库中的2015-2020年计算机科学相关论文数据下进行图谱设计以及图神经网络模型验证实验,并充分证明本发明的有效性。

尽管结合了实施方案的具体展示和本发明的介绍,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号