首页> 中国专利> 基于协同关系的知识图谱上下文嵌入方法

基于协同关系的知识图谱上下文嵌入方法

摘要

本发明涉及一种基于协同关系的知识图谱上下文嵌入方法,属于自然语言处理技术领域。本发明通过挖掘实体间的协同关系,将显性关系和隐性关系结合起来。在每个单独的三元组中,显式关系表示头实体和尾实体之间的已知关系,而隐式关系表示在KG中没有给出的两个实体之间的隐式交互。更具体地说,CKGE扩展了现有的KGE模型,探索了隐含实体交互中包含的潜在关系。通过传递实体的邻域信息来计算潜在关系的表示。潜在关系的包含导致学习关系表示在不同的实体上下文中变化,甚至当图包含循环关系时也是如此。这个方法的提出能够改善关系和实体的表示性能。

著录项

  • 公开/公告号CN112836511A

    专利类型发明专利

  • 公开/公告日2021-05-25

    原文格式PDF

  • 申请/专利权人 北京计算机技术及应用研究所;

    申请/专利号CN202110109242.4

  • 申请日2021-01-27

  • 分类号G06F40/295(20200101);G06F40/30(20200101);G06F16/28(20190101);

  • 代理机构11011 中国兵器工业集团公司专利中心;

  • 代理人王雪芬

  • 地址 100854 北京市海淀区永定路51号

  • 入库时间 2023-06-19 11:05:16

说明书

技术领域

本发明属于自然语言处理技术领域,具体涉及一种基于协同关系的知识图谱上下文嵌入方法。

背景技术

知识图谱(knowledge,graphs,KG)的研究在学术界和产业界都受到越来越多的关注。一般来说,知识图谱是由表示现实世界中的事实的大量三元组构建而成,每个三元组都是由关系r,头实体h和尾实体t来构成。目前存在的一些典型的知识图谱有:WordNet,YAGO,NELL和DBpedia。然而,尽管这些图谱中包含了上亿级别的三元组,但是仍然存在不完备的问题。为了更好的研究知识图谱的问题,提出了知识图谱嵌入(knowledgegraphembedding,KGE)。这种基于KGE的方式已经被证明可以有效地用于许多任务,比如问答系统,推荐系统和关系抽取等。KGE的核心思想是将实体和关系映射到一个稠密的向量空间,然后利用一个打分函数来计算给定三元组的合理性。

现有的KGE模型倾向于集中于两个实体之间的直接关系,模型的思路是通过评分功能来测量给定三元组的合理性。现有的KGE模型大致可以分为平移距离模型和语义匹配模型。

平移距离模型一般根据实体和关系的表示来定义基于距离的函数。如TransE是平移距离模型的代表之一,该模型假设关系是一个平移向量,将矢量空间中每一个真正的三元组的嵌入的头实体和尾实体连接起来。TransH将每个关系与关系特定的超平面关联,并在该超平面上投射实体向量。为了学习不同关系下每个实体的不同表示,TransR/CTransR将实体和关系嵌入到单独的实体和关系空间中。在TransD中,使用两个动态矩阵来解决关系的多个语义表示问题。TransG使用贝叶斯非参数混合模型为每个关系生成多个表示。TranSparse是TransR的一个扩展,它使用自适应稀疏矩阵来处理异构和不平衡的问题。最近的工作TorusE将实体和关系嵌入到一个紧李群上,以解决TransE的正则化问题。

语义匹配模型通常基于实体和关系的表示来定义基于相似性的函数。RESCAL将知识图谱表示为一个多热张量,并将每个关系视为一个方阵。DistMult和HolE被认为是简化的RESCAL。ComplEx是DistMult在复向量空间中的扩展。SimplE解决了两个嵌入实体之间的独立性。CrossE通过交互矩阵对实体和关系的交叉交互进行建模。RotatE将每个关系定义为在复杂向量空间中从头部实体到尾部实体的旋转。此外,一些语义匹配模型通过神经网络结构来度量事实的可信性。神经张量网络(NTN)用双线性张量层代替了传统的神经网络层。语义匹配能量(SME)的设计目的是将多关系图嵌入到灵活的连续向量空间中。ConvE在嵌入式上使用2D卷积构建多层卷积神经网络。

已有的KGE模型倾向于关注两个实体之间的显式关系,在某些场景下,即使头实体和尾实体的上下文发生了明显的变化,它们之间的关系仍然未发生变化。此问题降低了关系的准确性,也影响了实体的表示,进一步损害了下游任务的性能。

另外,已有的KGE模型也不能处理循环关系的问题。在循环关系的情况下,实体通过同一关系从头到尾通过一个圆连接在一起,图1展示了TransE假设下的循环关系。e

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是:如何通过整合实体之间的潜在关系,很好地缓解循环关系问题。

(二)技术方案

为了解决上述技术问题,本发明提供了一种基于协同关系的知识图谱上下文嵌入方法,包括以下步骤:

步骤1、定义协同关系;

步骤2、将协同关系结合到平移距离模型;

步骤3、将协同关系结合到语义匹配模型;

步骤4、基于步骤2、3执行训练过程。

优选地,步骤1具体包括邻居实体的表示。

优选地,邻居实体的表示具体为:

给定一个三元组(h,r,t),头实体h的邻居实体表示为{h

尾实体的邻居实体向量均值

其中,p和q分别表示头实体和尾实体邻居实体的数量。

优选地,步骤1具体还包括头实体与尾实体之间的关系表示。

优选地,头实体与尾实体之间的关系表示具体为:

h和t之间的显式关系r

在给定的三元组(h,r,t)中,定义头实体h和尾实体t之间的三种关系,分别为显式关系r

隐式关系的向量通过对头实体h和尾实体t的邻居实体向量均值进行元素级乘法而获得,如式(3)所示:

其中的

协同关系用于训练协同模型,其向量定义为r

其中η表示根据模型的训练情况的可调节参数。

优选地,步骤2中,平移距离模型的定义为:

其中,

利用公式(5)的平移距离模型计算三元组(h,r,t)的得分:

其中,L

优选地,步骤3中,语义匹配模型的定义为:

其中,

利用公式(7)的语义匹配模型计算三元组(h,r,t)得分:

优选地,步骤4中,将观察到的事实设置为正样本,而未观察到的事实设置为负样本,负采样的过程是随机替换每个正样本的头部实体或尾部实体生成负样本,通过使损失函数最小化来执行学习过程;

平移距离模型是在训练过程中采用margin-based loss函数,该损失函数旨在最大化正样本和负样本之间的间隔,为了有效区分正样本和负样本,最小化以下目标函数:

其中[x]

优选地,步骤4中,语义匹配模型采用logistic loss函数,通过最小化以下目标函数来训练KG中的实体和关系的嵌入:

其中y

本发明还提供了一种所述方法在自然语言处理技术领域中的应用。

(三)有益效果

本发明提出一种新的基于协同关系的知识图谱上下文嵌入方法——CKGE(contextualized knowledge graph embedding),该方法通过挖掘实体间的协同关系,将显性关系和隐性关系结合起来。在每个单独的三元组中,显式关系表示头实体和尾实体之间的已知关系,而隐式关系表示在KG中没有给出的两个实体之间的隐式交互。更具体地说,CKGE扩展了现有的KGE模型,探索了隐含实体交互中包含的潜在关系。通过传递实体的邻域信息来计算潜在关系的表示。潜在关系的包含导致学习关系表示在不同的实体上下文中变化,甚至当图包含循环关系时也是如此。这个方法的提出能够改善关系和实体的表示性能。具体而言,本发明提出的基于协同关系的知识图谱上下文嵌入方法不仅关注两个实体之间的显式关系,还通过传递实体的邻域信息来挖掘隐含在实体交互中的潜在关系,从而使模型产生具有竞争力的性能。不同于已有的方法,本发明的方法在以下两个关键方面提高了表示能力:1、结合了两种随不同实体上下文变化的关系(显式和隐式)。因此,KG中的事实可以更准确、更合理地表示。2、在KG中加入潜在的关系,以解决以前没有注意到的循环关系问题。

附图说明

图1为现有TransE循环关系示意图;

图2为本发明的CKGE循环关系示意图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。

本发明提出了一种基于基于协同关系的知识图谱上下文嵌入方法,CKGE不仅关注两个实体之间的显式关系,还通过传递实体的邻域信息来挖掘隐含在实体交互中的潜在关系。该方法的具体实现如下:

步骤1、定义协同关系

(1)邻居实体的表示:

给定一个三元组(h,r,t),头实体h的邻居实体表示为{h

尾实体的邻居实体向量均值

其中,p和q分别表示头实体和尾实体邻居实体的数量。

(2)头实体与尾实体之间的关系表示

h和t之间的显式关系r

在给定的三元组(h,r,t)中,定义头实体h和尾实体t之间的三种关系,分别为显式关系r

隐式关系的向量通过对头实体h和尾实体t的邻居实体向量均值进行元素级乘法而获得,表示如式(3)所示:

其中的

协同关系用于训练协同模型,其向量定义为r

其中η表示根据模型的训练情况的可调节参数;

步骤2、将协同关系结合到平移距离模型

平移距离模型的定义为:

其中,

利用公式(5)的平移距离模型计算三元组(h,r,t)的得分:

其中,L

步骤3、将协同关系结合到语义匹配模型

语义匹配模型的定义:

其中,

利用公式(7)的语义匹配模型计算三元组(h,r,t)得分:

步骤4、训练

在KG中,将观察到的事实设置为正样本,而未观察到的事实设置为负样本。负采样的过程是随机替换每个正样本的头部实体或尾部实体生成负样本,通过使损失函数最小化来执行学习过程。

平移距离模型通常在训练过程中采用margin-based loss函数,该损失函数旨在最大化正样本和负样本之间的间隔,为了有效区分正样本和负样本,最小化以下目标函数:

其中[x]

语义匹配模型采用logistic loss函数,通过最小化以下目标函数来训练KG中的实体和关系的嵌入:

其中y

本发明采用两个标准的KG推理任务进行对比实验,包括链接预测(预测丢失的实体)和三元组分类(预测未知的三元组是否成立)。

1、链接预测:

本发明采用基准KG数据集进行试验,数据集包括FB15K、FB15K-237、WN18、WN18RR。CKGE可以与平移距离模型和语义匹配模型相结合,以提供包括TransE、TransH、Dist-Mult在内的对比实验。HRS作为基准,它构建了三层递阶关系结构,对不同粒度的关系进行建模,扩展了已有的模型和CKGE。

为了评估各种模型的性能:采用平均排序(meanrank,MR)、平均倒排序值(meanreciprocalrank,MRR)、给定截断值k(k=1,3,10)的点击率等评估指标。

链接预测是通过对目标实体排序来填充缺少的知识,TransE-HRS,TransH-HRS和DistMult-HRS都强加了三层的层次关系结构。由表1和表2可以发现,TransE-CKGE,TransH-CKGE和DistMult-CKGE分别表示CKGE集成到TransE,TransH和DistMult中的模型,这些模型探索了协作关系以构建KG的上下文嵌入。CKGE模型在四个基准数据集上均优于平移距离模型和语义匹配模型,证明了CKGE具有很强的表示能力和集成能力。

表1 FB15k和FB15k-237上的链接预测比较的实验结果

表2 WN18和WN18RR上的链接预测比较的实验结果

2、三元组分类:

为了验证CKGE的合理性,对循环关系的数量进行统计调查。每个循环中连接的实体的数量表示为N(实体),分别设置为3,4,5.循环关系中涉及的循环和三元组的数量分别表示为N(循环)和N(三元组)。循环和三元组的定量结果展示在表3中,在FB15k和FB15k-237中,很多循环和三元组与循环关系有关;由于WN18和WN18RR中关系很少,N(循环)和N(三元组)是相对更小的。一般而言,在四个数据集中,N(循环)和N(三元组)都相当大,说明KG中存在很多循环关系问题。

表3在四个数据集上的循环和三元组定量结果

三元组分类是为了验证未知的三元组(h,r,t)是否正确,如果(h,r,t)的合理性得分高于阈值θ

表4在四个数据集上的三元组分类比较结果

在上述实验中,CKGE的有效性主要是由于探索实体之间的协作关系。一方面,通过探索协作关系可以更加准确,合理地表示KG中的关系和实体,从而大大提高了模型的性能。另一方面,将潜在关系合并到模型中会导致关系表示在各种实体上下文中有所不同。这进一步缓解了平移距离模型和语义匹配模型无法解决的循环关系问题。

本发明方法的提出能够改善关系和实体的表示性能。图2展示了CKGE假设下的循环关系。r

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号