首页> 中国专利> 一种面向搜索引擎的知识表示学习方法和知识推理方法

一种面向搜索引擎的知识表示学习方法和知识推理方法

摘要

本发明公开了一种面向搜索引擎的知识表示学习方法和知识推理方法,属于计算机数据处理领域,包括:(S1)以实体为节点,遍历目标知识图谱,获得以各节点为起始节点且长度为s的关系路径,并获得各关系路径的特征;初始化Stmp=s;s=L/n,L为关系路径的最大长度;(S2)若Stmp=L,则转入(S5);否则,转入(S3);(S3)对于长度为Stmp的每一条关系路径p,将其与长度为s且以p的目的节点为起始节点的关系路径进行组合,得到长度为Ltmp=Stmp+s的关系路径,并获得其特征;(S4)将Stmp更新为Ltmp,转入(S2);(S5)将实体、关系和所有关系路径的特征应用于表示学习,得到实体和关系的向量表示。本发明能够提高关系路径建模的计算效率,从而高效提升搜索引擎知识图谱质量。

著录项

  • 公开/公告号CN113190685A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN202110426286.X

  • 申请日2021-04-20

  • 分类号G06F16/36(20190101);G06F16/953(20190101);

  • 代理机构42201 华中科技大学专利中心;

  • 代理人夏倩;李智

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本发明属于计算机数据处理领域,更具体地,涉及一种面向搜索引擎的知识表示学习方法和知识推理方法。

背景技术

知识图谱是一种新兴的结构化知识库,也是一个巨大的结构化网络。知识图谱通过将海量的数据信息表达为更接近人类认知的形式,从而提供一种更好地组织、管理和理解数据信息的能力。在工业界,知识图谱得到了广泛重视。在搜索领域,谷歌及微软分别将知识图谱应用到搜索引擎Google与Bing上,用于解决传统的搜索引擎只能根据关键字提供网页排名,不能真正理解用户意图的问题;在问答与对话领域,谷歌、微软及苹果公司分别将知识图谱应用到智能助手Google Now、Microsoft Cortana和Apple Siri上,用于提高智能问答及人机交互的性能;在电商领域,阿里巴巴和美团分别构建了自己的商品知识图谱,用于智能导购、个性化推荐等;在社交领域Facebook则构建了社交知识图谱用于个性化推荐。

用户在搜索引擎进行搜索时,用户键入某个事物,搜索引擎就会根据构建好的知识图谱将丰富的关联信息显示出来。例如,当用户键入某一影视作品,系统可以通过构建好的知识图谱展示出题材、演员、发行日期等关联信息。然而,现有的知识图谱存在缺失,可能导致搜索引擎向用户展示的信息不全,影响用户使用体验。为此,需要通过知识推理算法对知识图谱进行补全,以提高搜索引擎知识图谱质量,进一步提高搜索引擎返回给用户的搜索结果的质量,满足用户需要。

为了实现知识推理,知识表示学习已经成为了当前最热门的技术。知识表示学习旨在将知识图谱中的实体和关系映射为低维稠密实值向量。通过得到的实体向量和关系向量,可以方便地完成知识推理等下游任务。为了提高知识表示学习的表达能力,基于关系路径的知识表示学习方法成为了研究热点。虽然引入关系路径建模可以将关系路径上的语义信息引入知识表示学习,然而搜索引擎处理的信息量极其庞大,相关的知识图谱的规模也十分庞大,相应地,关系建模的复杂度极高,影响知识表示学习的效率。因此,如何提高知识表示学习中关系路径建模的计算效率,对于提高知识表示学习效率,使其更好应用于下游知识推理任务来有效补全知识图谱中缺失的信息,提高搜索引擎知识图谱质量,从而提高用户体验,是十分重要的。

发明内容

针对现有技术的缺陷和改进需求,本发明提供了一种面向搜索引擎的知识表示学习方法和知识推理方法,其目的在于,提高知识表示学习中关系路径建模的计算效率,从而提高素搜索引擎知识图谱质量。

为实现上述目的,按照本发明的一个方面,提供了一种面向搜索引擎的知识表示学习方法,包括如下步骤:

(S1)将目标知识图谱中的实体作为节点,遍历目标知识图谱,以获得其中以各节点为起始节点且长度为s的所有关系路径,并获得各关系路径的特征;初始化长度变量S

(S2)若S

(S3)对于长度为S

(S4)将长度变量S

(S5)将目标知识图谱的实体、关系和所有关系路径的特征应用于表示学习,得到目标知识图谱中实体和关系的向量表示。

为了完成知识表示学习,需要提取知识图谱中具有不同长度的关系路径,传统的知识表示学习方法在构建关系路径模型时,会直接构建不同长度的关系路径,其中存在大量重复的计算,效率较低;本发明在针对搜索引擎知识图谱进行关系路径建模时,按照预设的步长,先构建较短的关系路径,再利用较短关系路径组合得到较长的关系路径,直至构建出最大长度的关系路径,与传统的知识表示学习方法的建模过程相比,由于在较长关系路径的构建过程中直接利用了较短关系路径的构建结果,仅需要对知识图谱进行一次搜索,大大减少了重复的计算量,有效提高了知识表示学习中关系路径建模的计算效率,为高效进行搜索引擎知识图谱补全,从提高搜索引擎知识图谱的质量提供了有力的支撑。

在一些可选的实施例中,s=1。

在一些可选的实施例中,s>1,并且步骤(S1)中,遍历目标知识图谱,以获得其中以各节点为起始节点且长度为s的所有关系路径,并获得各关系路径的特征,包括:

(S11)遍历目标知识图谱,以获得其中以各节点为起始节点且长度为1的所有关系路径,并获得各关系路径的特征;初始化长度变量u=1;

(S12)若u=s,则转入步骤(S15);否则,转入步骤(S13);

(S13)对于长度为u的每一条关系路径p

(S14)将长度变量u的取值更新为t,转入步骤(S12);

(S15)保存长度为s的各关系路径及其特征。

在一些可选的实施例中,遍历目标知识图谱,以获得其中以各节点为起始节点且长度为1的所有关系路径时,采用限长宽度优先遍历算法,由此能能够方便地获取到指定长度的所有关系路径。

可选地,对于任意一条长度为1的关系路径p'=(r

其中,r

可选地,对于由关系路径p

C(p”|h-t)=C(p

其中,C(p

本发明通过以上计算公式将用于较短的关系路径的置信度乘积作为组合所得的关系路径的置信度,有效考虑了各部分子关系路径在整体关系路径中的作用,保证了整体关系路径置信度的计算准确度。

进一步地,步骤(S3)中,获得组合得到的各关系路径的特征之后,还包括:剔除组合所得的关系路径中,置信度小于预设阈值的关系路径。

本发明在进行关系路径组合之后,会剔除组合所得的关系路径中的低置信度(小于预设阈值)关系路径,由于低置信度关系路径对于知识表示学习而言,其重要性较低,剔除这些关系路径,可减小无效信息所花费的计算开销,在不影响知识表示学习准确度的情况下进一步提高计算效率。

按照本发明的另一个方面,提供了一种面向搜索引擎的知识推理方法,包括:

对于待搜索主题,利用本发明提供的面向搜索引擎的知识表示学习方法所得到的向量表示进行知识推理,从而对用于表达待搜索主题的知识图谱中缺失的信息进行补全。

按照本发明的又一个方面,提供了一种计算可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行本发明提供的面向搜索引擎的知识表示学习方法,和/或本发明提供的面向搜索引擎的知识推理方法。

总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:

本发明在针对搜索引擎知识图谱进行知识表示学习时,按照预设的步长,先构建较短的关系路径,再利用较短关系路径组合得到较长的关系路径,直至构建出最大长度的关系路径,在此过程中,仅需要对知识图谱进行一次搜索,能够大大减少重复的计算量,有效提高知识表示学习中关系路径建模的计算效率,为高效进行搜索引擎知识图谱补全,从而提高搜索引擎知识图谱的质量提供了有力的支撑。

附图说明

图1为本发明实施例提供的电影知识图谱示意图;

图2为本发明实施例提供的面向搜索引擎的知识表示学习方法流程图;

图3为本发明实施例提供的将实体和实体间关系转换为数字后的知识图谱示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

针对不同的主题,搜索引擎会维护相应的知识图谱,用户通过搜索引擎针对某一主题进行搜索时,搜索引擎会通过相应的知识图谱获取与搜索主题相关联的信息并作为搜索结果展示给用户。在搜索引擎所维护的知识图谱中,实体对应主题的关联信息,例如,针对影视作品,搜索引擎维护的知识图谱中,实体对应的是电影名称、主演、语言等丰富的关联信息;又例如,针对人物,搜索引擎维护的知识图谱中,实体对应的是姓名、性别、职业等关联信息;又例如,针对食物,搜索引擎维护的知识谱图中,实体对应的是食物名称、口味、食材等关联信息。不失一般性地,如无特殊说明,以下实施例中所涉及的知识图谱,具体是指影视作品的知识图谱。

由于电影数量众多而且信息繁杂,很多电影的知识图谱存在缺失,这就不可避免导致了搜索引擎向用户展示的信息不全,影响用户体验。图1所示为一个简化的电影知识图谱示例,该知识图谱由5个实体、5种关系组成,其中的圆形表示实体,实线箭头表示关系,虚线箭头表示缺失的关系。在本知识图谱中,电影《Forrest Gump》缺失了语言信息,通过知识表示学习上映国家是美国(UnitedStates)且美国的官方语言是英语(English),以及导演是罗伯特·泽米吉斯(Robert Zemeckis)且导演的语言是英语(English)等实体和关系得到向量,将向量用于下游推理任务,可推理出电影的语言是英语(English),从而补全电影的语言信息。

在进行知识表示学习时,假设最长关系路径长度为2,需要将上面描述的信息建模如下两个关系路径:

然后进行知识表示学习,通过将表示学习的结果用于下游推理任务,完成知识图谱补全。

在完成上述关系路径建模时,传统的基于关系路径的知识表示学习方法PTransE,首先对所有实体进行单步长的宽度优先遍历,计算出所有单步长的关系路径和置信度,然后再对所有实体进行两步长的宽度优先遍历,以此来找出所有两步长的关系路径和置信度。从中可以看出,在计算两步长的关系路径时重复了前面遍历知识图谱的工作。当知识图谱规模很大时,这些重复的工作将会极大的增加关系路径建模的时间开销,降低知识表示学习的效率。近年来,知识图谱的规模不断增长。业界知名知识图谱Google KnowledgeGraph包含数百万实体,知识图谱Wikidata的实体数超过了五千七百万,知识图谱YAGO的实体数超过了四千九百万,知识图谱NELL的实体数超过两百万。当节点的平均出度为K时,对一个节点进行长度为L的关系路径建模,其宽度优先遍历所需要的时间为K

为了解决现有的知识表示学习方法计算效率低,不利于有效提高搜索引擎知识图谱质量的技术问题,本发明提供了一种面向搜索引擎的知识表示学习方法和知识推理方法,其整体思路在于:按照预设步长,先通过遍历的方式从搜索引擎知识图谱中构建较短的关系路径,然后利用较短的关系路径组合为较长的关系路径,直至组合得到最大长度的关系路径,由此减少对知识图谱的遍历次数,大幅减少重复的计算量,有效提高知识表示学习的效率,为有效进行搜索引擎知识图谱补全,从而提高搜索引擎知识图谱的质量提供有力的支撑。

以下为实施例。

实施例1:

一种面向搜索引擎的知识表示学习方法,本实施例中,s=1,如图2所示,本实施例包括如下步骤:

(S1)将目标知识图谱中的实体作为节点,遍历目标知识图谱,以获得其中以各节点为起始节点且长度为1的所有关系路径,并获得各关系路径的特征;初始化长度变量S

其中,目标知识图谱用于表达待搜索主题,其中的实体对应待搜索主题的关联信息,在本实施例中,目标知识图谱具体是用于表达影视作品相关信息的知识图谱;

为了便于在遍历过程中获得关系路径以及关系路径上节点之间的关系,可预先将知识图谱表示为三元组形式;知识图谱的表示形式多种多样,三元组形式是其中一种,其他表示形式都可以转换为对应的三元组形式;以三元组形式表示时,其中一个三元组可表示为T={(h,r,t)},h和t分别表示头实体和尾实体,r表示头实体h和尾实体t之间的关系;

在设置关系路径的最大长度为L的情况下,本实施例需要依次获取长度为1、2、……、L的关系路径及各关系路径的特征,为便于保存相关信息,本实施例中,共创建了L+1个集合,依次记为关系路径特征集P和PF

可选地,本实施例步骤(S1)中,遍历目标知识图谱,以获得其中以各节点为起始节点且长度为1的所有关系路径时,采用限长宽度优先遍历算法,由此能能够方便地获取到指定长度的所有关系路径;应当说明的是,此处仅为可选的实施方式,不应理解为对本发明的唯一限定,其他能够获取到指定长度的所有关系路径的遍历方法,也可以用于本发明中;

关系路径的特征包括置信度、起始节点-目的节点对以及起始节点和目的节点间的关系;关系路径的置信度用于衡量关系路径在知识表示学习中的重要程度,置信度越高,表明该关系路径在知识表示学习中越重要;作为一种可选的实施方式,本实施例中,对于任意一条长度为1的关系路径p'=(r

其中,r

执行完步骤(S1)之后,获取到的所有长度为1的关系路径的特征将保存到关系路径特征集P和PF

(S2)若S

(S3)对于长度为S

为了准确计算组合所得关系路径的置信度,可选地,本实施例的步骤(S3)中,对于由关系路径p

C(p”|h-t)=C(p

其中,C(p

对于关系路径p

其中,

因此,以上计算公式将每一部分关系路径的置信度的乘积作为组合所得关系路径的置信度,有效考虑了各部分子关系路径在整体关系路径中的作用,保证了整体关系路径置信度的计算准确度;

为了在不影响知识表示学习准确度的情况下进一步提高计算效率,作为一种优选的实施方式,本实施例的步骤(S3)中,获得组合得到的各关系路径的特征之后,还包括:剔除组合所得的关系路径中,置信度小于预设阈值的关系路径;

在实际应用中,阈值可根据待搜索主题的关联信息特点相应设定,可选地,本实施例中,该阈值具体设定为0.01;由于低置信度关系路径对于知识表示学习而言,其重要性较低,剔除这些关系路径,可减小无效信息所花费的计算开销,达到在不影响知识表示学习准确度的情况下进一步提高计算效率的目的;

在关系路径组合的过程中,长度为S

(S4)将长度变量S

(S5)将所述目标知识图谱的实体、关系和所有关系路径的特征应用于表示学习,得到所述目标知识图谱中实体和关系的向量表示;

所有关系路径的特征可直接从关系路径特征集P中获取。

同样以图1所示的知识谱图为例,本实施例1提供的面向搜索引擎的知识表示学习方法在完成上述关系路径建模时,首先对每个实体采用单步长宽度优先遍历得到子关系路径,然后将子关系路径进行组合,从而完成关系路径建模。例如实施例1首先通过单步长宽度优先遍历得到子关系路径

实施例2:

一种面向搜索引擎的知识表示学习方法,本实施例中,s=3,本实施例与上述实施例1类似,所不同之处在于,本实施例的步骤(S1)中,为了获得知识图谱中以各节点为起始节点且长度为s的所有关系路径,并获得各关系路径的特征,需要先通过遍历目标知识图谱,获得其中以各节点为起始节点且长度为1的所有关系路径特征,并获得各关系路径的特征;然后由长度为1的关系路径首尾组合,得到长度为2的关系路径,并获得组合得到的各关系路径的特征;之后由长度为2的关系路径特征与长度为1的关系路径首尾组合,得到长度为3的关系路径,并获得组合得到的关系路径的特征;

获取到长度为3的所有关系路径,并获得各关系路径的特征之后,即可由这些关系路径组合得到长度为6、9、……、L的关系路径,并获得各关系路径的特征。

实施例3:

一种面向搜索引擎的知识推理方法,包括:

对于待搜索主题,即影视作品,利用上述实施例1或2提供的面向搜索引擎的知识表示学习方法所得到的向量表示进行知识推理,从而对用于表达待搜索主题的知识图谱中缺失的信息进行补全。

实施例4:

一种计算可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行上述实施例1或2提供的面向搜索引擎的知识表示学习方法,和/或上述实施例3提供的面向搜索引擎的知识推理方法。

为对本发明技术方案作出进一步的解释说明,以下以图1所示的知识图谱为例,对于上述实施例1在该知识图谱上的知识表示学习过程进行详细阐述。为便于描述,将关系路径的特征格式记为<(头实体,尾实体),(关系),置信度>,其中,头实体和尾实体分别表示关系路径的起始节点和目的节点,(头实体,尾实体)表示关系路径的起始节点-目的节点对,(关系)表示关系路径的起始节点和目的节点间的关系,置信度对应关系路径的置信度;在进行知识表示学习时,对知识图谱中的实体和关系分别进行编号,分别如表1和表2所示,以相应的编号表示对应的实体或关系。

表1实体编号

表2关系编号

预先设定初始步长s为1,关系路径最大长度为2,具体的知识表示学习过程如下:

1、输入图1所示的知识图谱的数据文件,文件格式为txt,按照表1和表2所示的编号方式将实体和关系转换为对应的数字编号,转换后的知识图谱如图3所示;

2、从知识图谱中抽取三元组,得到的三元组集合为T={(1,1,2),(1,5,5),(1,6,3),(2,2,3),(3,3,4),(5,4,4)};预先创建3个集合,分别是关系路径特征集P、PF

3、此时还没有完成所有子关系路径抽取,转至下一步,开始通过遍历获取长度为1的关系路径;

4、抽取出以节点1为起始节点的关系路径,并确定各关系路径的特征,分别为<(1,2),(1),1/3>,<(1,3),(6),1/3>,<(1,5),(5),1/3>,保存到关系路径特征集P和PF

P={<(1,2),(1),1/3>,<(1,3),(6),1/3>,<(1,5),(5),1/3>};

PF

5、获取节点1的邻居节点集合N(1)={2,3,5};

6、此时还没有完成所有子关系路径抽取,转至下一步;

7、抽取出以节点2为起始节点的关系路径,并确定各关系路径的特征,具体为<(2,3),(2),1>,保存到关系路径特征集P和PF

P={<(1,2),(1),1/3>,<(1,3),(6),1/3>,<(1,5),(5),1/3>,<(2,3),(2),1>};

PF

8、获取节点2的邻居节点集合N(2)={3};

9、此时还没有完成所有子关系路径抽取,转至下一步;

10、抽取出以节点3为起始节点的关系路径,并确定各关系路径的特征,具体为<(3,4),(3),1>,保存到关系路径特征集P和PF

P={<(1,2),(1),1/3>,<(1,3),(6),1/3>,<(1,5),(5),1/3>,<(2,3),(2),1>,<(3,4),(3),1>};

PF

11、获取节点3的邻居节点集合N(3)={4};

12、此时还没有完成所有子关系路径抽取,转至下一步;

13、对于节点4,没有以节点4为起始节点的关系路径,直接转至下一步;

14、节点4没有邻居,直接转至下一步;

15、此时还没有完成所有子关系路径抽取,转至下一步;

16、抽取出以节点5为起始节点的关系路径,并确定各关系路径的特征,分别为<(5,4),(4),1>,保存到关系路径特征集P和PF

P={<(1,2),(1),1/3>,<(1,3),(6),1/3>,<(1,5),(5),1/3>,<(2,3),(2),1>,<(3,4),(3),1>,<(5,4),(4),1>};

PF

17、获取节点5的邻居节点集合N(5)={4};

18、此时已经完成了所有长度为1的关系路径抽取和置信度计算,转至下一步;

19、此时关系路径最长为1,还未达到关系路径最大长度2,还未得到长度为2的关系路径特征集PF

20、对于关系路径特征集PF

21、PF

22、获取节点2的邻居节点3,根据节点对(2-3)获取子关系路径特征集PF

23、将PF

P={<(1,2),(1),1/3>,<(1,3),(6),1/3>,<(1,5),(5),1/3>,<(2,3),(2),1>,<(3,4),(3),1>,<(5,4),(4),1>,<(1,3),(1,2),1/3>};

PF

24、此时还没有完成全部组合,转至下一步;

25、对于关系路径特征集PF

26、PF

27、获取节点3的邻居节点4,根据节点对(3-4)获取子关系路径特征集PF

28、将PF

P={<(1,2),(1),1/3>,<(1,3),(6),1/3>,<(1,5),(5),1/3>,<(2,3),(2),1>,<(3,4),(3),1>,<(5,4),(4),1>,<(1,3),(1,2),1/3>,<(1,4),(6,3),1/3>};

PF

29、此时还没有完成全部组合,转至下一步;

30、对于PF

31、PF

32、获取节点5的邻居节点4,根据节点对(5-4)获取子关系路径特征集PF

33、将PF

P={<(1,2),(1),1/3>,<(1,3),(6),1/3>,<(1,5),(5),1/3>,<(2,3),(2),1>,<(3,4),(3),1>,<(5,4),(4),1>,<(1,3),(1,2),1/3>,<(1,4),(6,3),1/3>,<(1,4),(5,4),1/3>};

PF

34、此时还没有完成全部组合,转至下一步;

35、对于PF

36、PF

37、获取节点3的邻居节点4,根据节点对(3-4)获取子关系路径特征集PF

38、将PF

P={<(1,2),(1),1/3>,<(1,3),(6),1/3>,<(1,5),(5),1/3>,<(2,3),(2),1>,<(3,4),(3),1>,<(5,4),(4),1>,<(1,3),(1,2),1/3>,<(1,4),(6,3),1/3>,<(1,4),(5,4),1/3>,<(2,4),(2,3),1>};

PF

39、此时还没有完成全部组合,转至下一步;

40、对于PF

41、不存在节点4为起始节点的子关系路径特征,直接转至下一步;

42、此时还没有完成全部组合,转至下一步;

43、对于子关系路径<(5,4),(4),1>的起始节点-目的节点对(5-4),获取子关系路径特征集PF

44、PF中不存在节点4为起始节点的子关系路径特征,直接转至下一步;

45、子关系路径特征集PF

46、将关系路径特征集P中的所有特征和知识图谱的实体、关系应用于表示学习,得到实体和关系的向量表示。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号