首页> 中国专利> 一种基于上下文语义关系和文档一致性约束的实体链接方法

一种基于上下文语义关系和文档一致性约束的实体链接方法

摘要

本发明为解决传统实体链接方法需要大量人工标注,所带来的成本等问题,提出了一种基于上下文语义关系和文档一致性约束的实体链接方法。本发明分为三个步骤:数据预处理,候选实体生成和候选实体消歧;在数据预处理阶段,解决数据存在的噪音问题;在候选实体生成阶段,利用维基百科连接图的过滤技术,得到具有较高召回率的候选实体集合;在候选实体消歧阶段,利用候选实体集合作为弱监督约束,考虑实体与其局部上下文之间的关系和文档中实体与实体之间的连贯性信息,通过神经网络进行候选实体消歧,得到最终的实体链接结果,将候选实体对应到知识图谱中。

著录项

  • 公开/公告号CN112861538A

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利权人 哈尔滨工业大学;

    申请/专利号CN202110182336.4

  • 发明设计人 张海军;伍映吉;

    申请日2021-02-08

  • 分类号G06F40/295(20200101);G06F40/30(20200101);G06F40/211(20200101);

  • 代理机构23211 哈尔滨市阳光惠远知识产权代理有限公司;

  • 代理人张宏威

  • 地址 150001 黑龙江省哈尔滨市南岗区西大直街92号

  • 入库时间 2023-06-19 11:08:20

说明书

技术领域

本发明涉及知识图谱实体链接领域,具体地,涉及一种基于上下文语义关系和文档一 致性约束的实体链接方法。

背景技术

近年来,随着人工智能技术的迅猛发展,如何通过自然语言处理技术(NLP)让机器实现人类语言理解受到众多学者的关注。而如何训练计算机识别文本中的实体,并将实体正确无误的链接到数据库中,这是让计算机理解人类语言的关键步骤。实体链接(EntityLinking,EL)是指挖掘人类语言文本出现的潜在实体关系,并链接到所在的知识图谱实 体上,解决实体间存在歧义性(即一词多义)和多样性(即多词一义)的任务。常用于知 识图谱的构建、信息事件抽取和智能问答等应用中。目前传统的实体链接模型往往依赖于 海量的文本标注,存在着需要消耗大量人工、大量时间、大量金钱的问题、且存在受限于 语言和无法快速规模化的困难。如何利用自然语言处理技术、机器学习技术(ML)和深 度学习技术(DL)等前沿方法,自动或者高效进行实体关系的链接,成为了当前亟需攻 克的问题。因此,实体链接的方法研究得到了世界范围内研究人员的广泛关注。

发明内容

本发明为了解决现有技术中的不足,依托上下文语义关系以及文档一致性匹配模型, 提出了一种基于上下文语义关系和文档一致性约束的实体链接方法。

一种基于上下文语义关系和文档一致性约束的实体链接方法:所述方法包括以下步 骤:

A、数据预处理:对实验数据集中选择未标记的文档和维基百科数据进行预处理,因 为当使用多个数据集时候,会存在以下两个问题:多个数据集的数据组织格式不统一;部 分数据集的实体标注不完整;

B、候选实体生成:因为本步骤最初所选择的候选实体集合的锚定实体信息都来源于 维基百科,所以通过维基百科来产生弱监督,通过将候选实体生成分为两个候选实体,来 筛选得到高召回率的候选实体集:先使用Ganea and Hofmann预处理技术进行粗召回,再 创建连接图进行精召回;

C、候选实体消歧:将步骤B获得的候选实体消歧,本步骤不仅需要考虑实体与其局部上下文之间的关系,而且还要考虑在文档中实体与实体之间的连贯性;从这两个方面进行建模,根据得分高的作为候选实体集合中的正确选项。

进一步地,所述步骤A包括以下步骤:

A1、针对实体标注不完整数据进行补全:针对原始的CoNLL 2003数据集包含的英语 部分,将对语言无关的命名实体进行识别并剔除;通过实体嵌入,使用deep-ed预训练技术的Word2Vec来提取300维词向量;

A2、部分数据集的实体标注不完整,需要通过Wikipedia、YAGO、Freebase知识图谱进行实体标注。

进一步地,所述步骤B包括以下步骤:

B1、使用Ganea and Hofmann预处理技术进行粗召回:

将步骤A得到的候选列表进行过滤,Ganea and Hofmann预处理技术使用一个模型, 来衡量在嵌入空间中实体e、指代跨度m、及其周围的上下文窗口c中的单词w之间的相似度q为;

最少需要两个候选实体集合列表才能保持高的召回率;

B2、使用Wikipedia链接统计进一步减少候选实体列表,创建一个连接图进行精召回, 实体作为所述连接图中的顶点;所述连接图定义了概率图模型的结构,本步骤用该连接图 来对候选实体列表进行排名;本步骤只为每个指代实体选择最高的候选实体,并且仍然保 持较高的召回率;

B21、进行无向图构建,从Wikipedia中构建无向图,图中的顶点为Wikipedia实体;链接顶点e

(1)D为Wikipedia的文章描述,且e

(2)D包含e

B22、进行模型优化,考虑未标记(非维基百科)的文档;因此本步骤在优化训练文档的同时,也在测试时优化新的未贴标签的文档;

因此,为文档D中的每个指代实体m

候选数量的一个根据r

进一步地,所述步骤C包括以下步骤:

C1、计算实体上下文得分,通过实体上下文得分进行候选实体与文章局部相关性筛选; 选择得分较高的候选实体;

m

C2、计算实体相关性得分,通过实体相关性计算实体与全文的匹配度关系,选择得分 较高的候选实体,Xei和Xej∈Rde是外部实体嵌入,使用外部的词嵌入得到,

其中,A属于

本发明有益效果

(1)本发明将候选实体生成任务采用Wikipedia创建一个连接图,并进行候选实体召回。

(2)本发明候选实体消歧的目标设定为不仅需要考虑实体与其局部上下文之间的关 系,而且还要考虑在文档中实体与实体之间的连贯性。

(3)本发明通过弱监督学习的方法减少人工标注,降低成本。

附图说明

图1为本发明的基于上下文语义关系和文档一致性约束的实体链接方法的流程图;

图2为实体连接在知识图谱问答系统中回答关于“Obama”问题的应用;

图3为本发明的无向连接图构建示意图;

图4为本发明的候选列表个数与召回率关系图;

图5为本发明的候选实体消歧算法示意图;

图6为本发明中h(m

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。

以实体链接技术在知识图谱问答场景下的一个示例,来介绍其具体的研究场景和应用 价值。如图2所示,针对问答场景下的问题“where was Zhangsan Born?”实体链接系统 将问题单词“Zhangsan”作为一个实体指代,并将“Zhangsan”映射到知识图谱“BarackZhangsan”上。

一种基于上下文语义关系和文档一致性约束的实体链接方法:所述方法包括以下步 骤:

A、数据预处理:对实验数据集中选择未标记的文档和维基百科数据进行预处理,因 为当使用多个数据集时候,会存在以下两个问题:多个数据集的数据组织格式不统一;部 分数据集的实体标注不完整;

B、候选实体生成:因为本步骤最初所选择的候选实体集合的锚定实体信息都来源于 维基百科,所以通过维基百科来产生弱监督,通过将候选实体生成分为两个候选实体,来 筛选得到高召回率的候选实体集:先使用Ganea and Hofmann预处理技术进行粗召回,再 创建连接图进行精召回;

C、候选实体消歧:将步骤B获得的候选实体消歧,本步骤不仅需要考虑实体与其局部上下文之间的关系,而且还要考虑在文档中实体与实体之间的连贯性;从这两个方面进行建模,根据得分高的作为候选实体集合中的正确选项。

所述步骤A包括以下步骤:

A1、针对实体标注不完整数据进行补全:针对原始的CoNLL 2003数据集包含的英语 部分,将对语言无关的命名实体进行识别并剔除;通过实体嵌入,使用deep-ed预训练技术的Word2Vec来提取300维词向量;

A2、部分数据集的实体标注不完整,需要通过Wikipedia、YAGO、Freebase知识图谱进行实体标注。

所述步骤B包括以下步骤:

B1、使用Ganea and Hofmann预处理技术进行粗召回:

将步骤A得到的候选列表进行过滤,Ganea and Hofmann预处理技术使用一个模型, 来衡量在嵌入空间中实体e、指代跨度m、及其周围的上下文窗口c中的单词w之间的相似度;

因为小的候选实体集合缺乏足够的约束力,无法约束潜在分配的空间推动实体歧义消 除模型进行特征学习,所以小的候选实体合集对于弱监督学习是无效的;

因此进行粗召回之后,候选实体集合的列表必须保持相当大,最少需要两个候选实体 集合列表才能保持较高的召回率;

B2、使用Wikipedia链接统计进一步减少候选实体列表,创建一个连接图进行精召回, 实体作为所述连接图中的顶点;所述连接图定义了概率图模型的结构,本步骤用该连接图 来对候选实体列表进行排名;本步骤只为每个指代实体选择最高的候选实体,并且仍然保 持较高的召回率;

B21、进行无向图构建,从Wikipedia中构建无向图,图中的顶点为Wikipedia实体;链接顶点e

(1)D为Wikipedia的文档描述,且e

(2)D包含e

如图3所示,在文档中“Brexit”,模型将实体Brexit连接到所有其他实体上,但 是模型未将United Kingdom和Greek withdrawal from Eurozone连接起来,原因是它 们的距离超过了L个实体。

B22、进行模型优化,考虑未标记(非维基百科)的文档;因此本步骤在优化训练文档的同时,也在测试时优化新的未贴标签的文档;

因此,为文档D中的每个指代实体m

如图4所示,绘制了在AIDACoNLL验证集上,候选数量的一个函数(根据r

所述步骤C包括以下步骤:

C1、计算实体上下文得分,通过实体上下文得分进行候选实体与文章局部相关性筛选; 选择得分较高的候选实体;

m

C2、计算实体相关性得分,通过实体相关性计算实体与全文的匹配度关系,选择得分 较高的候选实体,Xei和Xej∈Rde是外部实体嵌入,使用外部的词嵌入得到,

其中,A属于

以上对本发明所提出的一种基于上下文语义关系和文档一致性约束的实体链接方法, 进行了详细介绍,本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述,以 上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般 技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述, 本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号