首页> 中国专利> 一种面向图书的阅读领域知识图谱构建方法

一种面向图书的阅读领域知识图谱构建方法

摘要

本发明属于中文知识库应用技术领域,具体为一种面向图书的阅读领域知识图谱构建方法。该方法分为三个部分:通用知识图谱构建、领域知识图谱构建和智能阅读推荐。即:获取互联网上的知识,集成通用知识图谱;结合通用知识图谱利用迭代的方式扩展书籍相关的概念和实体,结合实体Infobox表和传统关系抽取实体关系;按照实体由长到短标注电子书籍中的核心实体,并建立实体与书籍知识图谱的链接,以实现智能知识推荐。本发明通过建立面向书籍的阅读领域知识图谱,对书籍中的实体进行解释或知识推荐,增加了知识的深度,实现了电子阅读的便捷化、智能化和人性化,具有更好的用户体验。

著录项

  • 公开/公告号CN103488724A

    专利类型发明专利

  • 公开/公告日2014-01-01

    原文格式PDF

  • 申请/专利权人 复旦大学;

    申请/专利号CN201310420375.9

  • 发明设计人 肖仰华;张可尊;汪卫;

    申请日2013-09-16

  • 分类号G06F17/30(20060101);

  • 代理机构31200 上海正旦专利代理有限公司;

  • 代理人陆飞;盛志范

  • 地址 200433 上海市杨浦区邯郸路220号

  • 入库时间 2024-02-19 21:48:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-09-28

    授权

    授权

  • 2014-06-11

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130916

    实质审查的生效

  • 2014-01-01

    公开

    公开

说明书

技术领域

本发明属于中文知识库应用技术领域,具体涉及一种面向图书的阅读领域知识图谱的构建方法。

背景技术

随着计算机技术的发展和移动设备的普及,人们的阅读方式发生了深刻的变革,电子阅读逐渐代替传统的纸质阅读成为主流阅读模式之一。相比传统阅读,电子阅读避免了纸张的浪费更加绿色环保,电子阅读可以方便读者实现便捷的阅读。电子阅读已然成为知识获取的一种重要途径之一,更有引领知识获取的趋势。

但是,当前电子阅读的知识获取都限制于书籍本身,读者遇到陌生的词汇、知识点时需要查阅辅助工具,如词典、百科全书等,来对陌生的知识进行解释。这给阅读带来额外的负担,如何将书籍中知识的解释直观的展示给读者成为当前电子阅读的瓶颈,解决该问题将使得电子阅读更加便捷、智能和人性化。

当前的电子阅读器尝试对书籍中的知识进行解释。Kindle阅读器将电子书籍中的词语链接到维基百科中进行搜索,以产生词语的解释。有道阅读将词语链接到中文互动百科进行解释。这些改进一定程度上提高了电子书籍的可理解性与知识的深度。虽然这些改进扩展了书籍之外的知识和内容,但是仍然没有进行智能的知识整理和推荐,读者仍然需要从词语的搜索结果中整理、选择需要的知识,甚至这些百科页面不存在读者想要的知识。所以,现存电子阅读仍然不够智能,不能自动的筛选知识和知识推荐。

知识图谱(knowledge graph)是指以实体、概念作为节点,以语义关系作为边的语义网络。知识图谱使得知识获取更直接,因此知识图谱能够为电子阅读提供语义关联的知识,从而实现阅读的便捷化、智能化和人性化。但是,当前中文知识图谱仍属于构建阶段,而且是通用的知识图谱。因此,我们需要针对每一本书籍构建一个阅读领域知识图谱。

发明内容

本发明针对当前电子阅读存在知识层次浅、知识推荐不够智能等问题,提出一种结合通用知识图谱,构造面向图书的领域知识图谱的方法,为电子书籍构造知识网络,从而实现对书籍词语的解释和智能的知识推荐。

本发明提出的面向图书的阅读领域知识图谱构建方法,结合已有的通用知识图谱,对书籍中的核心实体和概念进行识别和标注,挖掘实体、概念之间的语义关系,从而构造书籍的领域知识图谱。当读者选择标注的核心实体进行知识查询时,阅读器将从领域知识图谱中查询语义相关的知识进行智能的知识推荐。本发明方法包括三个部分(即三个模块):通用知识图谱构建、领域知识图谱构建和智能阅读应用,方法架构图见附图1所示。 

一、通用知识图谱构建

知识图谱是指由海量的实体、概念以及它们之间的语义关系组成的语义网络。知识图谱能够提供实体最全面、关联的知识和解释,因此我们借助通用知识图谱为一本图书构建领域知识图谱,从而为书籍中的词语、知识点作出合理解释。

当前存在的中文知识图谱包括谷歌中文知识图谱、百度知识图谱和搜狗知立方。我们利用已有的知识源作为实现书籍领域知识图谱构建的知识源,通过获取百度百科、互动百科和中文维基百科的实体、概念和关系,并加以集成与清洗得到高质量的中文通用知识图谱。

二、领域知识图谱构建

该模块结合通用知识图谱采用迭代方法不断的扩充核心概念和核心实体,然后挖掘实体之间的语义关系,从而构建领域知识图谱。该模块通过步骤概念、实体识别和关系抽取和实现。

概念、实体识别

概念识别的目标是识别出与书籍紧密相关的所有概念,本发明借助通用知识图谱中实体的开放分类信息实现。

图书关键字定义

首先,为了识别图书相关的概念,需要人工定义少量书籍紧密相关的关键字,关键字可以选择图书名称,也可以选择图书名称中的关键字。该步骤可以得到关键字集合KEYWORD(定义:关键字集合即为由图书名称相关的关键字组成的集合)。

种子概念识别

种子概念是知识图谱中直接包含关键字串的概念,将知识图谱中包含关键字字串的概念加入分类种子概念集合SEEDCONCEPT(定义:分类种子概念集合即为由知识图谱中包含集合KEYWORD中的关键字子串的概念所组成的集合)。

概念、实体迭代扩展

概念、实体迭代扩展是根据种子概念,从通用知识图谱中扩展出所有与图书相关的概念和实体。实施方法如下,扩展流程图见附图2:

首先,从种子概念集合SEEDCONCEPT可以得到对应的实体,加入核心实体集合COREENTITY(定义:核心实体集合即为由种子概念下的实体所组成的集合)。 

其次,扫描COREENTITY中的核心实体,可以产生不在SEEDCONCEPT中的概念,称作候选概念,加入候选概念集合CANDIDATECONCEPT(定义:候选概念集合即为由核心实体所属并且未出现在核心概念集合中的概念所组成的集合)。

然后,计算CANDIDATECONCEPT中候选概念与核心概念集合CORECONCEPT(定义:核心概念集合即由图书密切相关的概念所组成的集合,由种子概念和与其相似性较大的概念组成)之间的语义相关性。将大于给定阈值                                                (定义:语义相关性阈值。如果概念与集合的语义相关性大于该值则认为语义相关)的候选概念作为相关概念,加入核心概念集合CORECONCEPT中。其中,候选概念c(表示任意候选概念)与核心概念集合之间CS(表示核心概念集合CORECONCEPT)的语义相关性定义为: Rel(c,cs)。

其中,表示同时属于分类c 和分类k的实体数量,Num(k)分别表示属于分类ck的实体的数量,c和k分别表示知识图谱中的实体的开放分类。

最后,以迭代方式增量的扩展CORECONCEPT和COREENTITY直至没有新的概念或实体产生,这样就得到全部的与图书相关概念和实体。

但是,这些实体和概念可能存在一些比较通用但是和主题相关性不强的实体和概念,因此,需要进行清洗。清洗过程通过计算实体或概念的IDF值来实现,即把IDF值较低的实体或者概念作为噪声,如下式所示:

Num表示知识图谱中实体总数,表示知识图谱中包含链接实体e的实体数量,Num(c)表示知识图谱中包含分类c的实体数量。e表示知识图谱中的实体,c表示知识图谱中实体的开放分类。这样能够惩罚通用性较大的实体或概念,从而保留最相关的实体和概念。

实体概念关系抽取

实体概念关系抽取是为已获得的实体概念构造语义关系,是构造知识图谱的重要步骤。实体关系表示为三元组,其中source表示源实体,target表示目标实体,relation表示实体关系,r表示实体关系描述集合。图书相关的关系是指三元组中source或target在COREENTITY中。本发明主要结合通用知识图谱采用两种关系抽取方法:基于Infobox(定义:Infobox指知识图谱中实体的属性表)的关系抽取方法和基于模式的关系抽取方法。

基于Infobox的关系抽取方法

Infobox以表格的形式描述实体的基本属性信息。Infobox的表示()同实体关系表示相同,即entity对应sourceattribute对应relation,value对应target。其中entity表示实体,attribute表示实体属性,value表示实体对应的属性值。首先,检查Infobox表,如果entityvalue属于COREENTITY,则将该条属性加入集合R(定义:由实体关系三元组组成的集合),并将attribute加入实体关系描述集合r。

基于模式的关系抽取方法

使用Infobox可以得到实体关系三元组集合R和实体关系描述集合r。为了挖掘更多的实体,本发明采用基于模式的关系抽取方法。

实体关系抽取中的挑战在于“关系描述”的抽取,基于Infobox的方法已经得到了“关系描述”集合r。因此,这里使用自然语言处理的方法并结合中文分词识别实体,即先从一个句子中找出“关系描述”的位置,然后分别向前、向后寻找最近的核心实体或者名词实体。关系抽取模式为:,即实体关系描述词语和其向前、向后最近的实体构成一个关系三元组。

特别的针对图书中人物关系的抽取,采用表1中的抽取模式,语料文本是实体的名片介绍,这里r代表人物关系集合{如“父”,“丈夫”,“妻子”等等}:

表1. 人物关系抽取模式

注:**表示任意文字,/nr,/u,/uj,/v表示中文分词后的词性标注,{r}为关系描述集合r中的一个关系描述词语。

实体指代关系抽取

图书中有些实体具有别名或者特殊称呼,但是都指代同一个实体。为了识别这些指代实体,需要进行实体指代判断,主要是利用了知识图谱中的实体的同义词映射表和实体Infobox表中的同义词描述属性(“别名”、“曾用名”、“学名”、“笔名”等)来将指代实体关联到核心实体。

三、智能阅读应用

本模块主要目的是标注电子书籍中的实体和以完成实体到书籍领域知识图谱中知识的映射。当读者选择书籍中的实体时,从书籍领域知识图谱中选择对应的知识予以推荐和展示。包括实体标注、实体解释:

实体标注是将核心实体集合COREENTITY中的实体在电子书籍中标出,为了提高标注的准确度和速度,将实体按照长度排序,然后由长到短依次标注,以避免实体包含而引起的错误标注;

 实体解释将电子书籍中标注出的实体在知识图谱中找到对应的解释,当用户选择需要解释的实体时,选择对应的知识予以推荐。

综上所述,使用本发明中构造的面向图书的领域知识图谱能够准确识别电子书籍中的实体、概念和实体关系的抽取,并且可以准确的标注核心实体,结合知识图谱对电子书籍中的实体做准确、智能的知识推荐,极大提高了书籍的便捷性、可理解性。这是现有电子阅读系统都没有实现的功能。

根据上述内容,本发明的面向图书的阅读领域知识图谱构建方法,归纳如下:

(1) 对于给定的电子图书和通用知识图谱,识别、抽取出属于该电子图书的相关知识,以提供智能的知识推荐。这些相关知识包括实体、概念及其予以解释和相关的语义关系,组成图书相关的语义网络,即图书领域知识图谱。 

(2) 对于构建的领域知识图谱和电子图书,生成智能的阅读系统。标注出电子书籍中的核心词汇(知识图谱中的实体、概念),并将知识图谱中的词汇解释链接到电子书籍中。当读者请求词汇解释时,从领域知识图谱中选择语义相关的知识解释予以推荐。

步骤(1)中所述图书领域知识图谱构建方法的步骤如下:

(a) 概念实体识别使用通用知识图谱中的分类信息,首先定义图书关键字,其次初步获取图书相关的种子概念,然后迭代的扩展概念和实体。通过定义候选概念和核心概念集合之间的相关性来决定是否将候选概念加入核心概念集合。其中表示同时属于分类和分类k的实体数量,Num(c)Num(k)分别表示属于分类ck下实体的数量。

最后,通过使用IDF指标清洗获得的实体、概念,得到与图书密切相关的实体和概念。

(b) 实体概念关系抽取使用通用知识图谱中实体Infobox信息,抽取关系三元组<source,relation,target>中关系的描述集合{relation}和部分实体关系。然后针对通用知识图谱实体的文本,使用基于模式的关系抽取方法,抽取更多的关系。

(c)实体指代关系主要通过通用知识图谱中实体的同义词信息和Infobox表中的同义词描述属性,来将指代实体链接到其指代的核心实体。 

步骤(2)中所述智能阅读系统生成方法的步骤如下:

(a)为了标注出电子书籍中需要解释的词汇,将图书领域知识图谱中的实体概念按照字符长度排序,然后由长到短依次在电子书籍中进行匹配、标注。

(b)将图书相关实体、概念的知识从通用知识图谱中取出,集成到图书的领域知识图谱,则完成图书词汇到相关知识的链接。

附图说明

图1为面向图书阅读领域知识图谱的架构图。

图2为概念、实体抽取的流程图。

图3为针对书籍《红楼梦》进行实体标注和知识推荐效果图。

图4为使用关系抽取方法得到的红楼梦部分人物关系图示。

具体实施方式

下面以电子图书《红楼梦》为例,进一步描述本发明:

模块一:通用知识图谱构建

使用百度中文知识图谱作为知识源,同时使用互动百科和中文维基百科的知识源作为补充。通过爬取和解析百科数据,对得到的百科实体进行整合与清洗,高质量的实体、概念和实体关系。从而构建出通用知识图谱。

模块二:领域知识图谱构建

1.    实体、概念抽取

首先,针对电子图书《红楼梦》,人工设定关键集合KEYWORD{“红楼梦”},然后从知识图谱实体分类中查找包含“红楼梦”关键字的核心概念集合CORECONCEPT{“红楼梦”,“红楼梦人物”,“红楼梦服饰”,…}。其次,从知识图谱中查找属于核心概念的实体,构成核心实体集合COREENTITY{“贾府”,“宝玉”,“林黛玉”,…}。将COREENTITY所属且不在CORECONCEPT中的概念加入CANDIDATECONCEPT。对于CANDIDATECONCEPT中的概念计算其与CORECONCEPT之间的语义相关度Rel(c,CS),选择相关度大于阈值的概念加入CORECPNCEPT。最后,迭代的扩展COREENTITY和CORECONCEPT,直至收敛到没有新的核心实体和概念加入集合,得到图书“红楼梦”相关的实体规模见表2。

2.    关系抽取

首先,使用基于Infobox的关系抽取方法抽取关系,即判断Infobox表<entity, attribute, value>的entity或value是否属于核心实体集合。若是则将实体关系三元组<entity, attribute, value>加入集合R,同时将关系描述attribute加入关系描述集合r。如<林黛玉,父亲,林如海>可以得到关系“林黛玉-父亲-林如海”和关系描述“父亲”。

其次,使用基于模式的关系抽取方法,使用模式从正文中扩展关系,如使用关系描述“父亲”,可以抽取出实体关系“贾宝玉-父亲-贾政”。

然后,使用表1中的模式描述从正文中抽取《红楼梦》中的人物关系,得到的人物关系图谱规模见表2,以及以“王熙凤”、“林黛玉”为中心的人物关系图形效果见附图4。

最后,针对图书中的实体指代,如《红楼梦》中“凤姐”、“凤辣子”都指代“王熙凤”。为了识别这些指代实体,利用了知识图谱中的实体的同义词映射表和实体Infobox表中的同义词描述属性(“别名”、“曾用名”、“学名”、“笔名”等)来将指代实体关联到核心实体。

通过本模块使用的实体、概念识别,关系抽取方法构建的知识图谱规模见表2。

表2. 红楼梦领域知识图谱的规模

领域知识图谱的规模实体数量(个)实体关系数量(个)概念数量(个)红楼梦实体图谱1560273185红楼梦人物子图谱80415302

模块三:智能阅读应用

将模块二得到的《红楼梦》相关实体按照实体长度由长到短排序,然后依次在《红楼梦》电子书籍中标注出来。这样可以避免实体包含而引起的错误,同时提高标注的准确度和效率。实体标注效果见附图3,《红楼梦》中“宝玉”、“林黛玉”等相关实体都被准确标注出来。

将《红楼梦》书籍中标注出的实体在知识图谱中找到对应的解释,当用户选择需要解释的实体时,选择对应的知识予以推荐。附图3显示为《红楼梦》中实体“林黛玉”的解释信息。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号