法律状态公告日
法律状态信息
法律状态
2016-09-28
授权
授权
2014-06-11
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130916
实质审查的生效
2014-01-01
公开
公开
技术领域
本发明属于中文知识库应用技术领域,具体涉及一种面向图书的阅读领域知识图谱的构建方法。
背景技术
随着计算机技术的发展和移动设备的普及,人们的阅读方式发生了深刻的变革,电子阅读逐渐代替传统的纸质阅读成为主流阅读模式之一。相比传统阅读,电子阅读避免了纸张的浪费更加绿色环保,电子阅读可以方便读者实现便捷的阅读。电子阅读已然成为知识获取的一种重要途径之一,更有引领知识获取的趋势。
但是,当前电子阅读的知识获取都限制于书籍本身,读者遇到陌生的词汇、知识点时需要查阅辅助工具,如词典、百科全书等,来对陌生的知识进行解释。这给阅读带来额外的负担,如何将书籍中知识的解释直观的展示给读者成为当前电子阅读的瓶颈,解决该问题将使得电子阅读更加便捷、智能和人性化。
当前的电子阅读器尝试对书籍中的知识进行解释。Kindle阅读器将电子书籍中的词语链接到维基百科中进行搜索,以产生词语的解释。有道阅读将词语链接到中文互动百科进行解释。这些改进一定程度上提高了电子书籍的可理解性与知识的深度。虽然这些改进扩展了书籍之外的知识和内容,但是仍然没有进行智能的知识整理和推荐,读者仍然需要从词语的搜索结果中整理、选择需要的知识,甚至这些百科页面不存在读者想要的知识。所以,现存电子阅读仍然不够智能,不能自动的筛选知识和知识推荐。
知识图谱(knowledge graph)是指以实体、概念作为节点,以语义关系作为边的语义网络。知识图谱使得知识获取更直接,因此知识图谱能够为电子阅读提供语义关联的知识,从而实现阅读的便捷化、智能化和人性化。但是,当前中文知识图谱仍属于构建阶段,而且是通用的知识图谱。因此,我们需要针对每一本书籍构建一个阅读领域知识图谱。
发明内容
本发明针对当前电子阅读存在知识层次浅、知识推荐不够智能等问题,提出一种结合通用知识图谱,构造面向图书的领域知识图谱的方法,为电子书籍构造知识网络,从而实现对书籍词语的解释和智能的知识推荐。
本发明提出的面向图书的阅读领域知识图谱构建方法,结合已有的通用知识图谱,对书籍中的核心实体和概念进行识别和标注,挖掘实体、概念之间的语义关系,从而构造书籍的领域知识图谱。当读者选择标注的核心实体进行知识查询时,阅读器将从领域知识图谱中查询语义相关的知识进行智能的知识推荐。本发明方法包括三个部分(即三个模块):通用知识图谱构建、领域知识图谱构建和智能阅读应用,方法架构图见附图1所示。
一、通用知识图谱构建
知识图谱是指由海量的实体、概念以及它们之间的语义关系组成的语义网络。知识图谱能够提供实体最全面、关联的知识和解释,因此我们借助通用知识图谱为一本图书构建领域知识图谱,从而为书籍中的词语、知识点作出合理解释。
当前存在的中文知识图谱包括谷歌中文知识图谱、百度知识图谱和搜狗知立方。我们利用已有的知识源作为实现书籍领域知识图谱构建的知识源,通过获取百度百科、互动百科和中文维基百科的实体、概念和关系,并加以集成与清洗得到高质量的中文通用知识图谱。
二、领域知识图谱构建
该模块结合通用知识图谱采用迭代方法不断的扩充核心概念和核心实体,然后挖掘实体之间的语义关系,从而构建领域知识图谱。该模块通过步骤概念、实体识别和关系抽取和实现。
概念、实体识别
概念识别的目标是识别出与书籍紧密相关的所有概念,本发明借助通用知识图谱中实体的开放分类信息实现。
图书关键字定义
首先,为了识别图书相关的概念,需要人工定义少量书籍紧密相关的关键字,关键字可以选择图书名称,也可以选择图书名称中的关键字。该步骤可以得到关键字集合KEYWORD(定义:关键字集合即为由图书名称相关的关键字组成的集合)。
种子概念识别
种子概念是知识图谱中直接包含关键字串的概念,将知识图谱中包含关键字字串的概念加入分类种子概念集合SEEDCONCEPT(定义:分类种子概念集合即为由知识图谱中包含集合KEYWORD中的关键字子串的概念所组成的集合)。
概念、实体迭代扩展
概念、实体迭代扩展是根据种子概念,从通用知识图谱中扩展出所有与图书相关的概念和实体。实施方法如下,扩展流程图见附图2:
首先,从种子概念集合SEEDCONCEPT可以得到对应的实体,加入核心实体集合COREENTITY(定义:核心实体集合即为由种子概念下的实体所组成的集合)。
其次,扫描COREENTITY中的核心实体,可以产生不在SEEDCONCEPT中的概念,称作候选概念,加入候选概念集合CANDIDATECONCEPT(定义:候选概念集合即为由核心实体所属并且未出现在核心概念集合中的概念所组成的集合)。
然后,计算CANDIDATECONCEPT中候选概念与核心概念集合CORECONCEPT(定义:核心概念集合即由图书密切相关的概念所组成的集合,由种子概念和与其相似性较大的概念组成)之间的语义相关性。将大于给定阈值
其中,
最后,以迭代方式增量的扩展CORECONCEPT和COREENTITY直至没有新的概念或实体产生,这样就得到全部的与图书相关概念和实体。
但是,这些实体和概念可能存在一些比较通用但是和主题相关性不强的实体和概念,因此,需要进行清洗。清洗过程通过计算实体或概念的IDF值来实现,即把IDF值较低的实体或者概念作为噪声,如下式所示:
Num表示知识图谱中实体总数,
实体概念关系抽取
实体概念关系抽取是为已获得的实体概念构造语义关系,是构造知识图谱的重要步骤。实体关系表示为三元组
基于Infobox的关系抽取方法
Infobox以表格的形式描述实体的基本属性信息。Infobox的表示(
基于模式的关系抽取方法
使用Infobox可以得到实体关系三元组集合R和实体关系描述集合r。为了挖掘更多的实体,本发明采用基于模式的关系抽取方法。
实体关系抽取中的挑战在于“关系描述”的抽取,基于Infobox的方法已经得到了“关系描述”集合r。因此,这里使用自然语言处理的方法并结合中文分词识别实体,即先从一个句子中找出“关系描述”的位置,然后分别向前、向后寻找最近的核心实体或者名词实体。关系抽取模式为:
特别的针对图书中人物关系的抽取,采用表1中的抽取模式,语料文本是实体的名片介绍,这里r代表人物关系集合{如“父”,“丈夫”,“妻子”等等}:
表1. 人物关系抽取模式
注:**表示任意文字,/nr,/u,/uj,/v表示中文分词后的词性标注,{r}为关系描述集合r中的一个关系描述词语。
实体指代关系抽取
图书中有些实体具有别名或者特殊称呼,但是都指代同一个实体。为了识别这些指代实体,需要进行实体指代判断,主要是利用了知识图谱中的实体的同义词映射表和实体Infobox表中的同义词描述属性(“别名”、“曾用名”、“学名”、“笔名”等)来将指代实体关联到核心实体。
三、智能阅读应用
本模块主要目的是标注电子书籍中的实体和以完成实体到书籍领域知识图谱中知识的映射。当读者选择书籍中的实体时,从书籍领域知识图谱中选择对应的知识予以推荐和展示。包括实体标注、实体解释:
实体标注是将核心实体集合COREENTITY中的实体在电子书籍中标出,为了提高标注的准确度和速度,将实体按照长度排序,然后由长到短依次标注,以避免实体包含而引起的错误标注;
实体解释将电子书籍中标注出的实体在知识图谱中找到对应的解释,当用户选择需要解释的实体时,选择对应的知识予以推荐。
综上所述,使用本发明中构造的面向图书的领域知识图谱能够准确识别电子书籍中的实体、概念和实体关系的抽取,并且可以准确的标注核心实体,结合知识图谱对电子书籍中的实体做准确、智能的知识推荐,极大提高了书籍的便捷性、可理解性。这是现有电子阅读系统都没有实现的功能。
根据上述内容,本发明的面向图书的阅读领域知识图谱构建方法,归纳如下:
(1) 对于给定的电子图书和通用知识图谱,识别、抽取出属于该电子图书的相关知识,以提供智能的知识推荐。这些相关知识包括实体、概念及其予以解释和相关的语义关系,组成图书相关的语义网络,即图书领域知识图谱。
(2) 对于构建的领域知识图谱和电子图书,生成智能的阅读系统。标注出电子书籍中的核心词汇(知识图谱中的实体、概念),并将知识图谱中的词汇解释链接到电子书籍中。当读者请求词汇解释时,从领域知识图谱中选择语义相关的知识解释予以推荐。
步骤(1)中所述图书领域知识图谱构建方法的步骤如下:
(a) 概念实体识别使用通用知识图谱中的分类信息,首先定义图书关键字,其次初步获取图书相关的种子概念,然后迭代的扩展概念和实体。通过定义候选概念和核心概念集合之间的相关性
最后,通过使用IDF指标清洗获得的实体、概念,得到与图书密切相关的实体和概念。
(b) 实体概念关系抽取使用通用知识图谱中实体Infobox信息,抽取关系三元组<source,relation,target>中关系的描述集合{relation}和部分实体关系。然后针对通用知识图谱实体的文本,使用基于模式的关系抽取方法,抽取更多的关系。
(c)实体指代关系主要通过通用知识图谱中实体的同义词信息和Infobox表中的同义词描述属性,来将指代实体链接到其指代的核心实体。
步骤(2)中所述智能阅读系统生成方法的步骤如下:
(a)为了标注出电子书籍中需要解释的词汇,将图书领域知识图谱中的实体概念按照字符长度排序,然后由长到短依次在电子书籍中进行匹配、标注。
(b)将图书相关实体、概念的知识从通用知识图谱中取出,集成到图书的领域知识图谱,则完成图书词汇到相关知识的链接。
附图说明
图1为面向图书阅读领域知识图谱的架构图。
图2为概念、实体抽取的流程图。
图3为针对书籍《红楼梦》进行实体标注和知识推荐效果图。
图4为使用关系抽取方法得到的红楼梦部分人物关系图示。
具体实施方式
下面以电子图书《红楼梦》为例,进一步描述本发明:
模块一:通用知识图谱构建
使用百度中文知识图谱作为知识源,同时使用互动百科和中文维基百科的知识源作为补充。通过爬取和解析百科数据,对得到的百科实体进行整合与清洗,高质量的实体、概念和实体关系。从而构建出通用知识图谱。
模块二:领域知识图谱构建
1. 实体、概念抽取
首先,针对电子图书《红楼梦》,人工设定关键集合KEYWORD{“红楼梦”},然后从知识图谱实体分类中查找包含“红楼梦”关键字的核心概念集合CORECONCEPT{“红楼梦”,“红楼梦人物”,“红楼梦服饰”,…}。其次,从知识图谱中查找属于核心概念的实体,构成核心实体集合COREENTITY{“贾府”,“宝玉”,“林黛玉”,…}。将COREENTITY所属且不在CORECONCEPT中的概念加入CANDIDATECONCEPT。对于CANDIDATECONCEPT中的概念计算其与CORECONCEPT之间的语义相关度Rel(c,CS),选择相关度大于阈值
2. 关系抽取
首先,使用基于Infobox的关系抽取方法抽取关系,即判断Infobox表<entity, attribute, value>的entity或value是否属于核心实体集合。若是则将实体关系三元组<entity, attribute, value>加入集合R,同时将关系描述attribute加入关系描述集合r。如<林黛玉,父亲,林如海>可以得到关系“林黛玉-父亲-林如海”和关系描述“父亲”。
其次,使用基于模式的关系抽取方法,使用模式从正文中扩展关系,如使用关系描述“父亲”,可以抽取出实体关系“贾宝玉-父亲-贾政”。
然后,使用表1中的模式描述从正文中抽取《红楼梦》中的人物关系,得到的人物关系图谱规模见表2,以及以“王熙凤”、“林黛玉”为中心的人物关系图形效果见附图4。
最后,针对图书中的实体指代,如《红楼梦》中“凤姐”、“凤辣子”都指代“王熙凤”。为了识别这些指代实体,利用了知识图谱中的实体的同义词映射表和实体Infobox表中的同义词描述属性(“别名”、“曾用名”、“学名”、“笔名”等)来将指代实体关联到核心实体。
通过本模块使用的实体、概念识别,关系抽取方法构建的知识图谱规模见表2。
表2. 红楼梦领域知识图谱的规模
模块三:智能阅读应用
将模块二得到的《红楼梦》相关实体按照实体长度由长到短排序,然后依次在《红楼梦》电子书籍中标注出来。这样可以避免实体包含而引起的错误,同时提高标注的准确度和效率。实体标注效果见附图3,《红楼梦》中“宝玉”、“林黛玉”等相关实体都被准确标注出来。
将《红楼梦》书籍中标注出的实体在知识图谱中找到对应的解释,当用户选择需要解释的实体时,选择对应的知识予以推荐。附图3显示为《红楼梦》中实体“林黛玉”的解释信息。
机译: 存储/播放阅读信息的基于数据流服务的网络图书馆构建方法及其操作系统
机译: 面向软件缺陷的领域知识图的自动构建方法
机译: 一种面向连接的通信的构建方法