首页> 中国专利> 案例知识库表示及案例相似度获取方法及系统

案例知识库表示及案例相似度获取方法及系统

摘要

本发明提供一种案例知识库表示及案例相似度获取方法,包括增强语义网标准描述语言的语义表示能力、创建案例知识库和获取案例相似度;其中,增强语义网标准描述语言的语义表示能力,指在语义网标准描述语言的基础上通过引入N元关系模型、模糊隶属函数和关系权重以增强语义网标准描述语言的语义表示能力;基于增强后的语义网标准描述语言创建案例知识库,案例知识库包括案例知识表示模型、案例库、语义网规则库以及基于语义网标准描述语言的推理机制;获取案例相似度。利用上述发明能够增强语义网标准描述语言的语义描述能力,以精确表示案例知识,便于案例知识的管理及共享,提高案例推荐速度及推荐精度。

著录项

  • 公开/公告号CN104636430A

    专利类型发明专利

  • 公开/公告日2015-05-20

    原文格式PDF

  • 申请/专利权人 东软集团股份有限公司;

    申请/专利号CN201410842910.4

  • 发明设计人 陈德彦;

    申请日2014-12-30

  • 分类号G06F17/30(20060101);

  • 代理机构11327 北京鸿元知识产权代理有限公司;

  • 代理人陈英俊

  • 地址 110179 辽宁省沈阳市浑南新区新秀街2号

  • 入库时间 2023-12-18 08:44:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-03-13

    授权

    授权

  • 2015-06-17

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141230

    实质审查的生效

  • 2015-05-20

    公开

    公开

说明书

技术领域

本发明涉及基于案例的问题求解领域,更为具体地,涉及一种案例知识库表示及案例相似度获取方法及系统。

背景技术

根据以往案例中的相关信息和知识理解并解决现有案例存在问题的过程,被称为基于案例推理(Case-based Reasoning,简称CBR)。以医生看病为例,在对某个病人做各种检查之后,医生会将检查结果关联到之前诊断过的有类似症状的病人案例,并参考在重要症状上相似的病人的诊断和治疗方案,对现有病人进行诊断与治疗。

在CBR中,把当前所面临的问题或情况称为目标案例(target case),而把记忆的问题或情况称为源案例(base case)。粗略地说,基于案例推理就是由目标案例的提示获得记忆中的源案例,并由源案例来指导目标案例求解的一种策略。

与规则链的推理方法相比,基于案例的推理使用的主要知识不是规则而是案例,是在案例库中找到与当前问题最相关的案例,然后对源案例作必要的改动以求解当前问题。目前,基于案例的推理已经在许多领域得到成功的应用。

以下将对案例知识的表示及案例相似度推理两部分进行分别说明。

1、案例知识表示

案例知识的表示不仅要使知识成为有结构和有组织的体系,还应保证知识是易于检索、存取和学习的。传统的案例知识表示,一般基于其应用领域和案例检索方法,采用定制化的表示方法,这种表示方法存在的问题主要有:

(1)案例特征被简单罗列,忽略这些特征之间内在的联系,即没有从语义上对信息进行理解,进而造成了推荐质量的下降;

(2)定制化的案例知识表示方法不利于案例知识的共享和重用,在知识 工程中,知识的获取代价昂贵,如果知识不能实现重用与共享,必然会造成大量时间及成本的浪费。

针对上述问题,目前采用语义网(Semantic Web)来表示案例知识,语义网的核心是本体(Ontology)。本体是对客观世界现象的抽象描述,目的是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。

采用语义网来表示案例知识主要存在以下几个问题:

(1)本体是共享概念模型明确的形式化规范说明,只能处理明确或精确的语义信息和知识,即本体中的概念和关系等信息都通过明确的语义描述方法来定义,而无法处理不确定性或模糊性的语义信息和知识。而具有不确定性或模糊性的模糊信息在自然界、人类自身以及人类社会中普遍存在,这些大量不确定性和模糊性信息无法通过明确的语义描述方法来定义。

(2)本体只能表达二元关系(binary),而无法表达多元/N元关系(N-ary)。而案例知识的表示,经常需要使用N元关系,即需要附加属性来描述一个案例关系,例如若描述“小张患乳腺肿瘤的概率很高”,需要表达同一个关系的不同的方面,例如需要描述“小李的体温很高,但在往下走”等;在多个实例共同描述一个个性化的用户兴趣模型或者疾病处方时,需要多维关系来描述这些实例的参与关系和参与角色,例如描述“糖尿病早期、妊娠女性的干预处方”等。

(3)不能描述有时间顺序的多元关系。例如,不能通过语义Web描述某个航班先后经停多个目的地的事件;以及描述疾病临床路径中的诊疗方案在时间上的顺序等。

2、案例相似度推理

目前,基于语义网来表示案例知识、获取案例相似度的方法存在以下问题:

(1)在基于实例的各个特征进行实例间的相似度比较时,某些实例特征可能存在依赖关系,换言之,如果在某个特征不相同时,进行其余特征的比较可能是毫无意义的。比如,男性和女性进行比较,儿童和老人进行比较,有时可能是毫无意义的。而现有的研究并没有考虑到这一问题。

(2)在计算实例的数据类型属性的相似度时,仅根据数据类型属性的数据类型的名称来进行比较,而并没有从数据类型属性具有的语义和数值进行比较,比如身高和体重这两个数据类型属性的值域虽然都是浮点类型的数据,但明显其具有的语义是完全不一样的,没有可比性;又比如某人需求的数码相机的快门速度要达到0.0005,商家提供的一款数码相机的快门速度为0.00002,虽然这两个数值相差很大,但实际上商家提供的这款相机在快门速度上是完全满足用户的需求的。

(3)实例的数据类型属性可以有多个,如果待比较的两个实例,一个没有说明某个数据类型属性的取值,而另一个说明了,这种情况如何处理,现有方法没有给出明确的解释与说明。

(4)同样,在实例的对象属性有多个的情况下,如果待比较的两个实例,一个没有说明某个对象属性的取值,而另一个说明了,这种情况如何处理,也没有给出比较明确的说明。

(5)现有的研究没有给出实例相同、相似或不同的明确定义。

发明内容

鉴于上述问题,本发明的目的是提供一种案例知识库表示及案例相似度获取方法及系统,以解决目前相似度比较方法中存在的关系描述不准确,案例知识不能有效共享,案例推荐速度及推荐精度低等问题。

根据本发明的一个方面,提供一种案例知识库表示及案例相似度获取方法,包括增强语义网标准描述语言的语义表示能力、创建案例知识库和获取案例相似度;其中,所述增强语义网标准描述语言的语义表示能力,指在语义网标准描述语言的基础上通过引入N元关系模型、模糊隶属函数和关系权重以增强语义网标准描述语言的语义表示能力;其中,引入N元关系模型以表示在案例知识中存在的多元关系,多元关系包括模糊隶属度、关系权重;引入模糊隶属函数以表示在案例知识中存在的模糊概念和模糊关系;引入关系权重以表示案例知识中案例特征于案例的权重关系;创建案例知识库包括:基于增强后的语义网标准描述语言创建案例知识库,案例知识库包括案例知识表示模型、案例库、语义网规则库以及基于语义网标准描述语言的推理机 制;其中,

推理机制是在获取案例相似度阶段,由源案例查询操作引发的动态推理,案例知识表示模型和案例库直接声明的是显式事实,规则引擎基于案例知识表示模型、案例库和语义网规则库推理得到的是隐含事实,显式事实和隐含事实一起构成案例知识库,并提供案例查询;

获取案例相似度包括:

使用与案例库中的源案例相同的案例知识表示模型表示目标案例;

获取案例库中的所有源案例,并分别与目标案例进行相似度比较;其中,如果源案例和目标案例具有公共父类的实例对,则分别获取实例对在实例类型、数据类型属性及对象属性上的相似度;

通过将实例对在实例类型、数据类型属性及对象属性上的相似度以迭加权重进行迭加,获取实例对的总体相似度;其中,在实例对中的实例为模糊实例时,通过将迭加权重与模糊实例于模糊类型的隶属度相乘,获取新的迭加权重,进而获取模糊实例在模糊类型上的相似度;通过将迭加权重与模糊实例与模糊实例在模糊关系上的隶属度相乘,获取新的迭加权重,进而获取模糊实例在模糊关系上的相似度;

将所有实例对的总体相似度以关系权重进行迭加,获取目标案例与源案例的总体相似度。

其中,在语义网标准描述语言的基础上引入N元关系模型、模糊隶属函数和关系权重的过程中,

N元关系模型通过引入新类和相关属性来实现,新类支持有名类和无名类;通过N元关系模型描述案例知识表示中存在的多元关系;其中,N元关系模型包括有序模型、无序模型和混合模型;

模糊隶属函数用于表示在案例知识中存在的模糊概念和模糊关系,通过语义网标准规则描述语言来进行描述,并通过规则引擎触发规则执行以获取模糊隶属度;其中,模糊隶属度表示模糊实例隶属于模糊概念的程度以及模糊实例之间于模糊关系的关联程度;

关系权重描述案例特征于案例之间的权重关系;其中,案例特征是指案例中某个实例的数据类型属性和与该实例具有语义关系的所有实例。

其中,在通过规则引擎触发规则执行以获取模糊隶属度的过程中,基于 模糊实例提供的输入触发规则推理引擎执行描述模糊隶属函数的语义网规则以获取模糊隶属度,并通过N元关系模型表示模糊隶属度。

其中,在基于增强后的语义网标准描述语言创建案例知识库的过程中,案例知识表示模型为本体模型,通过所述增强后的语义网标准描述语言进行表示,包括用于描述案例知识的概念、属性和相关约束,概念和属性包含精确概念、精确属性、模糊概念和模糊属性;

案例库为源案例库,包括由本体模型描述的案例知识;其中,每个案例是由一个或多个实例、实例属性及实例与实例之间的语义关系构成的语义片段;

语义网规则库包含基于语义网标准规则描述语言描述的模糊隶属函数、案例知识表示或用于案例相似度推理的相关规则,模糊隶属函数用于描述模糊概念和模糊关系;

基于语义网标准描述语言的推理机制包括:本体推理和规则推理;其中,本体推理为基于语义网本体描述语言中的语义组件进行的推理,规则推理为基于语义网规则进行的推理;其中,语义网标准描述语言包括语义网规则描述语言和语义网本体描述语言。

其中,在引入模糊隶属函数的过程中,使用语义网规则语言描述模糊隶属函数,模糊隶属函数包括三角型隶属函数、梯型隶属函数、左/右半梯型隶属函数、正态型隶属函数和柯西型隶属函数。

根据本发明的另一方面,提供一种案例知识库表示及案例相似度获取系统,包括知识库创建单元和相似度获取单元;其中,

案例知识库创建单元包括:案例知识表示模型创建模块,通过引入新类和相关属性使用语义网本体描述语言创建N元关系模型,新类支持有名类和无名类;并通过N元关系模型描述案例知识中存在的多元关系,多元关系包括模糊隶属度和关系权重;其中,关系权重描述案例特征与案例之间的权重关系;

案例库创建模块,基于案例知识表示模型创建的案例知识创建案例库;其中,案例库中的每个案例均为由一个或多个实例、实例属性及实例与实例之间的语义关系构成的语义片段;

语义网规则创建模块,用于描述模糊隶属函数、案例知识表示或用于案 例相似度推理的相关规则,并通过模糊隶属函数获取模糊隶属度;其中,模糊隶属度表示模糊实例隶属于模糊概念的程度以及模糊实例之间于模糊关系的关联程度;

本体和规则推理模块,用于通过语义网本体描述语言中的语义组件进行推理,由显式事实推理出蕴含的事实;以及用于通过语义网规则进行推理,由满足规则体的显式事实推理出规则头描述的蕴含事实;

相似度获取单元包括:

目标案例表示模块,用于使用与表示案例知识库中的源案例相同的案例知识表示模型表示目标案例;

相似度获取模块,用于获取案例知识库中的所有源案例,并分别与目标案例进行相似度比较;其中,如果源案例和目标案例具有公共父类的实例对,则分别获取实例对在实例类型、数据类型属性及对象属性上的相似度;

实例对总体相似度获取模块,用于将实例对在实例类型、数据类型属性及对象属性上的相似度以迭加权重进行迭加,获取实例对的总体相似度;其中,在实例对中的实例为模糊实例时,通过将迭加权重与模糊实例于模糊类型的隶属度相乘,获取新的迭加权重,进而获取模糊实例在模糊类型上的相似度;通过将迭加权重与模糊实例与模糊实例在模糊关系上的隶属度相乘,获取新的迭加权重,进而获取模糊实例在模糊关系上的相似度;

案例总体相似度获取模块,用于将所有实例对的总体相似度以关系权重进行迭加,获取目标案例与源案例的总体相似度。

利用上述根据本发明的案例知识表示及案例相似度获取方法及系统,通过创建案例知识库,并基于语义网标准描述语言在案例知识表示模型中引入N元关系模型、模糊隶属函数和关系权重,使本体模型能够表达具有时间顺序的多元关系;此外还能够实现在本体知识库更新时,自动计算并添加或调整模糊隶属度,提高案例推理的准确度及案例知识的共享度。

为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等 同物。

附图说明

通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:

图1为根据本发明实施例的案例知识表示及案例相似度获取方法的流程图;

图2为根据本发明实施例的案例相似度获取流程图;

图3为根据本发明实施例的空节点引入前后RDF框架示意图;

图4为根据本发明实施例的使用N元关系表示处方案例知识的示意图;

图5为根据本发明实施例的无顺序要求的N元语义关系模型;

图6为根据本发明实施例的使用有顺序的N元关系表示临床路径案例知识的示意图;

图7为根据本发明实施例的有顺序要求的N元语义关系模型;

图8为根据本发明实施例的模糊实例于模糊集合的隶属度示意图;

图9为根据本发明实施例的使用N元关系模型表示模糊实例于模糊集合的隶属度的示意图;

图10为根据本发明实施例的使用N元关系模型表示模糊实例与模糊实例之间于模糊关系的隶属度的示意图;

图11为根据本发明实施例的带有隶属度和关系权重的模糊本体模型示意图;

图12为根据本发明实施例的带有隶属度和关系权重的模糊本体应用场景示意图;

图13为根据本发明实施例的疾病本体表示模型示意图;

图14为根据本发明实施例的案例相似度获取的具体流程图;

图15为根据本发明实施例的案例相似度获取的示例流程图;

图16为根据本发明实施例的案例知识表示及案例相似度获取系统框图;

图17为根据本发明实施例的年轻与年龄的梯形关系图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。

针对上述案例知识表示及案例相似度获取存在的问题,本发明通过引入N元关系模型、模糊隶属函数和关系权重以增强语义网标准表述语言的语义表示能力,进而根据增强表示能力后的语义网标准描述语言创建案例知识库,即建立统一的案例知识表示准则,在案例相似度获取过程中,基于案例知识库中的同一本体定义(即同一个案例知识表示模型或本体模型)来描述目标案例和源案例,进而根据关系权重获取源案例和目标案例的总体相似度,能够有效地对案例知识进行检索和组织,便于知识共享,提高目标案例推荐的速度和精度。

在案例推理过程中,主要包括以下两个核心的问题:

(1)案例表示:基于案例推理方法的效率和案例表示紧密相关。案例表示涉及的问题主要包括:选择哪些信息存放在一个案例中;如何选择合适的案例内容描述结构;案例库如何组织和索引。对于数量达到成千上万且内容十分复杂的案例,组织和索引问题就显得尤其重要。

(2)案例检索:利用检索信息从源案例库中检索并选择潜在可用的源案例是案例推理能否成功的一个前提,而案例检索是在案例相似比较的基础上实现的,因此对案例相似性度的度量十分重要。在对案例的表示过程中,案例的情境是由许多特征属性组成,案例间的相似度就是根据特征属性(或变量)集合之间的相似度进行度量获取的。一般而言,案例匹配不是精确的,只能是部分匹配或近似匹配。因此,它要求有一个相似度的评价标准。该标准定精确,会使得检索出的案例十分有用,否则会严重影响案例的推理过程。

在相同领域的案例知识表示中,均基于同一本体定义来描述案例知识,即源案例和目标案例知识描述中用到的概念、属性定义都是一样的。实际上,对于两个属于不同领域的异构本体进行概念、属性、实例的相似度比较是没有意义的。因此,本发明将相似度的比较限制为基于同一本体定义描述的案例知识的比较。

此外,在本发明中获取案例相似度的过程即为案例相似度推理的过程或 案例相似度的推理过程,这些概念在以下内容中均表示获取目标案例与源案例的相似度,并不做具体区分。

为了详细描述本发明提供的案例知识表示及案例相似度获取方法及系统,以下将结合附图对本发明的具体实施例进行详细描述。

图1示出了根据本发明实施例的案例知识库表示及案例相似度获取方法的流程图。

如图1所示,本发明提供的案例知识库表示及案例相似度获取方法包括增强语义网标准描述语言的语义表示能力、创建案例知识库和获取案例相似度;其中,案例知识库表示及案例相似度获取流程为:

S110:在语义网标准描述语言的基础上通过引入N元关系模型、模糊隶属函数和关系权重增强语义网标准描述语言的语义表示能力。

其中,增强语义网标准描述语言的语义表示能力,是指在语义网标准描述语言的基础上通过引入N(N-ary)元关系模型、模糊隶属函数和关系权重以增强语义网标准描述语言的语义表示能力,进而精确地描述案例知识;其中,引入N元关系模型用于表示在案例知识中存在的多元关系,该多元关系包括模糊隶属度和关系权重等;引入模糊隶属函数用于表示在案例知识中存在的模糊概念和模糊关系;引入关系权重用于表示案例知识中案例特征于案例的权重关系。

具体地,N元关系模型可以通过引入新类和相关属性来实现,新类支持有名类和无名类(即空节点);并通过N元关系模型描述案例知识表示中存在的多元关系;其中,N元关系模型包括有序模型、无序模型和混合模型,其中,N为不小于2的整数。

模糊隶属函数用于表示在案例知识中存在的模糊概念和模糊关系,通过语义网标准规则描述语言进行描述,并通过规则引擎触发规则执行以获取模糊隶属度;其中,模糊隶属度表示模糊实例隶属于模糊概念的程度以及模糊实例之间于模糊关系的关联程度。

在通过规则引擎触发规则执行以获取模糊隶属度的过程中,基于模糊实例提供的输入触发规则推理引擎执行描述模糊隶属函数的语义网规则以获取模糊隶属度,并通过N元关系模型表示所获取的模糊隶属度。

关系权重描述案例特征于案例之间的权重关系;其中,案例特征是指案 例中某个实例的数据类型属性和与该实例具有语义关系的所有实例。

在引入模糊隶属函数的过程中,使用语义网规则语言描述模糊隶属函数,模糊隶属函数包括三角型隶属函数、梯型隶属函数、左/右半梯型隶属函数、正态型隶属函数和柯西型隶属函数。

S120:基于增强后的语义网标准描述语言和增强机制创建案例知识库,其中,案例知识库包括案例知识表示模型、案例库、语义网规则库、基于语义网标准描述语言的推理机制,增强机制指在语义网标准描述语言的基础上引入的N元关系模型、模糊隶属函数和关系权重。

具体地,案例知识表示模型为本体模型,本体模型通过增强后的语义网标准描述语言进行创建,包括用于描述案例知识的概念、属性和相关约束;其中,概念和属性包含精确概念、精确属性、模糊概念和模糊属性。

案例库为源案例库,包括由本体模型描述的案例知识,换言之案例库中主要包括由本体模型描述的实际案例、实际案例及其属性以及实例与实例之间的语义关系,其中,每个案例均是由一个或多个实例、实例属性及实例与实例之间的语义关系构成的语义片段。在根据案例知识库中的源案例获取源案例与目标案例相似度的过程中,本体模型描述的实际案例即为源案例,通过相同的案例知识表示源案例与目标案例,获取源案例与目标案例的相似度,进而获取对目标案例的理解和解决方案。

语义网规则库包含基于语义网标准规则描述语言描述的模糊隶属函数、案例知识表示或用于案例相似度推理的相关规则,模糊隶属函数用于描述模糊概念和模糊关系。

基于语义网标准描述语言(增强后的语义网标准描述语言,下同)的推理机制包括:本体推理和规则推理;其中,本体推理为基于语义网本体描述语言中的语义组件进行的推理,规则推理为基于语义网规则进行的推理。其中,语义网标准描述语言包括语义网规则库中的语义网规则描述语言和语义网本体描述语言。在对目标案例进行推理时,可以通过推理机制将案例知识库中的相关知识表示与目标案例进行关联。

其中,推理机制是在获取案例相似度阶段,由源案例查询操作引发的动态推理,案例知识表示模型和案例库直接声明的是显式事实,规则引擎基于案例知识表示模型、案例库和语义网规则库推理得到的是隐含事实,显式事 实和隐含事实一起构成所述案例知识库,并提供源案例的查询。

S130:使用与表示案例库中的源案例相同的案例知识表示模型表示目标案例,并获取其与各源案例的案例相似度。

在对目标案例进行推理(即对目标案例进行相似度获取)时,可以通过推理机制将案例知识库中的相关知识表示与目标案例进行关联,获取目标案例与各源案例的案例相似度,进而确定相似度最高的源案例,并据此对目标案例进行相应的理解和处理。为了详细地描述本发明在语义网标准描述语言的基础上引入的N元关系模型、模糊隶属函数和关系权重,以下将对其进行分别阐述。

1、N-ary关系模型(N元关系模型,下同)

在本发明中N元关系模型的表示包括无顺序的N元关系模型(无序模型,下同)、有顺序的N元关系模型(有序模型,下同)和混合N元关系模型三种,以下对无序模型和有序模型进行分别描述。

1)、无顺序要求的N元关系模型 

在无顺序的N元关系中,实例和实例之间(或实例和数值之间)的关系是没有顺序要求的,即这些关系是彼此独立的,只用于强调这种关系的存在而这些关系之间没有先后顺序的要求。

例如,要表达疾病“糖尿病”表现为症状“消瘦”的概率为0.6,即疾病与症状之间的关系并不是所有情况下都存在,而是在60%的情况下,“糖尿病”表现为“消瘦”的症状。因此,需要对疾病与症状之间的关系附加一个概率信息,来表示症状与疾病之间的关联程度。本发明通过引入新类和相关属性实现基于语义网标准描述语言对该知识进行表示;其中,引入的新类包括有名资源、无名资源或空节点(以下主要以空节点为例,对本发明进行阐述)。

具体地,图3示出了根据本发明实施例的空节点引入前后RDF框架示意结构。如图3所示,在加入空节点(图中没有内容的空椭圆所示)前后的表示形式(采用RDF框架的图形表示模式)中,实线椭圆表示概念,虚线椭圆表示实例,矩形框表示数据类型属性对应的字面值(literal),ex表示本体名称空间(下同)。因为无名空节点只起连接作用,不需要从外部进行访问,所以并不需要指定其ID。但根据具体需要,也可为该空节点指定类型以及可访问的ID。其中,RDF(Resource Description Framework,用于描述Web资源 的标记语言)框架也可称为RDF语义片段或RDF子图,以下对此类概念不做具体地区分。

图3仅示出了N元关系模型中存在两个实例的情况,更普遍和复杂的情况是,N元关系由多个实例构成,实例本身还包含多个特征。比如,个性化推荐中的用户兴趣模型,包含用户的基本特征(年龄、性别等)、明确表明的兴趣、通过购买或阅读行为收集到的兴趣、关注的他人所具有的兴趣;又比如疾病处方,应该是针对具有某些疾病特征、个体特征情况下的个性化的处方等。其中,图4示出了根据本发明实施例的使用N元关系(N元关系模型)表示处方案例知识的示意结构。

如图4所示,通过引入空节点使处方案例通过多元关系模型进行表示,进而建立疾病特征、个体特征等情况下的个性化处方。

上述可知,无顺序要求的N元关系模型,可以通过一个具有代表性的RDF框架进行表示。图5示出了根据本发明实施例的无顺序要求的N元语义关系模型(即基于语义网标准描述语言的N元关系表示模型)。

如图5所示,其中,实线椭圆表示概念类,虚线椭圆表示实例,矩形框表示数据类型属性对应的字面值,无任何标记的空椭圆表示用于实现多元关系的空节点(bnode)。关系ex:p1、ex:p3、ex:p4构成一个多元关系,关系ex:p2、ex:p5、ex:p6构成一个多元关系,这些多元关系共同构成更为复杂的多元关系。

采用Turtle表示语法对图5所示的无顺序要求的N元语义关系模型的RDF框架进行表示如下所示:

2)、有顺序要求的N元关系模型 

在顺序要求的N元关系模型中,实例与实例之间的关系是有顺序要求的。例如,要描述一个任务中的各个步骤的执行顺序、描述临床路径中的诊疗处方的执行步骤等都是有先后顺序要求的。作为示例,图6示出了根据本发明实施例的使用N元关系模型表示临床路径案例知识的示意结构。

同理,有顺序要求的N元关系模型,也可以通过一个具有代表性的RDF框架进行表示。其中,图7示出了根据本发明实施例的有顺序要求的N元语义关系模型。

如图7所示,ex:C2的ex:next属性表明了实例之间的顺序关系;ex:C3为ex:C2的一个特定子类,可以通过对属性ex:next添加了一个最大值为0的基数约束,来表明步骤的结束。

采用Turtle表示语法对图7所示的有顺序要求的N元语义关系模型的RDF框架进行表示如下所示:

2、模糊隶属函数的表示

由于大量不确定性和模糊性信息无法通过明确的语义描述方法来定义,在本体论中引入了模糊理论,提出了模糊本体(fuzzy ontology)的概念,通过引入隶属函数来表示模糊实例于模糊概念的隶属度,但现有的方法并没有给出如果在本体知识库中使用标准的语义Web技术(指RDF、RDF Schema、OWL、SWRL等语义Web技术相关的W3C规范,下同)来表示隶属函数,以实现在本体知识库更新时,自动计算并添加或调整模糊隶属度;也没有给 出计算出的模糊隶属度如何利用标准的语义Web技术表示到本体知识库中。

在本发明提供的案例知识表示中,在本体知识表示时,通过使用标准的语义网描述语言(语义网标准描述语言)来表示模糊隶属函数,以实现在本体知识库更新时,自动获取并添加、调整模糊隶属度。例如,在经典集合理论中,元素明确地属于某个集合或不属于某个集合,比如:“30岁”、“教授”等集合。而在模糊集合理论中,模糊集中对应的元素并非是绝对属于某个集合,而是以不同程度属于或不属于该集合,比如:“年轻”、“发烧”、“高血压”等集合。

在模糊集合理论中,元素以一定程度属于某个集合,采用模糊集合理论描述模糊事物时,模糊集合的定义如下:

模糊集合为:论域U上的模糊子集(简称模糊集)A,满足模糊子集A对应一个确定值μA(u)∈[0,1],μA(u)表示u属于A的程度。映射μA

μA:U→[0,1]

u→μA(u)∈[0,1]

称为A的隶属函数,即常数μA(u)表示论域U中元素u对模糊集A的隶属程度(即隶属度)。

其中,论域U上的模糊集A由隶属函数μA(u)表征,μA(u)在[0,1]闭区间的取值大小表示了u对于模糊集A的隶属程度,μA(u)取值越接近1,u从属于A的程度越大;μA(u)取值越接近于0,则u从属于A的程度越小。当μA(u)的取值为{0,1}时,集合A就是一个精确集。

对于论域U上的模糊集A,要反映出每个元素u对模糊集A的隶属度μA(u),可以采用Zadeh法、向量法、序偶法、单点法以及隶属函数法等描述方法表示,其中隶属函数法适合于描述论域U为实数集的模糊集。

普通关系是描述事物之间明确“存在”或“不存在”某种关系或关联,而模糊关系从普通关系扩展而来,是描述事物之间存在着各种程度的相关关系,如“相似程度”、“关联程度”等关系。普通关系和模糊关系两者主要区别在于:元素之间的模糊关系的子集如同模糊集一样,需要通过特征函数和隶属函数来描述元素之间的相关程度。

作为示例,假设论域U和V,U到V存在普通关系R,记为则 和两个论域元素之间的关系有两种状态:存在关系和不存在关系。存在关系R则记为uRv,不存在关系R则记为

论域U和V两个论域元素之间的普通关系是笛卡尔积U×V的子集。论域U和V两个论域元素之间除了明确的“存在”或“不存在”关系外,还存在如“关联程度”、“相似程度”等模糊关系,这些模糊关系为笛卡尔积U×V的子集。

模糊关系定义如下所示:

模糊关系:论域U到论域V的模糊关系R’是笛卡尔积U×V={(u,v)u∈U,v∈V}的一个模糊子集,隶属度μR′(u,v)描述了u与v之间关于模糊关系R’的相关程度:

μR′(u,v):U×V→[0,1]

U×V→μR′(u,v)∈[0,1]u∈U,v∈V

利用模糊理论处理模糊信息,首要任务就是定义隶属函数。常用的论域为实数集的模糊集隶属函数有三角型隶属函数(Triangular Function)、梯型隶属函数(Trapezoidal Function)、左半梯型隶属函数(Left Semi-Trapezoidal Function)、右半梯型隶属函数(Right Semi-Trapezoidal Function)、正态型隶属函数和柯西型隶属函数等。

例如,要表达“年轻人”这个模糊概念,可以使用如下的梯形隶属函数进行表示:

其中,梯形函数公式表示为:

μYoung(Age)=(Age-12)/(18-12)if12<=Age<=181if18<Age<=30(45-Age)/(45-30)if30<Age<=450ifAge<12OrAge>45

图17示出了根据本发明实施例的年轻与年龄的梯形关系图,该图与上述梯形函数公式相对应。

本发明通过标准的语义Web(语义网)规则语言(SWRL)对上述的模糊隶属函数进行描述,并通过规则推理引擎来执行模糊隶属函数的计算进而获取对应的模糊隶属度。以下使用Jena(jena.apache.org)对SWRL的实现语法表 示上述的模糊隶属函数:

[r1:(?person ex:has_age?age),

  lessThan(?age,"12"^^xsd:integer)-> 

  (?person ex:has_age_group?age_group),

  (?age_group rdf:type ex:Young),

  (?age_group ex:has_membership,"0"^^xsd:float)]

[r2:(?person ex:has_age?age),

  ge(?age,"12"^^xsd:integer),

  le(?age,"18"^^xsd:integer),

  difference(?age,"12"^^xsd:integer,?c),

  quotient(?c,"6"^^xsd:integer,?d)->

  (?person ex:has_age_group?age_group),

  (?age_group rdf:type ex:Young),

  (?age_group ex:has_membership,?d)]

[r3:(?person ex:has_age?age),

  greaterThan(?age,"18"^^xsd:integer),

  le(?age,"30"^^xsd:integer)-> 

  (?person ex:has_age_group?age_group),

  (?age_group rdf:type ex:Young),

  (?age_group ex:has_membership,"1"^^xsd:float)]

[r4:(?person ex:has_age?age),

  greaterThan(?age,"30"^^xsd:integer),

  le(?age,"45"^^xsd:integer),

  difference("45"^^xsd:integer,?age,?c),

  quotient(?c,"15"^^xsd:integer,?d)->

  (?person ex:has_age_group?age_group),

  (?age_group rdf:type ex:Young),

  (?age_group ex:has_membership,?d)]

[r5:(?person ex:has_age?age),

  greaterThan(?age,"45"^^xsd:integer)-> 

  (?person ex:has_age_group?age_group),

  (?age_group rdf:type ex:Young),

  (?age_group ex:has_membership,"0"^^xsd:float)]

通过上面的5条规则便可以完成基于标准的语义Web规则语言对模糊隶属函数的知识表示。

3、模糊隶属度的表示

无论是实例于模糊集的隶属度,还是实例之间于模糊关系的隶属度,均可以采用上述的N-ary语义关系模型进行表示,方法是相同的。

例如,通过规则推理引擎来执行对模糊隶属函数的求解获取模糊隶属度,得到实例ex:I1和实例ex:I2于模糊集ex:c的隶属度分别为0.8和0.6。具体地,图8示出了根据本发明实施例的模糊实例于模糊集合的隶属度示意结构。如图8所示,实例ex:I1于模糊集ex:c的隶属度为0.8,实例ex:I2于模糊集ex:c的隶属度为0.6。

为了使用标准的语义Web描述语言(即语义网标准描述语言)来描述实 例于模糊集的隶属度,根据本发明创建的N元关系描述模型,在模糊集和实例之间增加空节点,建立空节点和模糊集、实例和隶属度之间的多元关系,实现基于标准的语义网描述语言来描述实例于模糊集的隶属度。

具体地,图9示出了根据本发明实施例的使用N元关系模型表示模糊实例于模糊集合的隶属度,如图9所示,通过空节点的引入,该实例于模糊集合的隶属度的RDF框架可以通过N元语义关系模型进行表示。

此外,实例于实例之间于模糊关系的隶属度也可以通过标准的语义Web描述语言进行表示,其中,图10示出了根据本发明实施例的使用N元关系模型表示模糊实例与模糊实例之间于模糊关系的隶属度;如图10所示,模糊实例ex:I1与模糊实例ex:I2分别在关系ex:p1和ex:p2上的模糊隶属度均可以通过标准的语义Web描述语言进行表示。

4、关系权重的表示

在案例知识的表示中,除了精确关系、带隶属度的模糊关系以外,案例特征于案例之间还存在一定的权重关系,该权重关系在案例相似度推理中用于获取总体相似度,因此,在本发明中的案例知识表示模型中引入关系权重的概念,并通过N元关系模型对该关系权重进行表示。例如,在疾病诊疗案例知识库中,每个案例包含个体基本特征(性别、年龄、个人病史、个人过敏史、家族病史、家族过敏史等)、个体疾病表征(症状、体征)、诊断疾病(如糖尿病、甲亢)等信息。从疾病诊断的角度,个体基本特征、个体疾病表征于诊断结论之间的因果关系或重要程度,就是此处所说的特征权重(即关系权重,下同)。同样,在个性化推荐中的用户模型中,各个兴趣特征于用户的总体兴趣倾向的权重也是不一样的。某个实例的特征权重是相对于该实例的所有特征比较而言的。

具体地,图11示出了根据本发明实施例的带有隶属度和关系权重的模糊本体模型示意结构,如图11所示,通过引入空节点,关系权重的表示和隶属度的表示方法是相类似。

以疾病诱因和疾病症状于疾病的关系为例,分别对这两种关系的隶属度和关系权重进行表示。具体地,图12示出了根据本发明实施例的带有隶属度和关系权重的模糊本体应用场景示意结构。

此外,需要说明的是,除了案例知识表示模型、案例库和语义网规则库 外,知识库中还包括基于语义网标准描述语言的推理机制,该推理机制包括:本体推理和规则推理;其中,本体推理为基于语义网本体描述语言中的语义组件进行的推理,由显式事实推理出蕴含的事实;规则推理为基于语义网规则进行的推理,由足规则体的显式事实推理出规则头描述的蕴含事实。

在对目标案例进行案例推理时,通过推理机制将案例知识库中的相关知识表示与目标案例进行关联;进而通过案例知识库中的同一本体定义分别对案例库中的源案例和目标案例进行表示,建立目标案例和源案例相似度推理的一个前提条件。

在案例知识库创建完成之后,即可实现以该建立的案例知识库为基准对目标案例进行相似度推理,进而通过对案例知识库中的源案例的解决方案的适当调整,提出对当前问题的理解或解决方案。

步骤S130获取案例相似度的具体过程(即获取案例相似度阶段)包括:

首先,使用与案例库中的源案例相同的案例知识表示模型表示目标案例;获取案例库中的所有源案例,并分别与目标案例进行相似度比较;其中,如果源案例和目标案例具有公共父类的实例对,则分别获取实例对在实例类型、数据类型属性及对象属性上的相似度;

其次,通过将实例对在实例类型、数据类型属性及对象属性上的相似度以迭加权重进行迭加,获取实例对的总体相似度;其中,在实例对中的实例为模糊实例时,通过将迭加权重乘以模糊实例于模糊类型的隶属度,获取新的迭加权重,进而获取模糊实例在模糊类型上的相似度;通过将迭加权重乘以模糊实例与模糊实例在模糊关系上的隶属度,获取新的迭加权重,进而获取模糊实例在模糊关系上的相似度;

需说明的是,在实例对中的实例为模糊实例时,与模糊实例对应的实例类型即为模糊类型。模糊实例对的相似度获取与普通的实例对的相似度获取方法类似,只需在以迭加权重进行各相似度的迭加时引入模糊隶属度即可。

最后,将所有实例对的总体相似度以关系权重进行迭加,获取目标案例与源案例的总体相似度。

以下将通过示例对获取案例相似度阶段进行详细描述。

在基于语义网来表示案例知识的情况下,案例检索问题就转换为了本体相似度(Ontology Similarity)求解问题。本体相似度的求解需要基于本体中 各个对象的相似度的求解。按照比较对象所在的本体,相似度比较可以分为同一本体中两个对象之间的相似度比较和不同本体中两个对象之间的相似度比较。按照比较对象的类型分,可以分为概念相似度、属性相似度和实例相似度。相似度计算方法目前主要有基于WordNet同义词集的概念相关度、基于WordNet语义词典的概念语义相似度、基于距离的概念相似度、概念名称相似度、概念结构相似度、概念属性的相似度、概念实例的相似度、概念深度以及综合相似度。

本发明提供的案例知识库表示及案例相似度获取方法,在对案例进行相似度推理时,默认满足以下约束条件:

1)、源案例和目标案例都基于同一本体定义来描述,以保证案例比较的可行性和比较结果的可用性;换言之,使用与表示案例库中的源案例相同的案例知识表示模型表示目标案例。

2)、案例库中的案例具有明确而唯一的类别,因为对不同类型的案例进行比较是毫无意义的。以医疗健康为例,案例库可以分为疾病诊断案例库、疾病治疗处方案例库、疾病临床路径案例库、个性化干预方案案例库等,在进行目标案例与源案例相似度比较过程中,针对的均是同一类型的案例。

此外,源案例和目标案例都仅包含实例、实例特征和实例关系的描述,案例相似度比较本质上就是对源和目标案例中具有相同类型(具有公共父类,owl:Thing除外)的实例进行基于其语义上下文(即实例特征,包括实例的数据类型属性、实例的对象关系属性)的相似度比较。对于实例对象属性的比较,有如下要求:

3)、只对对象属性进行一阶扩展,以避免循环计算。即仅对以该实例为主体的直接相连的对象实例进行比较。实际上,距离主体实例越远的实例,在语义相关性上也就越弱,需要结合计算复杂度和需求进行综合考虑。

同一实例可以具有多种类型,比如“高血压”既可以表示一种疾病,也可以表示一种症状,同时还可能是其他疾病的一种诱因或者风险因素。当实例具有不同的类型时,有如下限制:

4)、在相似度比较过程中,因为对不同类型的实例进行比较是毫无意义的,只针对源案例和目标案例中具有除owl:Thing外的公共父类的实例进行相似度比较。

在案例相似度推理过程中,假定已满足下述两个条件:

(1)已剔除源案例和目标案例中与相似度计算无关的实例特征,其中,这些无关特征对案例相似度没有贡献或影响。

(2)有依赖关系的实例特征子集均满足依赖关系。

具体地,图2示出了根据本发明实施例的案例相似度获取流程,如图2所示的获取案例相似度步骤S230包括以下具体流程:

S131:使用与表示案例库中的源案例相同的案例知识表示模型表示目标案例,即使用案例知识库中的本体模型对目标案例进行表示。

一般在相同领域的案例知识表示中,对案例知识的描述均是基于同一本体定义的,即源案例和目标案例知识描述中用到的概念、属性定义均是一样的。其中,对于两个属于不同领域的异构本体进行概念、属性、实例的相似度比较是没有意义的。因此,本发明将相似度的比较限制为基于同一本体定义描述的案例知识的比较。针对这一限定条件,在本发明提供的案例相似度推理的过程中,首先基于建立的案例知识库中的案例知识表示模型,对目标案例进行表示,以满足目标案例与源案例进行相似度判断的一个前提。换言之源案例和目标案例都基于同一本体定义来描述,以保证案例比较的可行性和比较结果的可用性。

S132:获取案例库中的所有源案例,并分别与目标案例进行相似度比较;其中,如果源案例和目标案例具有公共父类的实例对,则分别获取实例对在实例类型、数据类型属性及对象属性上的相似度。

具体地,以下对实例对在实例类型、数据类型属性及对象属性上的相似度获取进行分别描述。

1、实例类型相似度的获取

当实例i1和实例i2具有除owl:Thing以外的公共父类时,记实例i1和实例i2的实例类型分别为t1和t2,t1和t2的公共类型为t,那么实例i1和实例i2在该组类型上相似度的计算公式如下:

其中,N1和N2分别表示实例i1和实例i2到其最近的公共父节点ex:C3 的距离,N3表示ex:C3到除owl:Thing以外的根节点的距离。ex表示本体名称空间的缩写,Simtype表示实例对在类型上的相似度。

实例类型相似度,即实例对在同一公共类型上的相似度,例如:1型糖尿病(实例)和2型糖尿病(实例)的公共父节点为糖尿病,则1型糖尿病和2型糖尿病在糖尿病类型上的相似度,即为该实例对的实例类型相似度(或类型相似度)。

针对上述公式(1),需要说明的是:

1)、当实例i1和i2被明确声明为owl:differentFrom关系或者实例i1和i2共同的父节点为owl:Thing时,其相似度为0,这时不需再对实例的数据类型属性和对象属性进行比较;

2)、当实例i1和i2的ID相同或者被明确声明为owl:sameAs时,它们之间的相似度为1,这时也不需再对实例的数据类型属性和对象属性进行比较;

3)、当实例i1和i2有除owl:Thing以外的公共父类时,采用基于网络路径的方法来获取其相似度。通过概念相对应的节点之间的距离进行表示,路径越短,概念之间越相似,这种简单的边计数方法是在假定边距离统一的情况下(例如每条边的路径距离均为1),这时其相似度计算公式如上述公式(1)所示。在网络图中,不再区分节点为实例还是类,都看作节点来进行处理。

作为示例,图13示出了根据本发明实施例的疾病本体表示模型。如图13所示,节点“ex:1型糖尿病”和节点“ex:2型糖尿病”的公共父节点为“ex:糖尿病”,也即N1和N2的值均为1;加点“ex:糖尿病”到根节点“ex:疾病”的距离为2。

根据公式(1)可知,“ex:1型糖尿病”和“ex:2型糖尿病”的实例类型相似度为:

节点“ex:1型糖尿病”和节点“ex:甲状腺机能亢进”的公共父节点为“ex:内分泌疾病”,N1和N2的值均为2;节点“ex:内分泌疾病”到根节点“ex:疾病”的距离为1。

根据公式(1)可知,“ex:1型糖尿病”和“ex:甲状腺机能亢进”的实例类型相似度为:

2、实例对在数据类型属性上的相似度获取

当实例对的实例类型相似度大于0时,继续进行实例对在数据类型属性特征的相似度比较。

设实例i1和实例i2在数据类型属性上的相似度记作:Simdp(i1,i2),其中,0≤Simdp(i1,i2)≤1。

记DP1和DP2分别表示实例i1和实例i2具有值的数据类型属性集:

DP1={d1j|1≤j<<p}

DP2={d2k|1≤k<<q}

记V1j、V2J分别表示属性d1j、d2k对应的取值。

需要说明的是:

(1)、若d1j=d2k(表示实例的属性ID相等,即属于同一属性),则实例i1和实例i2在数据类型属性d1j(或d2k)上的相似度记为则:

Simdij(vij,v2k)=fdij(vij,v2k)

其中,表示对实例i1和实例i2在属性d1j上的取值进行基于属性d1j语义的相似度比较函数。本体中的每个数据类型属性都对应一个这样相似度比较函数。该函数的表示和取值范围需要基于特定的业务领域和具体的语义,比如,张三的年龄为15岁,李四的年龄为30岁,如果从基于案例推理的疾病诊断来说,可能年龄于某种疾病的诊断并不是一个输入因素,那么就可以认为他们在年龄上的相似度为1,但如果从基于案例推理的个性化推荐的角度来说,年龄于某种商品(比如玩具、书籍)的关联度可能会很大,不同年龄段的人对某类商品的关注度会有很大的差异,这时的相似度可能会很低。在一般情况下,可以使用如下公式来计算数值型特征值的相似度:

fd1j(v1j,v2k)=1-|v1j-v2k||b-a|

其中,a≤v≤b,表示v在属性d1j的基于语义的取值范围。

记满足该条件的属性构成的属性集为DP,即DP为DP1和DP2属性集的交集:

DP={dr|0≤r≤z,z≤min(p,q)}

进一步地,实例i1和实例i2在属性dr上的相似度可以记为

(2)、若或则实例i1和实例i2在属性d1j或d2k上的相似度为0(这里采用封闭世界假设:close world assumption)。

(3)、通过对所有有值属性的比较,可以得到实例i1和实例i2在数据类型属性上的总体相似度:

Simdp(i1,i2)=Σr=1zβrSimdr(v1r,v2r)---(2)

其中,βr>0,β12+…+βz=1,系数βr为实例i1和i2在相同属性dr上于实例i1和i2在数据类型属性上的相似度的贡献权值。

针对上述公式(2)需要说明的是:

1)、当实例i1或实例i2没有对应的可比较的属性的时候,根据语义Web的开放世界假设(open world assumption),这时在该属性上的相似度比较结果应该为1。由于语义Web的知识模型本质上是分布式的,所以OWL采用了开放世界假设。开放世界假设规定,一条陈述是否为真和是否知道这条陈述为真是无关的。换句话说,如果没有明确地知道一条陈述是否为真,则并不意味着该陈述一定为假。传统的关系数据库就是一种封闭世界假设,假设关系数据库中存储了XXX超市的客户信息,由于Customer表中没有张三的记录,所以意味着张三不是XXX超市的客户。这是因为数据库假设自己表示的是一个完备的知识模型,没有在数据库中存储的信息就与之无关。在这个例子中,系统是基于范围受限(封闭)的世界假设的。而在语义Web上,如果描述张三为XXX超市的客户的陈述不存在,则并不能说明他不是该超市的客户。同样,不能因为源案例或者目标案例没有提供某个属性特征,就认为它不具备这个特征,在无法进行对比的情况下,基于语义Web的开放世界假设,只能认为它们的相似性为1。

这时,实例i1或实例i2在数据类型属性上的相似度计算公式可以通过下属公式表示:

Simdp(i1,i2)=(p-z)+Σr=1zβrSimdr(v1r,v2r)+(q-z)p+q

当z为0时,表示实例i1或实例i2没有相同的数据类型属性。根据语义Web的开放世界假设,这时,只能认为它们在数据类型属性上的相似度为1。

但考虑到实际应用的场景,这里没有采用开放世界假设,而是采用了传统的封闭世界假设。当z不为0的时候,也可以考虑采用开放世界假设。

2)、由于一个实例可能有多个属性,每个属性对实例的描述程度和作用也各不相同。如果每个属性都考虑,则计算量会大大增加。所以在计算属性相似度时,可以先依据机器学习方法计算出属性的信息增益,并以此为依据来确定各个属性的优先级。最后,只选取几个信息增益大的属性进行相似度的计算,这样可以减少计算量。

3、实例对在对象属性上的相似度获取

当实例类型的相似度大于0时,也需要继续进行实例在对象属性上的特征相似度比较。由于实例对象属性关联的客体仍为实例,所以对于实例i1和实例i2在相同对象属性上的客体的相似度的比较可以基于以上的实例类型相似度和数据类型属性相似度来进行比较。

实例i1和实例i2在对象属性上的相似度记作:Simop(i1,i2),其中,0≤Simop(i1,i2)≤1。

记OP1和OP2分别表示实例i1和实例i2具有值的对属性集:

OP1={o1j|1≤j<<p}

OP2={o2k|1≤k<<q}

实例i1作为主体(Subject)的对象类型属性o1j(1≤j≤p)对应的客体(Object)实例记为io1,实例i2作为Subject的对象类型属性o2k(1≤k≤q)对应的Object实例记为io2k

1、若o1j=o2k,则实例i1和实例i2在对象属性o1j(或o2k)上的客体的相似度记为记满足该条件的对象属性构成的属性集为OP,即OP为OP1和OP2属性集的交集:

OP={or|0≤r≤z,z≤min(p,q)}

进一步地,实例i1和实例i2在对象属性or上的客体的相似度可以记为 Simor(io1r,io2r).

2、若或则实例i1和实例i2在对象属性o1j或o2k上的客体的相似度为0(仍然采用封闭世界假设)。

3、通过对实例i1和实例i2在所有相同对象属性上的相似度比较,从而可以获取实例i1和实例i2在对象属性上的相似度,如下所示:

Simop(i1,i2)=Σr=1zγzSimor(io1r,io2r)

其中,γz>0,γ12+…+γz=1,系数γr为实例i1和实例i2在相同对象属性or上于实例or在对象类型属性上的相似度的贡献权值。

此外,如果采用语义Web的开放世界假设,实例在对象属性上的相似度获取可以参考数据类型属性相似度计算部分的说明。

S133:通过将实例对在实例类型、数据类型属性及对象属性上的相似度以迭加权重进行迭加,获取实例对的总体相似度;其中,在实例为模糊实例时,通过将迭加权重乘以模糊实例于模糊类型的隶属度,获取模糊实例在模糊类型上的相似度计算;通过将迭加权重乘以模糊实例与模糊实例在模糊关系上的隶属度,获取模糊实例在模糊关系上的相似度。

具体地,在对实例i1和实例i2进行以上各相似度的获取后,可以通过加权运算得到实例i1和实例i2的综合相似度。

sigmoid函数作为一个良好的阈值函数,具有平滑且连续的性质,可以用来获取实例i1和实例i2的在类型、数据类型属性及对象属性上的总体相似度,该函数使权值的选取与各种方法得到的相似度值紧密地联系起来,避免了用户手工选取权值所带来的一些缺陷。本发明采用的sigmoid函数的形式为:

f(x)=11+e-8(x-0.5)

其中0≤x≤1,x表示以上三种类型的相似度计算得到的相似度值,f(x)为各相似度所对应的初始权值,分别设为θ1、θ2、θ3

通过如下的公式可以得到实例i1和实例i2在公共类型为t时的综合(总体)相似度:

Simt(i1,i2)=θ1θ1+θ2+θ3Simtype(i1,i2)+θ1θ1+θ2+θ3Simdp(i1,i2)

+θ1θ1+θ2+θ3Simop(i1,i2)

由于一个实例可能同时具有多个类型,比如,“高血压”既可以表示一种疾病,也可以表示一种症状,同时还可能是其他疾病的一种诱因或者风险因素。这时,分别对i1和实例i2具有公共父类的各组类型进行相似度的比较,然后计算i1和实例i2的最终相似度。假设实例i1和实例i2有z个公共的父类,那么i1和实例i2的最终相似度使用如下公式表示:

Simset(i1,i2)=Σr=1zαrSimr(t1,t2)

其中,αr>0,α12+…+αz=1

说明:系数αr表示i1和实例i2在不同公共类型情况下得到的综合相似度于i1和实例i2在最终相似度上的贡献权值。

S134:将所有实例对的总体相似度以关系权重进行迭加,获取目标案例与源案例的总体相似度。

具体地,记源案例为C1,目标案例为C2,I1和I2分别表示源案例为C1和目标案例为C2包含的实例集合,I1和I2分别表示I1和I2中具有公共父类的实例的集合,即

I1={i1j|1≤j≤m}

I2={i2k|1≤k≤m}

I1′={i1j′|1≤j≤z}

I2′={i2k′|1≤k≤z}

其中,m和n分别表示实例集合I1和I2中的实例的个数,z≠0,则源案例为C1与目标案例为C2的总体相似度为:

Sim(C1,C2)=Σr=1zωrSimset(i1r,i2r)

其中,ωr为可调的关系权重,ωr>0,ω12+…+ωz=1,Simset表示实例对的总体相似度。

需要说明的是,在实例对中的实例为模糊实例时,需通过将迭加权重(或关系权重)与模糊实例于模糊类型的隶属度相乘,获取新的迭加权重,进而获取模糊实例在模糊类型上的相似度;通过将迭加权重与模糊实例与模糊实例在模糊关系上的隶属度相乘,获取新的迭加权重,进而获取模糊实例在模糊关系上的相似度;进而获取最终的案例相似度。换言之,在上述各类型的相似度获取过程中,若实例为模糊实例,在获取各相似度时,需在原迭加权重的基础上乘以对应的模糊隶属,进而获取基于模糊实例的相似度,能够提高案例推理的准确程度。

针对上述案例相似度的获取过程,图14示出了根据本发明实施例的案例相似度获取的具体流程。

如图14所示,本发明提供的案例相似度获取过程包括:

分别获取源案例的实例集合(步骤S301)和目标案例的实例集合(步骤S302):

S303:获取源案例和目标案例中除owl:Thing外的具有公共父类的实例对的集合;

S304:判断该实例对的集合是否为空,如果是,则说明集合为空,实例对的相似度为零,执行步骤S312结束;否则,执行步骤S305;

S305:循环处理实例对集合中的每一对实例,分别计算其在类型、数据类型属性和对象属性上的相似度;

S306:当实例对具有多种类型的公共父类时,循环进行每种实例类型的相似度比较,(即循环执行步骤S306-S310-S305-S306);

S307:获取实例对的实例类型相似度;

S308:获取实例对的数据类型属性总体相似度;

S309:获取实例对的对象属性总体相似度;

S310:获取实例对在类型、数据类型属性及对象属性上的总体相似度;

S311:通过将类型、数据类型属性及对象属性上的总体相似度按照关系权重进行迭加,获取源案例与目标案例的总体相似度。

S312:案例相似度获取过程结束。

以下通过具体示例对发明提供的案例知识库表示及案例相似度获取方法进行进一步地阐述。具体地,案例知识库表示及案例相似度推理流程包括:

1、确定目标处方

目标案例包括患者的个人就诊记录,患者的个人就诊记录主要包括:诊断流水号、入院时间、入院诊断、出院时间、出院诊断、个体的性别和年龄特征。如下表(表1和表2)患者就诊记录所示。

表1(入院和出院诊断)

表2(个体特征)

患者的诊断处方记录如下表(表3)所示,主要包括处方项目编号和名称等信息。

表3

2、建立处方知识库

对疾病处方基于N-ary关系建立处方案例知识库,处方库以及目标处方中的疾病、处方项目等都有统一而且唯一的编码规则,即实例ID都有唯一的编码,通过设置编码,能够提高案例相似度比较的速度和准确程度。

在处方知识库中个,按照疾病特征、个体特征组织处方。疾病特征包括入院诊断和出院诊断,个体特征包括性别和年龄段,其中年龄段分为童年、少年、青年、中年和老年五个段,定义为五个实例,通过规则来描述实际年龄映射的年龄段。

处方项目与处方之间的关系是一种模糊关系,具有关系隶属度(这里称为使用度),并采用N元关系模型进行表示。

3、案例知识库查询和相似度获取

这里的应用场景是比较目标处方和处方库中对应疾病特征、个体特征的处方,计算其总体相似度。

具体地,图15示出了根据本发明实施例的案例相似度获取流程,如图15所示,案例总体相似度的获取流程包括:

本体推理:基于目标处方(患者处方)和处方本体库,对目标处方进行本体推理,通过语义网本体描述语言中的语义组件由目标处方中显式事实推理出其蕴含的事实,即获取针对患者处方的患者处方’,并确定处方本体库’。

规则推理:基于患者处方’、推理规则(语义网规则)和处方本体库’进行规则推理,由满足规则体的显式事实推理出规则头描述的蕴含事实,确定处方本体库”。

图模式匹配和筛选:根据确定的处方本体库”,通过SPARQL(Simple Protocol and RDF Query Language,一种查询语言和数据获取协议)图模式匹 配和筛选,获取患者处方与处方本体库中的源处方的相似度,并输出。

具体地,首先,基于目标处方中的患者的疾病特征和个体特征定位到处方知识库中的处方,并获取源处方案例中的所有处方项目;然后,对源和目标处方中的处方项目基于实例ID进行比较,如果相同,获取该处方项目的使用度(相似度),如下表(表4)所示。

表4(处方项目使用度)

其中,处方项目于疾病的相似度基于如下规则推理得到:

#Medicine rule file

@prefix medicine:<http://www.neusoft.com/ontologies/2014/8/medicine#>. 

@prefix xsd:<http://www.w3.org/2001/XMLSchema#>.

@include<RDFS>

#0<=usage<10%,低相关

[r1:(?s medicine:healthcare_services.has_usage_rate?v),

  ge(?v,"0.00"^^xsd:float),

  lessThan(?v,"0.10"^^xsd:float)->

  (?s medicine:healthcare_services.has_relevance medicine:low_relevance)] 

#10%<=usage<50%,中相关

[r2:(?s medicine:healthcare_services.has_usage_rate?v),

  ge(?v,"0.10"^^xsd:float),

  lessThan(?v,"0.50"^^xsd:float)->

  (?s medicine:healthcare_services.has_relevance medicine:medium_relevance)] 

#50%<=usage<=100%,中相关

[r3:(?s medicine:healthcare_services.has_usage_rate?v),

  ge(?v,"0.50"^^xsd:float),

  le(?v,"1.00"^^xsd:float)->

  (?s medicine:healthcare_services.has_relevance medicine:high_relevance)] 

源处方(患者处方)和目标处方中的疾病特征、个体特征和处方项目都具有统一且唯一的ID,基于疾病特征和个体特征匹配源处方案例是相似度匹配的先决条件,不参与总体符合度的计算。而处方项目是基于唯一性的ID进行匹配的,如果一样,相似度为1,如果没有匹配的,相似度为0。

假设有z个处方项目匹配上了,总体符合度计算如下:

Sim(P1,P2)=Σr=1zμr(ir,jr)z

其中,μr表示权重,这里取处方项目的使用度,ir表示源处方中的处方项目,jr表示目标处方中的处方项目,一旦两者的ID相匹配,相似度即取1。

最终得到目标处方的总体符合度如下表(表5)所示:

表5

根据总体相似度匹配结果,即可根据与其相似度最高的源处方,并做适当修改,作为目标处方是一个解决方案。

本发明提供的案例知识表示及案例相似度获取方法,通过引入空节点在案例知识表示模型中创建N元关系模型,并通过N元关系模型描述模糊隶属度及关系权重,有利于案例知识的组织、检索以及知识的共享;同时,在基于创建的案例知识进行案例推理时,能够提高案例的推理速度及精度。

与上述方法相对应,本发明还提供一种案例知识表示及案例相似度获取系统。其中,图16示出了根据本发明实施例的案例知识表示及案例相似度获取系统结构。

如图16所示,本发明提供的案例知识表示及案例相似度获取系统包括案例知识库创建单元410和相似度获取单元420,分别用于创建案例知识库及根据创建的案例知识库进行案例相似度的推理;其中,

知识库创建单元410包括:

案例知识表示模型创建模块411(即本体创建模块),通过引入新类和相关属性使用语义网本体描述语言创建N元关系模型,新类支持有名类和无名类;并通过N元关系模型描述案例知识中存在的多元关系,多元关系包括模糊隶属度和关系权重;其中,关系权重描述案例特征与案例之间的权重关系。

其中,案例知识表示模型创建模块411还可以包括:

新类引入模块4111,用于引入新类和相关属性,使语义网本体描述语言支持N元关系模型的描述;所述新类支持有名类和无名类;其中,所述N元关系模型包括有序模型、无序模型和混合模型。

多元关系描述模块4112,用于通过N元关系模型描述案例知识表示模型中的模糊隶属度和关系权重;其中,关系权重用于描述案例特征与案例之间的权重关系,案例特征指案例中某个实例的数据类型属性和与该实例具有语义关系的所有实例。

案例库创建模块412,基于案例知识表示模型创建的案例知识创建案例库;其中,案例库中的每个案例均为由一个或多个实例、实例属性及实例与实例之间的语义关系构成的语义片段。

语义网规则创建模块413,用于描述模糊隶属函数、案例知识表示或用于案例相似度推理的相关规则,并通过模糊隶属函数获取模糊隶属度;其中,模糊隶属度表示模糊实例隶属于模糊概念的程度以及模糊实例之间于模糊关系的关联程度。

语义网规则创建模块413,用于描述模糊隶属函数、案例知识表示或用于案例相似度推理的相关规则,并通过模糊隶属函数获取模糊隶属度;其中,模糊隶属度表示模糊实例隶属于模糊概念的程度以及模糊实例之间于模糊关系的关联程度。

其中,在该语义网规则创建模块413中,使用语义网规则语言描述模糊隶属函数,模糊隶属函数用于描述模糊概念和模糊属性,包括三角型隶属函数、梯型隶属函数、左/右半梯型隶属函数、正态型隶属函数和柯西型隶属函 数。在通过模糊隶属函数获取模糊隶属度的过程中,可以通过模糊实例提供的输入触发规则推理引擎以及模糊隶属函数获取模糊隶属度,并通过N元关系模型表示模糊隶属度。

本体和规则推理模块414,用于通过语义网本体描述语言中的语义组件进行推理,由显式事实推理出蕴含的事实;以及用于通过语义网规则进行推理,由满足规则体的显式事实推理出规则头描述的蕴含事实。

本体和规则推理模块414,用于通过语义网本体描述语言中的语义组件进行推理,由显式事实推理出蕴含的事实;以及用于通过语义网规则进行推理,由满足规则体的显式事实推理出规则头描述的蕴含事实。其中,基于模糊实例提供的输入触发规则推理引擎以及模糊隶属函数获取模糊隶属度,并通过N元关系模型表示所述模糊隶属度。

相似度获取单元420包括:

目标案例表示模块421,用于使用与表示案例知识库中的源案例相同的案例知识表示模型表示目标案例;

相似度获取模块422,用于获取案例知识库中的所有源案例,并分别与目标案例进行相似度比较;其中,如果源案例和目标案例具有公共父类的实例对,则分别获取实例对在实例类型、数据类型属性及对象属性上的相似度;

实例对总体相似度获取模块423,用于将实例对在实例类型、数据类型属性及对象属性上的相似度以迭加权重进行迭加,获取实例对的总体相似度;其中,在实例为模糊实例时,通过将迭加权重与模糊实例于模糊类型的隶属度相乘,获取模糊实例在模糊类型上的相似度计算;通过将迭加权重与模糊实例与模糊实例在模糊关系上的隶属度相乘,获取模糊实例在模糊关系上的相似度;

案例总体相似度获取模块424,用于将所有实例对的总体相似度以关系权重进行迭加,获取目标案例与源案例的总体相似度。

对于本发明提供的案例知识表示及案例相似度获取系统的实施例而言,由于其基本相似于方法实施例,相关之处参见方法实施例的部分说明,此处不再赘述。

通过上述实施方式可以看出,根据本发明提供的案例知识表示及案例相似度获取方法及系统,通过在案例知识表示模型中引入新类,实现案例知识 的N元关系模型,同时,引入模糊隶属函数及关系权重,并通过N元关系模型描述模糊隶属度及关系权重,增强语义网标准描述语言的语义表示能力,并通过增强后的语义网标准描述语言创建案例知识表示模型,实现对目标案例的相似度推理,有利于案例知识的组织、检索以及知识的共享,案例推理精度高,速度快。

如上参照附图以示例的方式描述根据本发明的案例知识库表示及案例相似度获取方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的案例知识库表示及案例相似度获取方法及系统,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号