首页> 中国专利> 一种基于问题本体的语义标注和检索方法

一种基于问题本体的语义标注和检索方法

摘要

本发明涉及一种基于问题本体的语义标注和检索方法,通过选取问题领域作为本体内容和定义投影的标注方法避免了本体受检索内容影响大、动态变化难以构造使用的不足;通过构造多层次多领域的本体模型避免了轻量级本体模型查准率和查全率低的不足,并且可以通过根据客户要求选择不同的检索标准以避免查准率和查全率不能兼顾的不足;通过面向问题的方法把本体模型划分为多层次多领域的本体模型,避免了本体复杂度高、难以保证语义一致性的不足;通过制定文档的匹配程度,克服了语义检索只支持布尔检索,不能对检索结果排序的不足。

著录项

  • 公开/公告号CN102629278A

    专利类型发明专利

  • 公开/公告日2012-08-08

    原文格式PDF

  • 申请/专利权人 河南科技大学;

    申请/专利号CN201210079110.2

  • 发明设计人 蔡广军;金芝;

    申请日2012-03-23

  • 分类号

  • 代理机构洛阳公信知识产权事务所(普通合伙);

  • 代理人李宗虎

  • 地址 471000 河南省洛阳市涧西区西苑路48号

  • 入库时间 2023-12-18 06:20:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-05-10

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20131106 终止日期:20160323 申请日:20120323

    专利权的终止

  • 2013-11-06

    授权

    授权

  • 2012-10-03

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120323

    实质审查的生效

  • 2012-08-08

    公开

    公开

说明书

技术领域

本发明涉及智能检索技术领域,具体涉及一种基于问题本体的语义标注和检索方法。

背景技术

当前主流的检索技术是基于关键字和分类目录的检索,它们根据检索对象的关键字确定是否匹配,不考虑语义,难以应对同一关键字具有不同含义或不同关键字具有相同含义的问题,只能部分提高查准率和查全率。语义检索基于对检索对象含义的理解确定检索对象是否满足请求,有助于克服基于关键词的信息检索技术的缺陷。已有研究包括多个方面,从研究内容上包括架构、耦合、透明性、用户语境和语境更改方法、本体结构和本体技术等;从方法上包括用语义扩充关键字检索、基本概念定位、复杂约束查询、问题求解和连接路径发现、RDF路径遍历、关键字概念映射、图模式、逻辑以及模糊逻辑和模糊关系等;从实现步骤则分为本体建模、标注和检索等。从本体模型和标注看,主要根据检索的内容来构造本体,开放动态环境下以采用单个轻量级本体为主,如以互联网上信息为检索对象的方法;封闭环境下也大多采用单个本体模型,只是描述内容更丰富。标注时基于对检索内容的分析和基于模式的发现确定标注检索对象的概念和关系。只有少数方法采用了多本体,但本体内容是基于对检索对象的分析和提取,把一个大本体分为不同的子本体,子本体描述的是单个问题的子问题,不同本体之间相互垂直,多个本体一起解决单个问题,构建一个领域本体需要考虑其它领域的内容;检索时需要多个领域本体相互协作,检索复杂度不仅取决于领域本体,还取决于所建立的领域本体之间的关系。综合来看,当前语义检索中存在很多问题没有解决:一是语义标注的复杂性,当前一般基于单一的语义世界,要支持开放世界假设需要对所有文档的标注,而当前的推理工具大多支持封闭世界下的推理,且没有方法和理论能支持OWL-Full描述的推理。二是语义的多样性,文档中关键字或概念的含义不仅取决于文档的内容,还取决于文档之外的知识,比如对“张三是贾宝玉”,其语义不仅取决于这个句子自身,还取决于张三和贾宝玉相关的知识,当只知道贾宝玉是个漂亮富家公子时,则其语义既可以是张三是漂亮的,也可以是张三是富家公子;如果还知道张三是富家公子且相貌一般时,则其语义只能是张三是富家公子。三是语义的不一致性,文档在不同环境的语义不仅呈现多样性,而且相互之间可能是矛盾的,如张三是贾宝玉既可能是褒义的也可能是贬义的。四是推理和描述的矛盾,语义检索不仅复杂度高,而且和描述复杂程度成反比,如OWL-Lite具有多项式的推理复杂度,但只能描述比较简单的领域;OWL-DL具有指数的推理复杂度,可以描述一般的领域;OWL-Full描述能力最强,但不能推理。本发明受需求工程中基于环境建模思想和服务计算中通过环境变化描述服务的启发,通过建模现实问题的本体模型来实现标注和检索。

发明内容

本发明的目的是为解决上述技术问题的不足,提供一种基于问题本体的语义标注和检索方法,通过选取现实问题领域作为本体内容和定义投影的标注方法避免了本体受检索内容影响大、动态变化难以构造使用的不足;通过构造多层次多领域的本体模型避免了轻量级本体模型查准率和查全率低的不足,并且可以通过不同检索标准的选择避免查准率和查全率不能兼顾的不足;

本发明为解决上述技术问题的不足,所采用的技术方案是:一种基于问题本体的语义标注和检索方法,包括选取问题领域作为本体内容构建多层次多领域的问题本体模型,采用投影标注方法实现多个本体对单个检索对象的标注,以及基于问题本体的语义检索;具体方法为:

(一)构建问题本体模型:

(1)、确定问题本体的专业领域和范畴,选择所确定的问题领域作为建模本体的内容,列出问题领域中的概念,并定义构成问题本体模型的三种本体单元,分别为问题本体、导航本体和功能本体;

其中,三种本体单元的定义如下:

问题本体PO:包含了问题中的各个领域,领域的性质,领域间的关系以及相关的公理和约束;

定义:PO={PC,PR,PP,PA}

其中,PC是领域概念的集合,包括功能本体和导航本体,PR是PC内元素之间关系的集合,包括导航本体与功能本体之间的关系和导航本体与导航本体之间的关系,PP是PC内元素的属性的集合,PA是表示PC,PR,PP相关元素约束的公理的集合;

导航本体NO:可以细分的本体,包含功能本体和代表其它领域本体的领域概念;

定义:NO={NC,NR,NP,NA}

其中,NC表示领域内的普通概念和细分领域的领域概念的集合,领域概念是某一功能本体或导航本体的名字,NR表示NC内元素之间的关系,NP表示NC内元素的属性,NA表示NC,NR,NP相关元素约束的公理的集合;

功能本体SO:只包含不能进一步细化的普通概念,为不能再细分的本体;

定义:SO={SC,SR,SP,SA}

其中,SC表示领域SO内的概念的集合,每个概念不再具有子领域,即不与任何领域本体重名,SR表示SC内元素之间的关系,SP表示SC内元素的属性,SA表示SC, SR, SP相关元素约束的公理的集合;

(2)、对选定的问题领域进行逐级分解, 并结合步骤(1)中三种本体单元的定义,构建多层次多领域骨架结构的问题本体模型,具体分解步骤如下:

首先根据问题特征分解领域和领域的层次;具体是根据世界习惯或公认的分类方式进行领域层次的分解;

其次根据领域内容的相关性分解;具体是当同一领域存在两个或多个无关内容时,根据领域内不同部分之间的关系分解,当一个领域内不同部分之间无关则分解为不同部分;

再次根据领域的一致性进行分解;具体是当单个领域存在冲突或相矛盾的内容,无法进行语义推理时,或者同一概念、同一关系和同一属性具有不同的语义时,进一步进行分解;

最后根据领域的复杂性进行分解;具体是根据现实的分类、侧面和知识的相关性进行分解,以进一步降低领域的复杂度;

(二)、利用问题本体模型对检索对象进行语义标注:

(1)、确定要检索的范围或内容,从资源库中选取检索对象;

(2)、在步骤(一)所构建的问题本体模型基础上,根据各个领域本体的特征和内容确定与领域总匹配度DGolDeg相关的匹配度的权重及投影规则,计算检索对象与问题本体模型中各个领域本体的领域总匹配度DGolDeg,并选择领域总匹配度DGolDeg大于设定的最小匹配度的领域本体;所述领域本体包括导航本体和功能本体;

所述的领域总匹配度DGolDeg表示检索对象与领域本体的匹配程度,定义如下:

DGolDeg=DComDeg×wi+DNecDeg×wj+DValDeg×wk +DConDeg×wl

其中,DComDeg为领域完整度,DNecDeg为领域必要度,DValDeg为领域有效度, DConDeg为领域一致度,wi、wj、wk和wl分别表示领域完整度、领域必要度、领域有效度和领域一致度的权重;

领域完整度DComDeg:表示领域模型包含检索对象的程度,用检索对象中可以标注的内容和本体内容的比率衡量,定义如下:

DComDeg=MC/WC×100%

领域必要度DNecDeg:表示此领域模型对检索对象的重要程度,用1和可以标注检索对象的领域模型数的比率衡量,定义如下:

DNecDeg=1/ON×100%

领域有效度DValDeg:表示领域模型对标注检索对象的有效程度,用可以标注的检索对象和领域模型标注的内容和领域模型内容的比率衡量,定义如下:

DValDeg=MC/OC×100%

领域一致度DConDeg:表示检索对象与领域模型的一致程度,用检索对象中不一致的内容和检索对象的比率衡量,定义如下:

DConDeg=(1-MC)/WC×100%

其中,WC表示检索对象的内容,OC表示领域模型的内容,MC表示检索对象中可以用领域模型标注的内容,NMC表示检索对象中不能用领域模型标注的或与领域模型不一致的内容,ON表示可以标注检索对象的领域模型数;

(3)、根据步骤(2)中选择的投影规则,使用选定的导航本体或者功能本体对检索对象进行投影标注,实现零到多个本体对单个检索对象的标注;

(4)、将标注结果以及对检索对象的引用储存至标注库;

(三)、基于问题本体模型的语义检索:

(1)、用户输入需要检索的内容作为检索请求,检索问题本体模型,选定问题本体模型中与检索请求相关的导航本体和功能本体作为检索领域本体模型;

(2)、确定检索请求在步骤(1)选定的检索领域本体模型中的表示作为检索目标,并在标注库中查找选定各个领域中标注有检索目标的检索对象,并计算检索目标与检索对象的总匹配度;

用检索目标与检索对象总匹配度WGolDeg用检索对象标注总匹配度和领域总匹配度的加权和来衡量,定义如下: 

WGolDeg= WAGolDeg×wp+DGolDeg×wq

其中,WAGolDeg为检索对象标注总匹配度,DGolDeg为领域总匹配度,wp表示检索对象标注总匹配度的权重,wq表示领域总匹配度的权重;

检索对象标注总匹配度WAGolDeg表示检索对象的标注内容与检索目标总的匹配程度,定义如下:

WAGolDeg=WAComDeg×wm+WANecDeg×wn+WAValDeg×wo

其中,WAComDeg为检索对象标注完整度,WANecDeg为检索对象标注必要度,WAValDeg为检索对象标注有效度,wm、wn和wo分别表示检索对象标注完整度、检索对象标注必要度和检索对象标注有效度的权重;

检索对象标注完整度WAComDeg表示检索对象的标注与检索目标匹配的程度,用检索对象的标注与检索目标匹配的内容和检索目标内容的比率衡量,定义如下:

WAComDeg=WAM/Q×100%

检索对象标注必要度WANecDeg表示检索对象标注对检索目标的重要程度,用1和可以匹配的检索对象的标注数的比率衡量,定义如下:

WANecDeg=1/MWAN×100%

检索对象标注有效度WAValDeg表示检索对象的标注内容对检索目标的有效程度,用检索对象标注中与检索目标匹配的内容和检索对象的标注内容的比率衡量,定义如下:

WAValDeg= WAM/WA×100%

其中,Q表示检索目标的内容,WA表示一个检索对象W的标注内容,WAM表示检索对象标注中与检索目标匹配的内容,MWAN表示可以匹配的检索对象的标注数;

(3)、根据用户选取的策略以及总匹配度对查找到的检索对象进行排序,删减匹配度较低的检索对象,把处理后的检索结果返回给用户。

本发明有益效果

1、本发明可以更加方便地建造维护本体模型,节约本体模型开发维护成本。本发明采用问题建模根据需要解决的问题构建本体,可以降低检索内容变化对本体模型的影响,采用多层次多领域的本体模型,领域本体模型之间是独立的,可以根据需要逐个构建以降低构建的复杂度;而且即使需要更改本体模型,也只涉及一个或几个领域,便于本体模型的维护。

2、本发明的方法可以提高标注的精度和广度,由于采用投影的标注方法,可以从多个角度描述检索对象,实现了单个标注到多个标注,提高了标注的广度,而且标注时考虑了领域的影响,也更加精确。由于本体的层次性和不同层次之间的包含性,可以根据本体的层次关系进行归纳和细化,当检索内容与一个领域本体相同或相近时,可以通过这个领域本体的上层概念对内容进行归纳,通过选取更抽象的标注内容以提高标注的广度;当检索内容包含有具有子领域的概念词时,可以通过概念的子领域对标注概念进行细化,通过选取更具体的标注内容以提高标注的精度。由于定义了检索对象和领域的匹配标准,可以根据领域本体模型和检索对象的匹配程度,进行匹配领域的选择,进一步提高标注的精度。

3、本发明的方法可以提高检索的查全率和查准率,从内容看,标注领域的划分和层次化使得标注更精确,而且可以根据本体的内容和层次扩展检索目标形成一个检索目标模型使得目标更精确;从方法看,可以选择匹配度更高的领域进行检索,可以对其中的部分内容选取下层领域进行进一步的匹配,可以综合多个领域的匹配情况进行选择,可以根据排序结果删减匹配度低的内容。本发明中可以提高查全准率的方面包括:可以选择更多领域进行匹配,选取上层概念进行匹配选取;选取上层概念的相关领域进行匹配选取,包括相近的或其子领域。

4、本发明的方法在一些情况下可以提高标注和检索的效率。标注时,当采用单个本体模型比问题本体中单个领域模型大很多或者要标注对象的内容比较单一仅需要部分领域本体标注时,可以提高标注效率。检索时,当采用和一般技术同样的检索目标和本体模型时,由于领域本体规模小于其它本体可以提高检索效率;当检索对象数量大且分属于不同领域或者通过领域匹配度选择部分领域检索时,采用多领域标注相当于实现了对检索对象的划分,检索过程中只需要对部分本体领域标注的文档进行检索,减少了要检索内容的数量。

附图说明

图1是本发明的问题本体模型的层次结构示意图。

图2是本发明的问题本体模型的层次结构示例图。

图3是本发明的基于问题本体的语义标注时的投影类型a示例图。

图4是本发明的基于问题本体的语义标注时的投影类型b示例图。

图5是本发明的基于问题本体的语义标注时的投影类型c示例图。

图6是本发明的基于问题本体的语义标注时的投影类型d示例图。

图7是本发明的基于问题本体的语义标注时的投影类型e示例图。

图8是本发明的检索对象和检索对象的各个标注层次以及相互间的关系示意图。

图9是本发明的基于问题本体的语义标注流程示意图。

图10是本发明的基于问题本体用于文档检索的实施架构示意图。

图11是本发明的基于问题本体的语义检索流程示意图。

具体实施方式

本发明的实施主要涉及问题本体模型的构建、基于问题本体的语义标注和检索三大部分,具体方法为:

(一)构建问题本体模型:

(1)、确定问题本体的专业领域和范畴,选择所确定的问题域作为建模本体的内容,列出问题域中的概念,并定义问题本体、导航本体和功能本体三种本体单元;

其中,三种本体单元的定义如下:

问题本体PO:包含了问题中的各个领域,领域的性质,领域间的关系以及相关的公理和约束;

定义:PO={PC,PR,PP,PA}

其中,PC是领域概念的集合,包括功能本体和导航本体,PR是PC内元素之间关系的集合,包括导航本体与功能本体之间的关系和导航本体与导航本体之间的关系,PP是PC内元素的属性的集合,PA是表示PC,PR,PP相关元素约束的公理的集合;

导航本体NO:具有可以细分概念的本体,包含代表功能本体或其它导航本体的领域概念;

定义:NO={NC,NR,NP,NA}

其中,NC表示领域内的普通概念和细分领域的领域概念的集合,领域概念是某一功能本体或其它导航本体的名字,NR表示NC内元素之间的关系,NP表示NC内元素的属性,NA表示NC,NR,NP相关元素约束的公理的集合;

功能本体SO:只包含不能进一步细化的普通概念,不能再细分的本体;

定义:SO={SC,SR,SP,SA}

其中,SC表示领域SO内的概念的集合,每个概念不再具有子领域,即不与任何领域本体重名,SR表示SC内元素之间的关系,SP表示SC内元素的属性,SA表示SC, SR, SP相关元素约束的公理的集合;

(2)、对选定的问题领域进行逐级分解, 并结合步骤(1)中三种本体单元的定义,构建多层次多领域骨架结构的问题本体模型,具体分解步骤如下:

首先根据问题特征分解领域和领域的层次;具体是根据标准、习惯或公认的分类方式进行领域层次的分解, 适用于现实中存在相应分类时,如现实世界内基本的或公认的分类或划分方式。领域和层次的划分不是基于检索对象的知识,而是以现实世界的知识为基础,根据现实世界习惯的分类方式和层次划分领域,比如无论检索对象的内容是什么,都可以把生物分为动物和植物两个领域且都是生物的子领域。划分既可以是投影,也可以是垂直划分,前者如把红楼梦分为建筑研究和风俗研究,两者之间具有重合的部分;后者如把其分为男性角色和女性角色,相互之间不存在交集。

其次根据领域内容的相关性分解;具体是当同一领域存在两个或多个无关内容时,根据领域内不同部分之间的关系分解,当一个领域内不同部分之间无关则分解为不同部分,此时以划分法为主。比如当把领域内存在两个概念,相互之间均不存在可达路径时。

再次根据领域的一致性进行分解;具体是当单个领域存在冲突或相矛盾的内容,无法进行语义推理时,或者同一概念、同一关系和同一属性具有不同的语义时,进一步进行分解。对同一内容既可以推出真又可以推出假等情况,以投影分解为主。比如宝玉既可以是人又可以是石头,宝玉既可以出现在红楼人物中,也可以归类为小说中的宝石。

最后根据领域的复杂性进行分解;具体是根据现实的分类、侧面和知识的相关性进行分解,以进一步降低领域的复杂度。适合于单个领域十分复杂,语义推理复杂度过高时。比如当概念个数或者领域内的关系数大于某一阀值时。

构建问题本体需要在已有本体建模的方法根据领域特征采用上述分解方法实现领域和层次的分解领域。所述领域不仅可以是不同问题的领域,也可以是对具体内容的分解。

如图1所示,说明问题本体的层次结构,PO表示特定的问题本体,包含NO和SO两类概念,PR表示NO和SO间或NO和NO间的关系;NO表示问题本体内的导航本体,SO表示问题本体内的功能本体,NO内的NC和NR分别表示导航本体内的概念和关系,SO 内的SC和SR分别表示功能本体内的概念和关系,图中省去了对各个本体属性和约束的描述。

如图2所示,以小说红楼梦为例,可以构建一个问题本体,从小说本身、原型和象征等多个方面进行投影。问题本体和各个领域本体既可以采用同一种描述语言,也可以采用不同描述语言,采用同一描述语言便于推理工具的选择和优化,采用不同描述语言可以根据领域特征选择符合领域描述内容、领域复杂度等的描述工具,以更好发挥描述语言的优势和特点。而领域本体的规模不仅影响描述本体描述语言、推理工具的选择,也将影响相关匹配度的权重,比如领域规模比较大时,选择标注领域时需要降低领域完整度的权重。在实施时还可以根据需要裁减本体的结构和模型,比如当问题中只包含几个领域、层次数较少且简单稳定时,可以省去问题本体,或者是问题本体中的属性部分。

本发明可以更加方便地建造维护本体模型,节约本体模型开发维护等成本。已有检索技术中的本体建模要考虑检索对象的内容,而且以单一本体模型为主,即使在采用多领域的检索技术中,不同领域本体也需要协作,需要保持领域本体间的一致性。针对本体模型的构建基于检索内容会造成本体模型与检索对象的紧耦合,使得本体模型要随检索对象的内容变化,本体模型需要大量维护,否则便会降低查准率和查全率,难以适应动态开放环境下的检索的问题比如当前的互联网或者业务变化大变化快的公司,本发明采用问题建模方法,根据需要检索的问题或现实问题构建本体,可以降低检索内容变化对本体模型的影响。针对采用单一的本体模型会提高本体模型自身和使用的复杂度,很难保证本体的完整性和一致性的问题,比如采用单一的本体模型时,所有的检索内容需要使用单个本体模型标注,需要大规模的复杂本体,而且对本体模型内任一部分的更改都要考虑对整个本体的影响,不仅保持本体的完整性和一致性困难,甚至难以保证本体模型的正确性,这也是很多语义检索采用轻量级本体的主要原因之一,本发明采用多层次多领域的本体模型,领域本体模型之间是独立的,可以根据需要逐个构建以降低构建的复杂度;而且即使需要更改本体模型,也只涉及一个或几个领域,便于本体模型的维护,本发明中各个领域之间的独立性使得只需要保证单个领域内的一致性。

(二)、利用问题本体模型对检索对象进行语义标注:

(1)、根据问题本体,确定要检索的范围或内容,从资源库中选取或从网络上等地方抓取检索对象;

(2)、在步骤(一)所构建的问题本体模型基础上,根据各个领域本体的特征和内容确定与领域总匹配度DGolDeg相关的匹配度的权重及投影规则,计算检索对象与问题本体模型中各个领域本体的领域总匹配度DGolDeg,并选择领域总匹配度DGolDeg大于设定的最小匹配度的领域本体;所述领域本体包括导航本体和功能本体;

所述的领域总匹配度DGolDeg表示检索对象与领域本体的匹配程度,定义如下:

DGolDeg=DComDeg×wi+DNecDeg×wj+DValDeg×wk +DConDeg×wl

其中,DComDeg为领域完整度,DNecDeg为领域必要度,DValDeg为领域有效度,DConDeg为领域一致度,wi、wj、wk和wl分别表示领域完整度、领域必要度、领域有效度和领域一致度的权重;

领域完整度DComDeg:表示领域模型包含检索对象的程度,用检索对象中可以标注的内容和本体内容的比率衡量,定义如下:

DComDeg=MC/WC×100%

领域必要度DNecDeg:表示此领域模型对检索对象的重要程度,用1和可以标注检索对象的领域模型数的比率衡量,定义如下:

DNecDeg=1/ON×100%

领域有效度DValDeg:表示领域模型对标注检索对象的有效程度,用可以标注的检索对象和领域模型标注的内容和领域模型内容的比率衡量,定义如下:

DValDeg=MC/OC×100%

领域一致度DConDeg:表示检索对象与领域模型的一致程度,用检索对象中不一致的内容和检索对象的比率衡量,定义如下:

DConDeg=(1-MC)/WC×100%

其中,WC表示检索对象的内容,OC表示领域模型的内容,MC表示检索对象中可以用领域模型标注的内容,NMC表示检索对象中不能用领域模型标注的或与领域模型不一致的内容,ON表示可以标注检索对象的领域模型数;

(3)、根据步骤(2)中选择的投影规则,使用选定的导航本体或者功能本体对检索对象进行投影标注,实现零到多个本体对单个检索对象的标注;

(4)、将标注结果、标注所在的导航本体或功能本体在问题本体中的概念名以及对检索对象的引用储存至标注库;

对标注领域的选择需要在定义领域总匹配度DGolDeg的基础上根据领域特征和内容确定相关匹配度的权重,由于是领域相关的,需要根据具体问题和领域本体的内容来确定各个匹配度的权重,同时对于特定的问题,可以在本发明列举的匹配度以外,定义新的衡量标准。本部分还涉及投影规则的选择和部署问题,投影规则越少、越统一,标注复杂度和标注工具的选择越方便,但一般会降低标注精度;同时,投影规则的选择影响其部署,投影规则比较少且稳定时,可以采用专门的位置存储,投影规则比较多、易变或领域相关时,则需要和领域本体关联,根据领域本体的特征选择部署方法。

列举几种投影类型,其中,图3、4、5是同层的投影,适合直接标注;图6、7是不同层次上的投影,适合间接标注,每个子图的左侧表示被检索对象,右侧表示标注的领域本体,图中字母和数字表示的是概念。图3是部分描述,采用检索对象内容的部分元素或部分特征来标注,可分为概念到属性的投影,概念到构成概念的投影等类型,如在红楼梦问题中,用“粉面含春威不漏”标注王熙凤,这是一种一对多描述;图4是同等描述,采用与检索对象内容同级别的元素标注文档,如用贾宝玉标注演贾宝玉的演员,用颦儿标注黛玉等,一般是一对一描述;图5是包含描述,采用包含检索对象内容的元素标注,可分为元素到集合、元素到对象的投影等类型,如用宝玉兄妹指代宝玉、探春等人,这是多对一的描述。图6是用下层的或更具体的领域本体标注,下层领域本体中包含上层领域本体中元素的子概念、实例等内容,描述时可以分为两步:先实现同层描述,再实现到底层概念的映射;图7是用上层的或更抽象的领域本体标注,上层元素包括下层元素的抽象概念或包容概念,描述时也可以分为两步:先实现同层描述,再实现到上层概念的映射。

如图8所示,描述了检索对象和检索对象的各个标注层次以及相互间的关系,对象语义是检索对象自身的含义,一般直接选取检索对象的关键字或者说以检索对象自身作为被检索内容;领域语义描述特定领域环境下检索对象的含义,通过检索对象在具体领域中的投影描述,描述内容属于描述领域;用户语义描述特定用户针对特定问题对检索对象的理解,描述内容属于用户自身拥有的概念和关系等。其中检索对象和对象语义之间是标注或提取的关系,对象语义和领域语义以及领域语义和用户语义间是投影关系。问题本体采用领域语义作为描述内容。

如图9所示,详细描述了基于问题本体的语义标注步骤或流程,其中上层本体可以是问题本体和导航本体,领域本体可以是导航本体和功能本体。首先从资源库中选取需要标注的检索对象,资源库可以是音频、视频、图像以及文本文档各种形式的资源库或者是对存在以上类型检索对象地方的虚指,检索对象即是资源库中的单个资源;

其次是标注领域本体的选择,根据各个领域本体的特征和内容确定与领域总匹配度DGolDeg相关的匹配度的权重及投影规则,计算检索对象与问题本体模型中各个领域本体的领域总匹配度DGolDeg,并选择领域总匹配度DGolDeg大于设定的最小匹配度的领域本体;检索对象属于特定领域或者可以自动确定检索对象的领域时,可以根据问题本体或者导航本体判断能否进行领域选择或扩展以确定所需要标注的领域,这时上层本体除了提供领域本体的集合外,还提供领域间的关系等信息;领域不确定且要自动处理时,可以直接对比检索对象的内容与各个功能本体和导航本体的内容,以确定所要标注的领域,上层本体只是提供需要判定的领域本体集合。

然后根据选择的投影规则,使用选定的领域本体(导航本体或者功能本体)对检索对象进行投影标注,实现零到多个本体对单个检索对象的标注;最终将标注结果、标注所在的导航本体或功能本体在问题本体中的概念名以及对检索对象的引用储存至标注库;

由于采用投影的标注方法,可以从多个角度描述检索对象,实现了单个标注到多个标注的转换,提高了标注的广度,而且标注时考虑了领域的影响,也更加精确。由于本体的层次性和不同层次之间的包含性,可以根据本体的层次关系进行归纳和细化,当检索内容与一个领域本体相同或相近时,可以通过这个领域本体的上层概念对内容进行归纳,或者通过选取更抽象的标注内容以提高标注的广度;当检索内容包含有具有子领域的概念时,可以通过概念的子领域对标注概念进行细化,通过选取更具体的标注内容以提高标注的精度。由于定义了检索对象和领域的匹配标准,可以根据领域本体模型和检索对象的匹配程度,进行匹配领域的选择,进一步提高标注的精度。

从内容看,标注领域的划分和层次化使得标注更精确,而且可以根据本体的内容和层次扩展检索目标形成一个检索目标模型使得目标更精确;从方法看,可以选择匹配度更高的领域进行检索,可以对其中的部分内容选取下层领域进行进一步的匹配,可以综合多个领域的匹配情况进行选择,可以根据排序结果删减匹配度低的内容。本发明中可以提高查全率的方面包括:可以选择更多领域进行匹配,可以选取上层概念进行匹配选取;选取上层概念的相关领域进行匹配,选取包括相近的或其子领域。

(三)、基于问题本体模型的语义检索:

(1)、用户输入需要检索的内容作为检索请求,检索问题本体模型,采用步骤(二)中计算检索对象与领域本体的领域总匹配度的方法计算检索请求与领域本体的领域总匹配度,根据匹配度的下限阀值选定问题本体模型中与请求相关的导航本体和功能本体作为检索领域本体模型;

如果检索领域本体模型的数目超过上限阈值,则向用户返回相关本体概念的属性、相关领域概念或本体的内容供用户做进一步选择;如果检索领域本体模型的数目少于下限阈值,则再根据问题本体和导航本体进一步选择相关本体供用户选择;直到检索领域的数目满足用户要求或者用户放弃检索;

(2)、确定检索请求在步骤(1)中选定的检索领域本体模型中的表示作为检索目标,并在标注库中查找选定各个领域中标注有检索目标的检索对象,并计算检索目标与检索对象的总匹配度WGolDeg;

检索目标与检索对象总匹配度WGolDeg用检索对象标注总匹配度和领域总匹配度的加权和来衡量,定义如下: 

WGolDeg= WAGolDeg×wp+DGolDeg×wq

其中,WAGolDeg为检索对象标注总匹配度,DGolDeg为领域总匹配度,wp表示检索对象标注总匹配度的权重,wq表示领域总匹配度的权重;

检索对象标注总匹配度WAGolDeg表示检索对象的标注内容与检索目标总的匹配程度,定义如下:

WAGolDeg=WAComDeg×wm+WANecDeg×wn+WAValDeg×wo

其中,WAComDeg为检索对象标注完整度,WANecDeg为检索对象标注必要度,WAValDeg为检索对象标注有效度,wm、wn和wo分别表示检索对象标注完整度、检索对象标注必要度和检索对象标注有效度的权重;

检索对象标注完整度WAComDeg表示检索对象的标注与检索目标匹配的程度,用检索对象的标注与检索目标匹配的内容和检索目标内容的比率衡量,定义如下:

WAComDeg=WAM/Q×100%

检索对象标注必要度WANecDeg表示检索对象标注对检索目标的重要程度,用1和可以匹配的检索对象的标注数的比率衡量,定义如下:

WANecDeg=1/MWAN×100%

检索对象标注有效度WAValDeg表示检索对象的标注内容对检索目标的有效程度,用检索对象标注中与检索目标匹配的内容和检索对象的标注内容的比率衡量,定义如下:

WAValDeg= WAM/WA×100%

其中,Q表示检索目标的内容,WA表示一个检索对象W的标注内容,WAM表示检索对象标注中与检索目标匹配的内容,MWAN表示可以匹配的检索对象的标注数;

当同一个检索对象在多个检索领域被匹配时,根据各个领域的权值对其匹配度进行重新计算,计算方式如下:

WAGolDeg=WAComDeg1×W1+ WAComDeg2×W2+…+ WAComDegn×Wn

其中,WAComDeg1、WAComDeg2和WAComDegn表示检索对象和检索目标匹配度大于某一值的领域,W1、W2和Wn表示检索对象和检索目标的匹配度大于某一值的领域的权重,n代表检索对象和检索目标匹配度大于某一值的领域的数目;

(3)、根据用户选取的策略对查找到的检索对象与检索目标的总匹配度进行排序,删减匹配度较低的检索对象,最后把处理后的检索结果返回给用户;

检索方法也可以采用常用的语义检索方法,以检索目标和所选领域内各个检索对象的语义标注为输入,确定与检索目标匹配的检索对象,可以选取通用的检索方法,也可以根据领域特征选取。生成检索结果是在完成各个相关领域的检索后,根据用户的要求选取合适的策略对检索结果进行排序和处理。与标注的实施一样,检索也需要在很多方面进行权衡,比如检索目标的复杂度是提高查准率、查全率的基础,但检索目标越具体精确,构造复杂度也越高,需要用到的用户知识或者说参与程度越高。

如图10所示,描述了把问题本体用于文档检索的一种实施架构。文档即是检索对象,整个架构分为数据层和推理层,数据层包括待检索的文档和生成的文档标注信息,推理层主要包括标注和检索模块以及所用的问题本体知识库和多个领域本体,领域本体包括导航本体和功能本体知识库。其中,上层本体可以是导航本体或问题本体,同时问题本体只负责对标注和推理领域的选择,不负责对具体文档的标注;领域本体包括导航本体和功能本体,导航本体在负责标注文档外,也可用来确定领域间的关系。

如图11所示,描述了基于问题本体的检索步骤或流程,用户在界面输入需要检索的内容,首先是确定检索目标,可以与一般方法一样直接使用关键词,可以与一般语义检索方法一样根据关键词所在的领域知识扩展关键词,还可以根据问题本体或导航本体选取相关的领域概念以供选择或确认,根据导航本体提取更具体的领域本体信息以供选择或确认。其次是针对各个领域的检索,与一般方法相同。最后是对检索结果的处理,可以根据检索对象的匹配度直接进行排序,当同一个检索对象被多个领域本体标注时,可以根据领域之间的关系进行综合。检索时,当采用和一般技术同样的检索目标和本体模型时,由于问题本体进行了层次和领域划分使得单个领域本体规模小于其它本体,可以提高检索效率;当检索对象数量大且分属于不同领域或者通过领域匹配度选择部分领域检索时,采用多领域标注相当于实现了对检索对象的划分,检索过程中只需要对部分本体领域标注的文档进行检索,减少了要检索内容的数量;当领域模型适合于特定的推理方法或工具并选择了对应的方法和工具时。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号