首页> 中国专利> 船舶装备维修保障信息关系数据库模式与本体间映射方法

船舶装备维修保障信息关系数据库模式与本体间映射方法

摘要

本发明公开了一种船舶装备维修保障信息关系数据库模式与本体间映射方法,包括如下步骤:步骤1:对船舶装备维修保障信息本体的元素和船舶装备维修保障信息关系数据库模式的元素进行分类,建立船舶装备维修保障信息关系数据库模式和船舶装备维修保障信息本体之间的映射类型;步骤2:利用多策略组合的方法得到待处理船舶装备维修保障信息关系数据库模式与待处理船舶装备维修保障信息本体之间的映射关系。本发明能够有效地集成现有的船舶装备维修保障信息,便于维修保障人员对其实施有效管理,提供决策支持和远程维修保障支援能力,推进维修保障信息的高效利用和保障资源的优化,使装备发挥其最大效能,因而具有重要理论价值和实际意义。

著录项

  • 公开/公告号CN105045933A

    专利类型发明专利

  • 公开/公告日2015-11-11

    原文格式PDF

  • 申请/专利权人 中国人民解放军海军工程大学;

    申请/专利号CN201510565705.2

  • 申请日2015-09-08

  • 分类号G06F17/30;

  • 代理机构武汉开元知识产权代理有限公司;

  • 代理人黄行军

  • 地址 430033 湖北省武汉市解放大道717号

  • 入库时间 2023-12-18 12:02:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-04-24

    授权

    授权

  • 2015-12-09

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150908

    实质审查的生效

  • 2015-11-11

    公开

    公开

说明书

技术领域

本发明涉及船舶装备维修保障信息异构数据库的数据集成技术 领域,具体涉及一种船舶装备维修保障信息关系数据库模式与本体 间映射方法。

技术背景

随着信息技术的迅速发展,有关船舶装备维修保障的信息系统 越来越多,不同组织、部门由于业务与功能需求的不同,各自都开 发了相应的信息管理系统,这些系统之间数据环境各异,数据描述 千差万别,形成了一个个的“数据孤岛”。“数据孤岛”造成了信息系统 之间存在着大量的冗余数据、垃圾数据,无法保证数据的一致性, 信息的利用率低。开发新的集成领域内所有信息的管理系统耗时耗 力,因此,如何有效地重用这些信息,实现数据的共享与互操作, 为维修保障人员提供更有效的决策支持,是当前信息化建设的一个 迫切课题。

数据集成一直以来都是计算机领域、尤其是数据库领域的研究 重点和难点。数据集成是指将互相关联的分布式异构数据源集成在 一起,使用户能以透明的方式对这些数据源进行统一访问。传统的 数据集成方式包括:多数据库系统、联邦数据库系统、数据仓库、 基于包装器和协调器的数据集成、基于agent的数据集成、基于web 服务的数据集成、P2P数据集成以及数据空间等。在以上代表性的研 究工作中,注重的都是数据结构的集成,几乎没有涉及到语义的集 成。

语义Web提供了一个通用框架,使得数据的共享和重用可以跨 越应用系统、企业和社区的边界。本体是语义Web的核心基础元素, 它作为一种领域知识概念化和模型化的方法,可以用来描述计算机 处理数据的语义信息,被认为是解决语义异构的关键途径。近年来, 有关本体的表示(RDFS/OWL)、查询语言(SPARQL)等各种技术 日趋成熟,特别是链接开放数据项目(linkedopendata)的大力推动, 标志着以本体为核心的语义Web基础技术已经奠定。

目前,船舶维修保障信息绝大部分仍以关系数据库的方式进行 存储,利用本体对这些数据进行语义集成,首先就必须发现关系数 据库模式与本体之间的映射关系,然后才能实施查询处理或数据转 换,最终实现语义数据集成。因此,建立船舶装备维修保障信息关 系数据库模式与本体之间的映射关系,是建立基于本体的语义数据 集成系统的关键。

但是,关系数据库模式和本体这两种不同的模型在建模思想、 应用场景上有着很大的差别,关系数据库模式是对具体数据的抽象 描述,针对特定的应用程序而设计,规模较小,语义表达能力较弱, 由程序的开发者独立创建;而本体则试图建立领域内的共享概念模 型,独立于具体应用,规模较大,语义表达能力较强,由领域专家 共同创建。因此,关系数据库模式与本体之间映射比一般的同种异 构模型映射(例如模式匹配、本体映射)显得更加困难。

目前,船舶装备维修保障信息关系数据库模式与本体之间的映 射研究大部分仍采用人工定义的方式,部分项目的研究中还开发了 相应的图形用户界面,支持交互式的关系数据库模式与本体间映射 的构建,例如DartGrid、MapOnto等。人工构建映射的方式耗时耗 力且容易出错,因此,也有部分工作针对自动化映射建立展开了研 究,例如申请号为201410314898.X的中国发明发明“一种本体与关 系数据库模式之间的映射方法”。该专利记载的完全自动化的方法不 一定有效,并且当关系数据库模式与本体规模增大时,基于结构相 似度传播的方法时间复杂度过高,无法接受。

发明内容

本发明的目的是针对上述技术问题,提供一种船舶装备维修保 障信息关系数据库模式与本体间映射方法,该方法能够有效地集成 现有的船舶装备维修保障信息,便于维修保障人员提高船舶装备维 修保障效率。

为实现此目的,本发明所设计的船舶装备维修保障信息关系数据 库模式与本体间映射方法,其特征在于,它包括如下步骤:

步骤1:对船舶装备维修保障信息本体的元素和船舶装备维修保 障信息关系数据库模式的元素进行分类,将上述船舶装备维修保障 信息关系数据库模式的元素中的关系R分为实体类型关系ER和关系 类型关系RR,将船舶装备维修保障信息关系数据库模式中的属性A 按数据库逆向工程方式分为外键属性FKA和非外键属性NFKA,将 船舶装备维修保障信息本体的元素按船舶装备维修保障信息本体自 带的说明规范,分为船舶装备维修保障信息本体元素的类C和属性 P,将属性P进一步分为船舶装备维修保障信息本体元素的对象属性 Po和船舶装备维修保障信息本体元素的数据类型属性Pd,建立船舶 装备维修保障信息关系数据库模式和船舶装备维修保障信息本体之 间的如下映射类型:

实体类型关系ER至船舶装备维修保障信息本体元素的类C的映 射类型;

关系类型关系RR至船舶装备维修保障信息本体元素的对象属性 Po的映射类型;

外键属性FKA至船舶装备维修保障信息本体元素的对象属性Po的映射类型;

非外键属性NFKA至船舶装备维修保障信息本体元素的对象属 性Po与船舶装备维修保障信息本体元素的数据类型属性Pd并集的映 射类型;

步骤2:根据如下步骤201~步骤203得到待处理船舶装备维修保 障信息关系数据库模式与待处理船舶装备维修保障信息本体之间的 映射关系:

步骤201:将待处理船舶装备维修保障信息本体的元素的命名方 式统一为英文描述,然后判断船舶装备维修保障信息关系数据库模 式的元素的命名方式为以下两种命名方式的哪一种:

第一种船舶装备维修保障信息关系数据库模式的元素的命名方 式为:使用英文单词或缩写进行描述;

第二种船舶装备维修保障信息关系数据库模式的元素的命名方 式为:直接使用中文进行描述;

步骤202:对于第二种命名方式,首先将对应的船舶装备维修保 障信息关系数据库模式的元素转换成英文描述,此时即将第二种命 名方式转换成了第一种命名方式,然后为待处理船舶装备维修保障 信息本体的每个元素和待处理船舶装备维修保障信息关系数据库模 式的每个元素分别构建对应的虚拟文档,每个虚拟文档包括上述待 处理船舶装备维修保障信息本体的每个元素或船舶装备维修保障信 息关系数据库模式的每个元素对应的英文描述,还包括与上述每个 元素结构上相邻的元素对应的英文描述,根据步骤1的分类方式为 不同类型船舶装备维修保障信息本体的元素和船舶装备维修保障信 息关系数据库模式的元素构建不同的虚拟文档;

为待处理船舶装备维修保障信息关系数据库模式的元素中的关 系,根据以下方式构建虚拟文档:

对于待处理船舶装备维修保障信息关系数据库模式中的关系R, 若为实体类型关系ER,则该关系R的虚拟文档只包括自身的英文描 述;若为关系类型关系RR,则该关系R的虚拟文档不仅包括其自身 的英文描述,还包括关系类型关系RR所引用关系的英文描述;

用vdoc()函数表示虚拟文档,用desc()函数表示待处理船舶装备 维修保障信息本体的每个元素或船舶装备维修保障信息关系数据库 模式的每个元素的英文描述,具体形式化如下:

vdoc(R)=desc(R)RERdesc(R)+desc(rel(AR))RRR,ARref(AR),ARpk(R)---(1)

其中,AR∈pk(R)表示AR属于关系R的主键,AR′∈ref(AR)表示关 系R的主键引用的属性,rel(AR′)表示属性AR′所属的关系, desc(rel(AR′))表示属性AR′所属的关系的英文描述,vdoc(R)表示关系 R的虚拟文档,desc(R)表示关系R的英文描述;

对于待处理船舶装备维修保障信息关系数据库模式中的属性A, 则其虚拟文档除了自身的英文描述外,还包括该属性A所属的关系 的英文描述,如果它是外键属性FKA,则还需进一步考虑该属性A 引用的属性所属关系的描述;如果该属性A是非外键属性NFKA,则 需补充其数据类型,具体如下:

vdoc(A)=desc(A)+desc(rel(A))+desc(rel(A))Aref(A),AFKAdesc(A)+desc(rel(A))+desc(type(A))ANFKA---(2)

其中,type(A)表示属性A的数据类型,desc(type(A))表示属性A 数据类型的英文描述,desc(rel(A))表示属性A所属的关系的英文描 述,desc(A)表示属性A的英文描述,desc(rel(A′))表示属性A′所属关 系的英文描述;

对于船舶装备维修保障信息本体元素的类C,它的虚拟文档就 是其自身的英文描述,即:

vdoc(C)=desc(C)(3)

对于待处理船舶装备维修保障信息本体中的属性P,则其虚拟文 档除了自身的自然语言描述外,还包括它的定义域d(P)和值域r(P) 的自然语言描述,对于船舶装备维修保障信息本体元素的数据类型 属性Pd,其值域为数据类型,具体如下:

vdoc(P)=desc(P)+desc(d(P))+desc(r(P))(4)

其中,待处理船舶装备维修保障信息本体中的属性P=船舶装备 维修保障信息本体元素的数据类型属性Pd+船舶装备维修保障信息 本体元素的对象属性Po,vdoc(P)表示待处理船舶装备维修保障信息 本体中属性P的虚拟文档,desc(P)表示待处理船舶装备维修保障信 息本体中属性P的英文描述,desc(d(P))表示定义域d(P)的英文描述, desc(r(P))表示值域r(P)的英文描述;

这样,就为船舶装备维修保障信息关系数据库模式和本体的每 个元素构建了虚拟文档,每个虚拟文档都看成向量空间模型中的一 个向量,对于每个虚拟文档,其中任一单词i的权重用如下TF-IDF 算法进行计算:

tfi=niΣknk---(5)

idfi=logNn+1---(6)

wi=tfi·idfi(7)

其中tfi为单词i的词频,ni为单词i在该虚拟文档内出现的次数, 为该虚拟文档的总词数;idfi为逆文档频率,N为虚拟文档总数, n为含有单词i的虚拟文档数,wi表示单词i的权重,这样虚拟文档 就转换成带权值的单词集合即向量,对于任意两个带权值的单词集 合,即向量ei和ej之间的相似度sim(ei,ej)用如下余弦相似度公式来 衡量:

sim(ei,ej)=Σk=1DwikwjkΣk=1Dwik2Σk=1Dwjk2---(8)

其中,wik表示向量ei中单词k的权值,wjk表示向量ej中单词k 的权值,D为向量的维度,即所有单词的总数;

步骤203:按照步骤1建立的映射类型,和步骤201、步骤202 中的方法,计算船舶装备维修保障信息关系数据库模式中元素es与 本体中元素et之间的相似度sim(es,et),即船舶装备维修保障信息关 系数据库模式的元素对应的向量之间的相似度,得到所有满足映射 类型要求的元素间相似度后,按照相似度从大到小排序,设定阈值 θ(θ∈(0,1)),过滤掉所有相似度小于θ的元素对,对于相似度大于或 等于θ的元素对,建立这两个元素之间的映射关系,即得到船舶装备 维修保障信息关系数据库模式与本体间的映射。

本发明借鉴信息检索技术,应用多策略组合的关系数据库模式 与本体间半自动映射方法,克服了已有关系数据库模式与本体间映 射方案的人工定义或复杂度太高等缺点,关系数据库模式与本体间 映射是建立基于本体的装备维修保障信息语义集成系统的前提,能 够有效地集成现有的船舶装备维修保障信息,便于维修保障人员对 其实施有效管理,提供决策支持和远程维修保障支援能力,推进维 修保障信息的高效利用和保障资源的优化,使装备发挥其最大效能, 因而具有重要理论价值和实际意义。

附图说明

图1为本发明的关系数据库模式与本体间映射方法流程示意图;

图2为本发明的船舶装备维修保障信息故障本体示例;

图3为本发明的船舶装备维修保障信息故障关系数据库示例;

图4为本发明的关系数据库模式与本体间映射工具界面。

具体实施方式

以下结合附图和实施例对本发明作进一步的详细说明:

本发明首先,对关系数据库模式及本体的元素类型进行分类,本 体元素主要包括类、对象属性和数据类型属性,将关系数据库模式 的关系分为实体类型关系和关系类型关系,将关系数据库模式的属 性分为外键属性和非外键属性,然后在上述元素分类的基础上,依 据启发式规则,建立关系数据库模式元素与本体元素之间的映射类 型;

然后,综合元素的各种可用信息,利用多种策略发现关系数据库 模式与本体元素之间的映射关系。首先对船舶维修保障领域本体的 建立进行了介绍,并对船舶维修保障领域关系数据库元素的命名规 则进行了分析,将其分为两种情况,分别为英文、拼音和中文描述。 然后根据以上分析,对不同的情况进行不同的处理,设计了多种策 略发现二者之间的映射关系,包括:基于语言学的策略、基于背景 知识的策略和基于推理的策略。基于语言学的策略利用元素的语言 描述信息(例如属性的名称、类的注释等),如果关系数据库模式为 英文描述,则先将本体元素转换成英文,然后利用向量空间模型和 余弦相似度公式计算元素之间的相似度;如果关系数据库元素用中 文描述,则先将关系数据库和本体元素转换成英文,然后利用向量 空间模型和余弦相似度公式计算元素之间的相似度。基于背景知识 的策略是指利用可用的背景知识(例如同义词表、中英文对照词库 等)发现元素之间的映射关系,对于上述三种情况设计了三种背景 知识的利用策略,分别为保存转换结果、保存已有映射结果、保存 领域内中文同义词。基于推理的策略利用关系数据库及本体的语义 关系进行推理,设计了两条推理规则,利用关系与属性、类与属性 以及属性与数据类型等约束,发现错误的映射,并进行滤除。

最后,开发相应的人机界面,半自动地完成关系数据库模式与本 体间的映射。设计了一种可视化的、界面友好的映射工具,辅助用 户建立映射,用户能够对系统自动建立的映射进行编辑(添加或删 除)。系统还提供了一种高效的、问答式的工作模式以便排除更多的 错误映射,每次提问都选择最有可能为错误的映射,这样,通过多 次提问,最终获得可信度高的映射结果。

本发明的船舶装备维修保障信息关系数据库模式与本体间映射 方法的具体步骤如图1所示,它包括如下步骤:

步骤1:对船舶装备维修保障信息本体的元素和船舶装备维修保 障信息关系数据库模式的元素进行分类,将上述船舶装备维修保障 信息关系数据库模式的元素中的关系R分为实体类型关系ER和关系 类型关系RR,将船舶装备维修保障信息关系数据库模式中的属性A 按数据库逆向工程方式分为外键属性FKA和非外键属性NFKA,将 船舶装备维修保障信息本体的元素按船舶装备维修保障信息本体自 带的说明规范,分为船舶装备维修保障信息本体元素的类C和属性 P,将属性P进一步分为船舶装备维修保障信息本体元素的对象属性 Po和船舶装备维修保障信息本体元素的数据类型属性Pd,一般而言, 一个实体类型关系应该映射到本体的一个类,一个关系类型关系应 该映射到本体的一个对象属性,类似的,外键属性映射到本体的对 象属性,而非外键属性可以映射到本体的对象属性,也可以映射到 数据类型属性(需要注意的是,关系类型关系中所有主键且作为外 键的属性,不参与到映射过程,否则会导致重复)。按照上述启发式 规则,建立船舶装备维修保障信息关系数据库模式和船舶装备维修 保障信息本体之间的如下映射类型:

实体类型关系ER至船舶装备维修保障信息本体元素的类C的映 射类型,即{ER}→{C};

关系类型关系RR至船舶装备维修保障信息本体元素的对象属性 Po的映射类型,即{RR}→{Po};

外键属性FKA至船舶装备维修保障信息本体元素的对象属性Po的映射类型,即{FKA}→{Po};

非外键属性NFKA至船舶装备维修保障信息本体元素的对象属 性Po与船舶装备维修保障信息本体元素的数据类型属性Pd并集的映 射类型,即{NFKA}→{Po∪Pd};

后续建立的关系数据库模式与本体元素间的映射,必须属于上述 四种映射类型的范畴,否则为错误映射;

步骤2:根据如下步骤201~步骤203得到待处理船舶装备维修保 障信息关系数据库模式与待处理船舶装备维修保障信息本体(以船 舶装备维修保障故障信息为例,建立的本体如图2所示)之间的映 射关系:

步骤201:将待处理船舶装备维修保障信息本体的元素的命名方 式统一为英文描述,然后判断船舶装备维修保障信息关系数据库模 式的元素的命名方式为以下两种命名方式的哪一种:

第一种船舶装备维修保障信息关系数据库模式的元素的命名方 式为:使用英文单词或缩写进行描述,例如“故障信息表”用“fault”、 “faultInfor”表示,“故障发生时间”用“time”、“fault_time”表示;

第二种船舶装备维修保障信息关系数据库模式的元素的命名方 式为:直接使用中文进行描述,例如“人员信息表”用“人员信息”、“人 员”表示;

步骤202:对于第二种命名方式,首先将对应的船舶装备维修保 障信息关系数据库模式的元素转换成英文描述(通过Microsoft Translator软件进行翻译),此时即将第二种命名方式转换成了第一 种命名方式,然后为待处理船舶装备维修保障信息本体的每个元素 和待处理船舶装备维修保障信息关系数据库模式的每个元素分别构 建对应的虚拟文档,每个虚拟文档包括上述待处理船舶装备维修保 障信息本体的每个元素或船舶装备维修保障信息关系数据库模式的 每个元素对应的英文描述,还包括与上述每个元素结构上相邻的元 素对应的英文描述(为了引入结构特征来捕获语义信息),根据步骤 1的分类方式为不同类型船舶装备维修保障信息本体的元素和船舶 装备维修保障信息关系数据库模式的元素构建不同的虚拟文档;对 于第一种和第二种情况,为了防止每次都要进行语言转换,将每次 转换的结果保存在文本文件中。当面临新的映射任务时,首先对该 文本文件进行检索,若存在对应的转换,则直接使用。若不存在, 则先进行转换然后将其存入文本文件的末尾,以便下次使用;对于 第二种情况,为了防止每次进行相似度计算,对已有的映射结果进 行分析,建立舰船装备维修保障领域中文同义词词库,存入文本文 件中(正反方向各存一次),当面临新的映射任务时,检索该文本文 件,找出元素词汇的同义词,以便更高效率地发现映射;

为待处理船舶装备维修保障信息关系数据库模式的元素中的关 系,根据以下方式构建虚拟文档:

对于待处理船舶装备维修保障信息关系数据库模式中的关系R, 若为实体类型关系ER,则该关系R的虚拟文档只包括自身的英文描 述;若为关系类型关系RR,则该关系R的虚拟文档不仅包括其自身 的英文描述,还包括关系类型关系RR所引用关系的英文描述;例如 图3中关系类型关系T_require的虚拟文档为{“require”、“fault”、 “resource”};

用vdoc()函数表示虚拟文档,用desc()函数表示待处理船舶装备 维修保障信息本体的每个元素或船舶装备维修保障信息关系数据库 模式的每个元素的英文描述,具体形式化如下:

vdoc(R)=desc(R)RERdesc(R)+desc(rel(AR))RRR,ARref(AR),ARpk(R)---(1)

其中,AR∈pk(R)表示AR属于关系R的主键,AR′∈ref(AR)表示关 系R的主键引用的属性,rel(AR′)表示属性AR′所属的关系, desc(rel(AR′))表示属性AR′所属的关系的英文描述,vdoc(R)表示关系 R的虚拟文档,desc(R)表示关系R的英文描述;

对于待处理船舶装备维修保障信息关系数据库模式中的属性A, 则其虚拟文档除了自身的英文描述外,还包括该属性A所属的关系 的英文描述,如果它是外键属性FKA,则还需进一步考虑该属性A 引用的属性所属关系的描述;如果该属性A是非外键属性NFKA,则 需补充其数据类型,具体如下:

vdoc(A)=desc(A)+desc(rel(A))+desc(rel(A))Aref(A),AFKAdesc(A)+desc(rel(A))+desc(type(A))ANFKA---(2)

其中,type(A)表示属性A的数据类型,desc(type(A))表示属性A 数据类型的英文描述,desc(rel(A))表示属性A所属的关系的英文描 述,desc(A)表示属性A的英文描述,desc(rel(A′))表示属性A′所属关 系的英文描述;

对于船舶装备维修保障信息本体元素的类C,它的虚拟文档就 是其自身的英文描述,即:

vdoc(C)=desc(C)(3)

对于待处理船舶装备维修保障信息本体中的属性P,则其虚拟文 档除了自身的自然语言描述外,还包括它的定义域d(P)和值域r(P) 的自然语言描述,对于船舶装备维修保障信息本体元素的数据类型 属性Pd,其值域为数据类型,具体如下:

vdoc(P)=desc(P)+desc(d(P))+desc(r(P))(4)

其中,待处理船舶装备维修保障信息本体中的属性P=船舶装备 维修保障信息本体元素的数据类型属性Pd+船舶装备维修保障信息 本体元素的对象属性Po,vdoc(P)表示待处理船舶装备维修保障信息 本体中属性P的虚拟文档,desc(P)表示待处理船舶装备维修保障信 息本体中属性P的英文描述,desc(d(P))表示定义域d(P)的英文描述, desc(r(P))表示值域r(P)的英文描述;

这样,就为船舶装备维修保障信息关系数据库模式和本体的每 个元素构建了虚拟文档,每个虚拟文档都看成向量空间模型(Vector SpaceModel,VSM)中的一个向量,对于每个虚拟文档,其中任一 单词i的权重用如下TF-IDF算法进行计算:

tfi=niΣknk---(5)

idfi=logNn+1---(6)

wi=tfi·idfi(7)

其中tfi为单词i的词频,ni为单词i在该虚拟文档内出现的次数, 为该虚拟文档的总词数;idfi为逆文档频率,N为虚拟文档总数, n为含有单词i的虚拟文档数,wi表示单词i的权重,这样虚拟文档 就转换成带权值的单词集合即向量,对于任意两个带权值的单词集 合,即向量ei和ej之间的相似度sim(ei,ej)用如下余弦相似度公式来 衡量:

sim(ei,ej)=Σk=1DwikwjkΣk=1Dwik2Σk=1Dwjk2---(8)

其中,wik表示向量ei中单词k的权值,wjk表示向量ej中单词k 的权值,D为向量的维度,即所有单词的总数;

步骤203:按照步骤1建立的映射类型,和步骤201、步骤202 中的方法,计算船舶装备维修保障信息关系数据库模式中元素es与 本体中元素et之间的相似度sim(es,et),即船舶装备维修保障信息关 系数据库模式的元素对应的向量之间的相似度,得到所有满足映射 类型要求的元素间相似度后,按照相似度从大到小排序,设定阈值 θ(θ∈(0,1)),过滤掉所有相似度小于θ的元素对,对于相似度大于或 等于θ的元素对,建立这两个元素之间的映射关系,即得到船舶装备 维修保障信息关系数据库模式与本体间的映射。

上述步骤2在实施时,为了提高效率,利用ApacheLucene搜索 引擎实现该方法。Lucene首先分别提取关系数据库模式元素和本体 元素的词汇,进行标准的预处理(全部转换成小写、去掉停用词、 正规化),并为每个元素的虚拟文档建立索引(Index)。然后为关系 数据库的每个元素建立查询语句(对应的虚拟文档),查询本体的索 引,将返回结果(Hits)中相似度最大的Top-K个结果保存。然后将 关系数据库与本体互换,重复上一步。最后计算上述两个步骤的交 集。这样不仅效率更高,而且保证了查全率。

上述步骤203后还包括步骤3:

为了发现步骤203中得到的船舶装备维修保障信息关系数据库 模式与本体间的映射是否存在错误,并将存在的错误排除,设计了 基于推理的策略(关系数据库模式中关系的属性必须依靠关系存在, 并且属性具有数据类型等诸多约束,因此可以利用这些信息进行一 些简单的推理,发现错误的映射,得到可信度更高的映射结果),主 要包括如下两条推理规则:

如果存在待处理船舶装备维修保障信息关系数据库模式中的属 性A与待处理船舶装备维修保障信息本体中的属性P之间的映射m, 但不存在所述属性A所属的船舶装备维修保障信息关系数据库模式 的元素中的关系R与所述属性P定义域所属的类C之间的映射,则 映射m为错误映射;

如果存在待处理船舶装备维修保障信息关系数据库模式中的属 性A与船舶装备维修保障信息本体元素的数据类型属性Pd之间的映 射m1,但是所述属性A的数据类型与所述数据类型属性Pd的值域所 属的数据类型为预设的不兼容数据类型(例如整数型int与长整数型 long兼容,与字符串型string不兼容;单精度浮点型float与双精度浮 点型double兼容,与布尔型boolean不兼容;时间型time与日期时间型 datetime兼容,与字节型byte不兼容等),则m1为错误映射;

在船舶装备维修保障信息关系数据库模式与本体间的映射结果 中删除上述错误映射m和错误映射m1

上述技术方案的步骤2中,对船舶维修保障领域本体的建立和 船舶维修保障领域关系数据库元素的命名规则进行了分析。在此前 提下,设计了多种策略发现二者之间的映射关系,包括:基于语言 学的策略、基于背景知识的策略和基于推理的策略。先实施语言学 策略,过程中可以利用其他背景知识,最后利用基于推理的策略过 滤错误的映射,自动化地建立关系数据库模式与本体元素的映射关 系。

上述步骤3后还包括步骤4:

为了进一步提高上述得到的删除错误映射m和错误映射m1后的 船舶装备维修保障信息关系数据库模式与本体间映射的准确率和查 全率,设计了如下系统提问、用户回答的交互方式来排除更多错误 映射,从而提高映射结果的质量,如果逐条提问,则当关系数据库 模式和本体的规模较大时,比较耗时且容易出错。因此,在该问答 过程中,为了获取最具信息量的映射来问询用户,提问规则为:

规则一、如果存在船舶装备维修保障信息关系数据库模式和本 体间映射(es,et)和映射(es′,et′),且其中es=es′或et=et′,es、et为船舶装 备维修保障信息关系数据库模式中的元素,es′、et′为船舶装备维修保 障信息本体的元素,则映射(es,et)和映射(es′,et′)中有一个映射为错误 映射,选择相似度差值最小的映射,即

Q(es,et)=min{|sim(es,et)-sim(es′,et′)|};es=es′或et=et

规则二、选择相似度sim(es,et)与阈值θ相差最小的映射,即

Q(es,et)=min{|sim(es,et)-θ|}

该方式通过不断迭代,每次迭代选择满足上述两条规则的映射, 用户对映射正确与否做出判断,使得系统能够在最少问答次数的情 况下,获得最大的映射质量增加。

除此之外,还开发了可视化的映射工具,能够辅助领域专家建 立关系数据库模式与全局本体的映射关系,如图4所示。利用OWL (WebOntologyLanguage,网络本体语言)API(应用程序编程接口) 解析本体文件,利用相应的数据库访问接口(例如JDBC(JavaData BaseConnectivity,java数据库连接)等)获取关系数据库元素,以 树状结构显示关系数据库模式的关系和属性,以及本体的类及数据 类型属性,而对象属性则以隐性信息展现。映射结果以列表形式展 示,用户可以对映射结果进行编辑(添加、删除并保存)。

本说明书未作详细描述的内容属于本领域专业技术人员公知的 现有技术。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号