首页> 中国专利> 一种基于叙词表的本体自动生成系统及其方法

一种基于叙词表的本体自动生成系统及其方法

摘要

一种基于叙词表的本体自动生成系统及其方法,自动完成由叙词表到本体文件的转换。该系统由8个模块组成:解析模块、术语及关系映射模块、术语及关系重构模块、规范性自检模块、本体文件更新模块、本体解析模块、本体推演模块和术语图谱构建构成。该系统提供一种本体库自动生成系统及其方法,用户不需要逐条术语进行手动编辑,减少了用户输入错误,提高效率;同时,首次采用具有双向结构的邻接表作为术语显示的映射表,在术语展示层实现了传统的正向展示图谱、查看术语间的关系,又可以反向展示图谱、查看术语间的关系,方便用户查看术语的关系;避免了单一的展示方式,同时支持搜索功能,便于查找术语。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-08-19

    授权

    授权

  • 2013-04-17

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121031

    实质审查的生效

  • 2013-03-20

    公开

    公开

说明书

技术领域

本发明是一种基于叙词表的本体自动生成系统及其方法,属于信息检索领 域。

背景技术

当前以计算机技术和网络技术为核心的现代信息技术迅速发展,尤其是个 人电脑和因特网的广泛应用与普及和知识可视化的探索和发展,使得各学科中 知识体系在计算机中的实现越来越引起人们的关注,学科知识体系在计算机或 者网络中的查找和共享也变得尤为重要。利用信息技术知识构建一个完备的灵 活的可兼容可扩充的知识地图是当前一个较为有效的科学的方法。

本体构建有多种途径,如直接构建领域本体、以现有分类法为基础构建领 域本体、以现有叙词表为基础构建领域本体等。叙词表是特定学科领域内的表 达事物概念的词汇集合;是通过各种方式对叙词之间的各种词义联系进行显示 的词汇系统;是领域本体的目标是捕获相关领域的知识,确定该领域内共同认 可的词汇,并从不同层次的形式化模式上给出这些词汇之间相互关系的明确定 义。

本体是一种能在语义层次上描述信息的概念模型,它通过对概念及其关系 的描述,使得领域叙词在共享范围内具有被共同认可的、明确的、形式化的定 义。然而,本体构建的方式仍然以手工构建为主,这种构建方法自动化程度低, 工程繁琐而浩大,且难以进行维护和修改。本发明中将叙词表本体化与关系学 习技术结合起来,构建了本体文件自动生成系统,一方面用叙词表弥补概念及 分类关系获取效果不理想的问题;另一方面提高了用户搜索、查看术语的效率 和准确性。

发明内容

本发明的技术解决问题:克服现有技术的不足,提供一种基于叙词表的本 体自动生成系统及其方法,用户不需要逐条术语进行手动编辑,减少了用户输 入错误,极大的提高系统效率;本发明提供了一种基于用户查询和正反双向展 示的图谱,方便用户查看术语及其关系。

本发明的技术解决方案:基于叙词表的本体自动生成系统,如图1所示包 括:服务器和客户端,其中服务器端包括:叙词表解析模块、术语及关系映射 模块、术语及关系重构模块、规范性自检模块、本体文件更新模块、本体解析 模块、本体推演模块和术语图谱构建模块;客户端进行叙词表文件导入、本体 编辑和展示,具体如下:

叙词表解析模块:首先对叙词表进行预处理,将序词表解析成方便程序进 行处理的txt格式;然后逐条地对叙词中叙词进行处理,分离出叙词及叙词关系, 所述术语关系是用代关系、属分关系及相关关系;把叙词表中的叙词及叙词关 系通过索引的形式映射到叙词映射文件中,所示叙词映射文件是用于存储叙词 及叙词关系的文件,叙词映射文件供术语及术语关系映射模块解析。

术语及关系映射模块:对叙词映射文件进行解析,获取叙词索引信息,将 叙词按叙词所属范畴分成若干类,并区分出上位词、下位词和族首词,存储到 术语表,即:thesaurusTable;根据解析结果,对叙词术语关系进行语法分析, 检查每个叙词的关系是否符合语法规则,分析完一个叙词,并进行相应的存储, 当所有的叙词分析完后,构成形成叙词关系分析树,各相关叙词存放在分析树 的节点中,并按照等同关系、属分关系以及相关关系存储到关系表,即: relationTable;通过对叙词映射文件进行预处理,将叙词转变成本体中的概念, 使叙词映射文件真正成为领域本体建设的基础资源。

术语及关系重构模块:对thesaurusTable进行循环遍历,取出每个术语,把 每个术语转换成本体类的主属性,然后遍历relationTable表,获取当前术语关 系分析树,确定与其相关术语间的等级关系,然后对术语及术语关系进行处理, 转换为初始本体中相应的类及层次关系,最终生成初始本体文件,供规范性自 检模块调用。

规范性自检模块:读取初始本体文件,对初始本体文件进行概念、类、及 属性进行检查,如果不存在问题,则自动生成本体文件;如果存在问题,则保 存到日志文件中,继续解析下一条术语;当解析完成后,系统自动把初始本体 文件及日志推送到客户端本体编辑模块。

本体文件更新模块:响应用户对本体文件或初始本体文件编辑操作,所述 操作有添加、删除、修改,并根据用户的操作,重新构建新的本体文件。本体 文件更新模块会自动调用规范性自检模块,最终生成本体文件,供本体解析模 块调用。

本体解析模块:负责解析本体文件,把术语及术语关联关系进行分解,一 个术语节点可以分解为多个子节点,从而构成树状结构;一组被连接的术语节 点代表一个术语集合或一个术语流程,从而构成图状结构;在本体文件解析过 程中,将术语及术语关系封装成具有双向链表功能的邻接表即:adjTable,供本 体推演模块调用,从而实现正向和方向两个方向的遍历和查找功能。

本体推演模块:负责读取adjTable中数据,根据用户的需求,所述用户需 求为:术语树、术语地图、正向展示、反向展示;系统从adjTable中读取相关 数据,封装到成tempData数据包,供术语图谱模块调用。

术语图谱构建模块:对tempData数据包进行解析,根据用户选择,系统自 动生成术语树或术语地图,并利用信息可视化技术和工具进行展示;根据用户 的需要可以正向展示图谱或者反向展示图谱,并为用户提供搜索、浏览某个具 体术语的功能。

基于叙词表的本体自动生成方法,实现步骤如下:

(1)对叙词表文件进行解析,分离出叙词及叙词关系;首先对叙词表进行 预处理,将序词表转换成方便程序进行处理的txt格式,即:thesaurus.txt;然 后遍历thesaurus.txt文件,逐条地对叙词进行处理,分离出叙词及叙词关系;把 叙词表中的叙词及叙词关系通过索引的形式映射到存储到已经定义好的哈希表 中,即:HashMap,当解析结束后,把全部数据存储到叙词映射文件,即: thesaurusMapFile,供术语及关系映射模块调用。

(2)对thesaurusMapFile进行解析,根据索引信息,将叙词按其概念所属 范畴分成若干类,第一次循环遍历thesaurusMapFile,读取每个叙词,区分出上 位词、下位词和族首词,并存储到术语表中,即:thesaurusTable;再次遍历叙 词映射文件,解析出叙词的用、代、属、分等关系根据等同关系、属分关系以 及相关关系;当所有的叙词分析完后,构成形成叙词关系分析树,各相关叙词 存放在分析树的节点中,并存储到关系表中,即:relationTable,供术语及关系 重构模块调用。

(3)对thesaurusTable进行循环遍历,取出每个术语,把每个术语转换成本 体类的主属性,再次遍历relationTable表,获取当前术语关系分析树,获取术 语的用代关系,属分关系和相关关系,并转换为初始本体中相应的类及层次关 系,最终生成初始本体文件,供规范性自检模块调用。

(4)客户端可以对术语进行编辑,方便查看、修改已经生成的术语初始本 体文件或本体文件;对于有问题的初始本体文件,系统自动推送到客户端,供 有户进行修改;没有问题的初始本体文件,用户可以手动调用进行编辑;用户 对本体做修改时,修改信息储存在缓存临时表中,即:tempTab,当用户退出程 序或点击保存按钮时修改信息自动传送到服务器中,并写入本体文件;初始本 体文件没有问题后,经过规范性自检流程,自动生成本体文件。

(5)客户端发起查看术语及术语关系的请求,所示请求有知识树、知识地 图、正向展示和反向展示;根据客户端的请求,服务器端对本体文件的解析, 把术语及术语关联关系进行分解,一个术语节点可以分解为多个子节点,从而 构成树状结构。一组术语节点代表一个术语集合或一个术语流程,从而构成图 状结构;在术语解析过程中,将术语及术语关系解析成具有双向链表功能的邻 接表,即:adjTable中,可实现正向展示图谱功能和反向展示图谱功能。

本发明与现有技术相比的优点在于:

(1)本发明提供的一种本体库自动生成系统及其方法,用户不需要逐条术 语进行手动编辑,同时,减少了用户输入错误,提高效率。

(2)本发明首次采用具有双向结构的邻接表作为术语显示的映射表,在术 语展示层实现了传统的正向展示图谱、查看术语间的关系,又可以反向展示图 谱、查看术语间的关系,方便用户查看术语的关系。

(3)本发明在术语显示层实现了术语树和术语地图两种展示方式,避免了 单一的展示方式,同时支持搜索功能,便于查找术语。

附图说明

图1为本发明框架图;

图2为本发明的叙词表解析流程;

图3为本发明的本体文件自动构建流程;

图4为本发明的本体文件更新流程图;

图5为本发明的术语可视化流程图;

图6为本发明的术语检索流程图。

具体实施方式

为了更好地理解本发明,先对一些基本概念进行一下解释说明。

叙词表:叙词表是由叙词及叙词之间关系组成,采用参照符号显示、并清 楚的区分叙词间基本语义关系。

用代关系:

例:计算机语言Y程序设计语言;Y后的词为正式叙词,用 程序设计语言D计算机语言;D后的词为非正式叙词,代 Y-D是相互关系。

属分关系:

例:回路式风洞

S风洞;属风洞

F回路式风洞;分

S-F是相互关系。

参关系:

例:风洞气源

C压力容器;参压力容器

C风洞气源;破裂试验

C是相互关系。

族首词:

例:Z程序设计语言*

族首词,属的顶级,只有”F”分。在数据库的词间关系字段中,族首词前用 Z做标志。

领词:

例:文件系统#

#是领词标志,是属的特殊形式,领词必有属。说明:词族太大,分 为分词族,分词族的族首词为领词,领词的下分项在其词族中不显示。在数据 库的词间关系字段中,领词前有L做标志。

多层属:

例:膛内气体动力学

S气体动力学

流体动力学

动力学

力学

本体:对某一领域知识共同的理解,确定该领域内共同认可的概念,从不 同的层次的形式化模式给出这些概念以及概念相互间关系的明确定义,并通过 概念间的关系来描述概念的语义。

同义关系:A<X>B,指概念A含义与概念B含义相同。

近义关系:A<X>B,概念A与概念B存在着相近的关系。

反义关系:A<X>B,概念A与概念B存在着相反的关系,或相对的关系。 部分与整体关系:A<X>B,指概念A表示组成部分概念,概念B表示一个整 体概念。

因果关系:A<X>B,指概念A是导致或造成概念B的一个原因。

客户端:是用户和服务器进行数据传输的中间系统,在客户端,用户向服 务器发起操作请求,所述请求包括:解析叙词表文件,修改初始本体文件,术 语展示方式;客户端负责解析数据,并以可视化的窗口的形式展示服务器响应 用户请求的数据。客户端服务器最低配置要求:

CPU主频:1GHz

内存:1GB

硬盘容量:1T

以太网卡:百兆

服务器:主要是响应用户的请求,由叙词表解析模块,术语及关系映射模 块,术语及关系重构模块,规范性自检模块,本体文件更新模块,本体解析模 块组成;服务器根据用户输入的约束条件自动处理数据,所述数据包括:叙词 表文件,初始本体文件和本体文件;服务器在解析数据的同时生成临时文件, 所述临时文件包括叙词映射文件,初始本体文件和本体文件。服务器最低配置 要求:

CPU主频:128GHz

内存:64GB

硬盘容量:128T

以太网卡:千兆

如图1所示,本发明一种基于叙词表的本体自动生成系统由叙词表解析模 块、术语及关系映射模块、术语及关系重构模块、规范性自检模块、本体文件 更新模块、本体解析模块、本体推演模块和术语图谱构建构成。

本发明整个实现过程如下:

(1)首先对叙词表进行预处理,将序词表解析成方便程序进行处理的txt格 式;然后逐条地对叙词中叙词进行处理,分离出叙词及叙词关系;把叙词表中 的叙词及叙词关系通过索引的形式映射到叙词映射文件。

(2)对叙词映射文件进行解析,获取叙词索引信息,将叙词按叙词概念所 属范畴分成若干类,并区分出上位词、下位词和族首词,存储到术语表,即: thesaurusTable;根据解析结果,对叙词术语关系进行语法分析,并按照等同关 系、属分关系以及相关关系存储到关系表,即:relationTable;通过对叙词映射 文件进行预处理,将叙词转变成本体中的概念,使叙词映射文件真正成为领域 本体建设的基础资源。

(3)对thesaurusTable进行循环遍历,取出每个术语,把每个术语转换成本 体类的主属性,然后遍历relationTable表,获取当前术语关系分析树,确定与 其相关术语间的等级关系,然后对术语及术语关系进行处理,转换为初始本体 中相应的类及层次关系,最终生成初始本体文件。

(4)读取初始本体文件,对初始本体文件进行概念、类、及属性进行检查, 如果不存在问题,则自动生成本体文件;如果存在问题,则保存到日志文件中, 继续解析下一条术语;当解析完成后,系统自动把初始本体文件及日志推送到 客户端本体编辑模块。

(5)响应用户对本体文件或初始本体文件编辑操作,所述操作有添加、删除、 修改,并根据用户的操作,重新构建新的本体文件。本体文件更新模块会自动 调用规范性自检模块,最终生成本体文件。

(6)解析本体文件,把术语及术语关联关系进行分解,一个术语节点可以分 解为多个子节点,从而构成树状结构;一组被连接的术语节点代表一个术语集 合或一个术语流程,从而构成图状结构;在本体文件解析过程中,将术语及术 语关系封装成具有双向链表功能的邻接表即:adjTable,供本体推演模块调用, 从而实现正向和方向两个方向的遍历和查找功能。

(7)读取adjTable中数据,根据用户的需求,所述用户需求为:术语树、术 语地图、正向展示、反向展示;系统从adjTable中读取相关数据,封装到成 tempData数据包。

(8)解析tempData数据包,根据用户选择,系统自动生成术语树或术语地 图,并利用信息可视化技术和工具进行展示;根据用户的需要可以正向展示图 谱或者反向展示图谱,并为用户提供搜索、浏览某个具体术语的功能。

上述各模块的具体实现过程如下:

1.叙词表解析流程

该流程的实现过程如图2所示:

(1)系统首先读入叙词表文件,验证叙词表文件是否合法;

(2)将叙词表文件通过转换模块,将文件转换成txt文件,即:temp.txt;

(3)程序首次遍历待解析temp.txt,按照叙词表中分节符进行读取,以创 建叙词,在创建过程中如果创建出错则跳过,解析下一条叙词;

(3.1)第二次遍历待解析文本,根据读取的叙词进行定位,读取术语之间 的关系以写入本体模型;

(3.2)把叙词及其关系存储到HashMap中。

(4)跳转到第2步;

(5)最后在解析转换完成后,生成叙词映射文件。

(6)结束。

2.本体文件自动解析流程

该流程主要包括:术语及关系重构、术语及关系映射和规范性自检组成, 其的实现过程如图3所示:

(1)系统首先读入叙词表映射文件,验证叙词表文件是否合法;

(2)解析叙词表映射文件;

(3)遍历叙词表映射文件,读取叙词,按照本体的生成规则,创建相应的 术语;

(3.1)如果成功,则并存入术语映射表中;

(3.2)如果不成功,则把错误信息记录到日志文件。

(4)根据当前术语,再次遍历叙词表映射文件,获取术语的关系;

(4.1)用、代关系存储到叙词相关的map<索引,关系>中。

(4.2)属、分关系存储到叙词相关的map<索引,关系>中,在叙词A中存 储的是属的关系,在叙词B中存储的分的关系。

(4.3)其他关系处理

(5)叙词及其关系树结构存储到relationTable中;

(6)转到步骤4继续。

(7)叙词结构体存储到thesaurusTable中;

(9)转到步骤2继续。

3.本体文件更新流程

该流程其的实现过程如图4所示:

(1)读取初始本体文或本体文件,并进行校验;

(2)解析初始本体文件或本体文件;

(3)获取用户需求信息;

(3.1)修改初始本体文件

读取日志文件,读取错误信息,进行修改相关的术语及其关系。

(3.2)编辑本体文件

添加术语:在本体文件中,增加一条术语;

删除术语:在本体文件中,删除一条术语;

修改术语:在本体文件中,修改一条术语;

(4)跳转到第3步;

(5)用户发送修改数据到服务器端;

(6)术语更新根据用户的修改信息,调用规范性自检模块进行校对,对本 体文件进行校对,如果没有错误,则重新生成本体文件;

(7)跳转到第1部或介绍。

4.术语可视化展示流程

该流程主要包括:术语及关系重构、术语及关系映射和规范性自检组成, 其的实现过程如图5所示:

(1)接受用户请求查询的术语;

(2)判断术语是否在本体库中

(3)根据用户请求的展示方式(树状展示或网状展示,正向展示或反向展 示),构建图形。

(3.1)若用户选择树状展示,遍历本体库中各本体术语,将术语及术语属 性内容构建到prefuse树状数据类型的对象中,同时屏蔽由于网状结构而造成 的重复循环情况。

(3.2)若用户选择网状涨势,遍历本体库中各本体术语,将术语及术语 属性内容构建到prefuse网状数据类型的对象中。

(4)将知识图谱通过applet小程序展现出来。

(5)根据用户选择,图形可以更改根节点,网络或树图方向,展开级别等。

(6)根据用户菜单选择提交选择术语关联的知识。

5.术语检索流程

该流程的实现过程如图6所示:

(1)系统中提供概念语义检索与关键词检索两种检索方式,系统根据用户 选择进行判断。

(2)若用户概念语义网检索,系统将根据用户的检索关键词匹配本体库中 相关术语,按照关键词及相关度最高的术语查询知识库中知识,系统同时匹配 用户的知识浏览权限。

(3)若用户选择关键词检索,则系统将根据用户填写的查询表单进行查询, 表单中包括一般知识中的各种属性。系统将用户查询的条件匹配用户的知识浏 览权限进行查询。

(4)系统提供在结果中查询方法,根据用户上次操作的查询条件与本次查 询条件交集取得最终查询结果。

应用举例:本发明的系统及方法已经成功应用于航天运载火箭技术研究院 的航天器型号的研制中,辅助不同业务领域的设计人员不需要逐条术语进行手 动编辑,减少了设计人员输入错误,极大的提高了工作效率,保证了型号研发 进度。

本发明未详细描述的部分属于本领域公知技术。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号