首页> 中文学位 >基于本体进行自动分类的中文元搜索引擎结果优化方案
【6h】

基于本体进行自动分类的中文元搜索引擎结果优化方案

代理获取

目录

文摘

英文文摘

声明

一绪论

(一)研究背景

(二)研究动机

(三)本文所做的主要工作及创新点

(四)本文的组织

第二章元搜索引擎

(一)元搜索引擎诞生的背景

1.搜索引擎的工作原理

2.搜索引擎分类

3.搜索引擎存在的重要问题

4.搜索引擎发展方向

(二)元搜索引擎的定义及特点

(三)元搜索引擎的工作流程

(四)元搜索引擎的分类

(五)中文元搜索存在问题及改进方案的研究

1.中文元搜索引擎存在的问题

2.中文元搜索引擎的改进方案

(六)检索结果的分类组织及其呈现方式的效率分析

1.元搜索引擎中对查询结果进行分类组织的意义

2.元搜索引擎结果分类的类目组织方式

3.不同的类目组织方式的效果分析

4.网页结果的显示方式

第三章中文网页的自动分类技术

(一)文档自动分类技术的研究

1.自动分类方法介绍

2.自动分类方法发展方向

(二)中文网页自动分类的一般过程

(三)中文网页自动分类的关键步骤

1.预处理

2.网页特征项提取

3.分类器算法

第四章本体的基本理论

(一)本体(Ontology)的概念

(二)本体的作用

(三)本体的种类

(四)本体的语义表示元素及相应的建模元语

(五)本体在中文元搜索引擎查询结果自动分类中的应用

第五章药学本体的构建

(一)药学本体构建方法

1.已有的构建方法

2.药学本体构建方法

(二)药学本体构建过程

1.需求分析

2.复用现有药学本体的可能性分析

3.药学领域知识的结构化分析及核心概念集的获取

4.药学核心概念集的获取

5.定义类和类的层次结构

6.定义类的属性及属性的侧面

7.定义类的实例

8.同义词的处理

(三)本体的形式化编码

(四)药学本体形式构建

第六章基于本体进行自动分类的中文元搜索引擎结果优化实验系统的设计与实现

(一)系统分析和总体构架

1.主要开发工具

2.系统的功能及工作流程

(二)系统设计与实现中的关键问题

1.本体解析

2.查询词规范及语义扩展

3.检索结果收集及预处理

4.概念匹配

5.网页赋类

6.本体进化

(三)实验系统效果分析与评价

1.用户输入界面

2.结果输出界面

3.本体进化界面

4.网页分类精确度统计

第七章总结与展望

(一)本文总结

(二)进一步研究方向

参考文献

致谢

攻读学位期间发表的学术论文

展开▼

摘要

随着Web流行和网上信息爆炸性增长,如何在浩瀚如海的信息空间里,快速查找并获取所需的信息已成为一项极富挑战的工作,搜索引擎成为人们在互联网上最常用的工具,目前独立搜索引擎面临主要的问题有:网络信息覆盖面逐渐降低、检索结果数量巨大、鱼龙混杂筛选困难等等。元搜索引擎集成了多个搜索引擎的查询结果,扩大了网络资源的覆盖率,提高了单次查询的检全率,目前元搜索引擎的技术并不是很成熟,尤其是中文元搜索引擎的使用情况更不理想。立足于中文处理技术,改进检索结果输出方式,将有效提高中文搜索引擎的竞争力。 本体技术将领域知识以概念集及概念间的相互关系用规范化的形式语言进行描述,在智能信息检索、智能信息代理、智能信息分类等方面得到应用。 本文研究的出发点正是看到了本体在定义机器可理解的领域知识方面的作用,把本体应用在元搜索引擎的结果分类中,对查询结果进行基于语义的自动分类,形成层次清晰、逻辑合理的结果反馈界面,使用户能够直观地挑选自己需要的类目。另一方面基于本体对用户的查询请求进行语义分析,规范或扩展查询词表达式,起到提高查全率和查准率的作用。 本文首先概述了搜索引擎和元搜索引擎的工作原理、存在的问题和已有的改进方案,并对现有的几种检索结果的分类组织及呈现方式的效率进行了分析。接着介绍了目前主要的几种文档自动分类技术,对于中文网页自动分类的关键技术,包括网页结构的解析、中文分词、网页特征提取、分类器算法等进行了分析。接着介绍了本体的基本理论,本体在本文提出的中文元搜索引擎查询结果自动分类中的作用。本文所做的创新性工作是: (1)构建了“药学本体”,包括药学领域核心概念的提取与整理,类、属性、实例的设计方法及本体的形式化编码等过程。 (2)对中文元搜索引擎的用户查询词进行基于本体的扩展和规范,以扩大用户的选词视野和联想提问,激发潜在的检索需求,根据用户需要对查询结果进行领域限定,避免一些无关结果的出现。 (3)设计了基于本体的中文元搜索引擎结果进行自动分类的模型,包括检索请求输入界面、相关检索词提示、检索结果的提取、集成和分词、提取网页特征词、网页类别相关度计算、网页赋类、结果输出以及本体进化等模块。 (4)实现了该模型的原型系统。对于药学领域的检索词进行联机检索,并输出与检索词相关的各个属性的分类页面。在原型系统上进行了相关的实验,可以看出输出结果类目清晰、逻辑合理,屏蔽了非本领域的网页结果,提高了检索结果的输出质量。 最后对本文的工作进行了总结,提出了下一步的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号