首页> 中文学位 >非结构化网络空间信息智能搜索与服务研究
【6h】

非结构化网络空间信息智能搜索与服务研究

代理获取

目录

中国科学院遥感应用研究所学位论文原创性声明

摘要

第一章绪论

第二章相关技术基础

第三章海量空间命名实体的在线识别

第四章基于空间语义角色的空间概念提取

第五章锚文本层次结构语义索引检索机制

第六章地图网页的搜索

第七章空间信息智能搜索引擎原型设计与实现

第八章总结与展望

参考文献

本文缩写名称对照

图索引、表索引

参与科研情况简介

读博期间发表论文情况

致谢

展开▼

摘要

非结构化数据占据了网络信息资源的大部分内容,它是网络搜索引擎的主要数据来源和研究对象。非结构化空间数据是网络信息资源的重要组成部分,研究非结构化网络空间信息智能搜索与服务是通用搜索引擎在空间信息领域提供专业化信息服务的主要研究内容。它是搜索引擎技术与WebGIS等技术相结合的产物,可以为普通用户提供本地信息服务(LocalService)和空间信息检索工具,符合当今信息检索技术朝着智能化、个性化方向发展的潮流。 作为“863”项目“空间信息智能网络搜索技术”的延续,本文以网络搜索引擎技术为基础,结合自然语言处理、GIS和信息提取等技术,对非结构化Web空间信息的智能获取、加工、服务方法进行了深入、系统的研究和实践。按照文本粒度的大小,本文分别在词、句、篇、篇层等层面上研究了空间命名实体的识别、空间语义分析、空间概念提取、锚文本层次结构语义索引等关键技术。利用这些技术,本文设计实现了地图网页搜索系统、“词虎”搜索器及“文图智通”的原型系统,并将这些技术和方法融入到非结构化Web空间信息智能搜索与服务系统(SIISE)的设计和实现中,初步构造出一个完整的空间信息搜索系统雏形。具体说来,主要开展了以下研究工作: [1]研究了海量空间命名实体(SNE)在线识别问题。在分析一般命名实体识别方法的基础上,提出利用SNE的空间特性、采用地理编码的手段在线识别单句、全文中SNE的技术思想。对于单句,利用基础地名词典进行切词,通过编码分析和SNE单元合并的策略进行识别;对于全文,利用全文粗扫描获取相关的地理编码,通过编码分析锁定文中涉及的空间范围,然后按照一定的策略自动加载匹配词典识别文中其它SNE。实验表明,这种方法能识别出大量在词典中不存在的组合式SNE,系统具备一定的自适应性,较好地解决了因命名实体词典数量庞大而导致的低效率问题。 [2]研究了自然语言中的空间语义分析与空间概念提取方法。根据汉语表达空间概念的特点以及GIS表征空间信息的特点定义了空间语义角色,并利用空间语义角色定义了空间概念的形式化描述方法,提出了利用空间语义角色分析自然语言中的空间语义和空间概念基本思路。方法是:先构造空间语义词典,采用浅层句法分析的原理,通过空间语义角色标注、短语识别以及概念模式匹配等手段提取了文本中的空间概念。初步实验显示,该方法具有较好的准确率,召回率还有待提高。 [3]探索了锚文本层次结构语义索引检索机制。在深入剖析锚文本的特征以及网站锚文本层次结构语义后发现:从网站链接结构中抽取出的锚文本层次结构树在一定程度上反映了创建者表达某类知识时使用的概念层次图,结构树中同路径结点上的锚文本间的层次关系与用户用多关键词进行逻辑“与”操作时所隐含的查询语义相近。利用这种特性本文提出了在搜索引擎中利用这种隐形语义的基本思想,具体阐述了利用编码的方法实现锚文本层次结构语义索引和检索方法,并用RDF/RDFS进行了描述,以扩展它在语义Web等方面的应用。 [4]研究了Web中地图网页的搜索与识别技术,设计实现了地图网页搜索系统。用实验证实了地图网页中常表现出的这样一种特性:网页中地图图片或地图对象的视图面积通常是最大的,且其长宽比常在一定的范围内变动。根据这一特性,本文提出了基于图片视图大小特征与外部关键词信息相结合的方法识别地图网页,并利用元搜索引擎的基本原理设计了地图网页搜索系统。该系统成为“863”项目“空间信息智能网络搜索技术”的主要模块之一 [5]拓展了研究成果的应用问题。利用空间命名实体识别技术,设计实现了“文图智通”及“词虎”搜索器的原型系统,并作为主要成员之一参加了“词虎2.0”的开发。同时,以该技术为基础,还设计了中文地址智能匹配算法。另外,利用空间语义分析与概念提取技术,对地理本体实例搜索与服务问题做了较为细致的研究,并对其在军事文书自动标图中的应用作了简要分析。 [6]设计开发了非结构化空间信息智能搜索原型系统,实现了其中大部分功能。该系统采用机器人搜索引擎的基本架构,突出了空间信息获取、加工和检索处理,并将本文中提出主要技术思想融合在一起,初步构建出一个完整的空间搜索系统雏形。 本文主要创新点和原创性的工作体现在以下两点: [1]发现Web信息检索中这样一种特性:网站创建者在构建锚文本层次结构图时所表达的概念间的层次语义与用户用多关键词进行逻辑“与”操作时所隐含的查询语义相近。提出了在搜索引擎中利用锚文本层次结构语义的基本思想,并给出了层次结构树的构造方法、编码方式、倒排索引方式以及锚文本层次结构语义检索方法。它对于基于关键词的搜索引擎提供语义级的检索结果有重要的参考价值。 [2]用实验证实了地图网页中常表现出这样的特性:网页中地图图片或地图对象的视图面积通常是最大的,且其长宽比值常在一定的范围内变动。利用这种特性,提出了基于图片视图大小特征与外部关键词信息相结合的方法识别地图网页,较好地解决了从普通网页中分离出地图网页的问题。该方法已应用于基于元搜索的地图网页搜索系统中。 此外,还有一些技术创新或应用创新性的工作,主要表现在以下几方面: [1]提出了利用SNE的空间特性、采用地理编码的手段在线识别单句、全文中SNE的技术思想和实现方法。该方法能识别出大量词典中不存在的组合式SNE,具备一定的自适应性,较好地解决了因命名实体词典数量庞大而导致的低效率问题。该技术已应用于“词虎”系列产品中。 [2]定义了空间语义角色,提出了利用空间语义角色和浅层句法分析的方法进行空间语义分析和空间概念提取。它为空间信息智能化服务提供了途径。 [3]提出了空间信息启发式搜索模式。通过计算锚文本中空间命名实体的出现情况以及URL目录深度来衡量网页相对重要度,使重要URL优先搜索。 [4]利用SNE识别技术以及空间概念提取技术,设计了中文地址智能匹配的实现算法,提出了地理本体实例搜索与服务的基本思路和实现方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号