首页> 中文学位 >基于Web的半结构化信息抽取方法研究
【6h】

基于Web的半结构化信息抽取方法研究

代理获取

目录

文摘

英文文摘

致谢

第1章绪论

1.1研究背景

1.2信息抽取概述

1.2.1信息抽取定义

1.2.2信息抽取与信息检索

1.2.3信息抽取系统的评估标准

1.3半结构化数据

1.3.1半结构化数据的概念

1.3.2半结构化数据的特点

1.3.3半结构化数据的数据源

1.4本文工作内容

1.5本文组织结构

第2章Web信息抽取方法研究及比较

2.1自由格式文本的信息抽取

2.2结构、半结构文本的信息抽取

第3章基于HTML文档的信息抽取

3.1基于规范表式结构的信息抽取实现

3.2基于HTML标记树信息抽取实现

3.2.1抽取流程

3.2.2 HTML解析器

3.2.3样本页描述接口

3.2.4规则提取器

3.2.5抽取阶段

3.3小结

第4章基于XML文档的信息抽取

4.1数据模式简介

4.1.1 XML模式

4.1.2关系数据库及其模式

4.2 XML Schema到E/R的模式转换

4.3 XML Schema到E/R的转换的算法描述

4.3.1定义的数据结构

4.3.2程序流程

4.4小结

第5章总结和展望

5.1总结

5.2展望

攻读学位期间所做的工作

参考文献

展开▼

摘要

随着Internet的迅猛发展,Web已经成为一个巨大的信息空间,为人们提供了一个极具价值的信息源.然而,因为Web固有的开放性、动态性和异构性,尤其是其上无固定模式的半结构化数据呈现日益繁荣的趋势,使得人们很难准确快速地从WWW上获取所需的信息.如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题,也正是该文研究的核心内容.该文的主要贡南和特色有以下几个方面:1.针对Web信息分成的自由文本、结构化文本、半结构化文本,以抽取模式为中心深入研究了其上的几种具有代表性的web信息抽取方法,并对以上各种方法作出比较;2.对HTML文档规范的表式结构信息源,该文提出了利用待抽取属性在文档中位置即页头、页尾标记和左右标记来进行抽取方法.3.对HTML文档更广泛的信息源,该文提出了以HTML标记树为基础,把所要提取的信息在树层次结构中的路径作为信息抽取的

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号