首页> 中文学位 >Web数据集成中包装器自适应方法研究
【6h】

Web数据集成中包装器自适应方法研究

代理获取

目录

文摘

英文文摘

第1章 绪论

1.1 研究背景

1.2 研究现状

1.3 研究内容

1.4 论文组织结构

第2章 Web数据抽取相关研究

2.1 引言

2.2 Web数据抽取过程

2.3 半结构化数据

2.3.1 半结构化数据定义

2.3.2 半结构化数据特点

2.4 Web数据抽取

2.4.1 信息抽取的定义

2.4.2 Web数据抽取与Web信息检索

2.4.3 Web数据抽取方法分类

2.5 面临的问题

2.6 小结

第3章 包装器校验

3.1 引言

3.2 研究现状

3.3 包装器校验

3.3.1 问题定义

3.3.2 校验方法

3.4 小结

第4章 包装器自适应方法EDG-VM

4.1 引言

4.2 EDG-VM

4.2.1 确定特征向量

4.2.2 识别数据区域

4.2.3 生成训练样例

4.2.4 包装器重归纳

4.3 实验

4.3.1 评价标准

4.3.2 实验结果及分析

4.4 相关工作

4.5 小结

第5章 总结与展望

5.1 总结

5.2 未来工作展望

参考文献

致谢

攻读学位期间发表的学术论文目录

学位论文评阅及答辩情况表

展开▼

摘要

随着互联网的快速发展,Web上产生了大量与领域相关的信息,这些信息也成了人类获取知识的重要来源。互联网已经成为一个巨大的信息交流平台,大量的信息嵌入在Web页面中。Web页面是一种半结构化的数据,Web数据抽取可以将这种半结构化数据抽取并转化为结构化数据,从而为进一步的知识获取做准备,这一过程通常采用一个称之为包装器的应用程序来实现。包装器的工作依赖于页面的结构信息,然而由于互联网的动态特征,站点可能会经常更新其展现形,导致了Web页面结构发生变化,这一变化最终导致包装器停止工作。
   包装器自适应针对这一问题开展相关的研究。包装器的自适应研究可以分为两个子问题:包装器校验和包装器重归纳。第一个子问题是如何对包装器返回数据进行有效性校验,确保包装器处于正常工作的状态。当站点结构发生变动时,旧的包装器可能无法继续抽取到数据,或者抽取出来的数据是完全错误的,当系统检测出这一情况发生时,对设计者进行提醒,或自动执行包装器修复过程进行修复。包装器重归纳系统对抽取规则进行修复从而使包装器能够在结构变化后的新页面上正常工作。
   本文充分利用Web数据集成系统中已有数据提供的信息,利用其展现出来的数据特征对新抽取的数据记录进行校验,检测包装器是否正常工作。同时结合Web页面自身体现各种特征,对Web数据页面中的属性标签和数据元素进行准确的标记,生成良好的训练样例,辅助生成新的包装器。实验结果表明,该方法有效地提高了包装器的自适应性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号