首页> 中文学位 >基于视觉、词法、语义特征的web数据表格检测系统设计与实现
【6h】

基于视觉、词法、语义特征的web数据表格检测系统设计与实现

代理获取

目录

摘要

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 论文研究内容

1.4 全文结构

第二章 表格抽取及人工标注

2.1 数据抓取

2.1.1 网络爬虫简介

2.1.2 Nutch工具介绍

2.1.3 Nutch的使用

2.2 表格抽取

2.2.1 表格抽取模块设计

2.2.2 存储模块设计

2.3 表格标注

2.3.1 数据表格的概念

2.3.2 标注的概念

2.3.3 标注处理

2.4 本章小结

第三章 表格特征抽取及分类

3.1 表格特征的选择

3.1.1 特征选择的由来

3.2 表格特征抽取

3.2.1 Cobra工具的介绍

3.2.2 表格单元格位置定义

3.2.3 数据处理过程

3.3 表格特征的基本信息介绍

3.3.1 视觉特征

3.3.2 词法特征

3.3.3 语义特征

3.4 表格特征

3.4.1 基于统计学的计算方法

3.4.2 欧几里得度量的计算方法

3.4.3 具体的计算方法应用

3.5 表格分类器

3.5.1 贝叶斯

3.5.2 决策树

3.5.3 分类器实验效果

3.6 本章小结

第四章 表格检测系统

4.1 表格检测系统简介

4.2 表格检测系统开发环境

4.3 检测系统演示

第五章 总结与展望

5.1 本文主要工作总结

5.2 展望

参考文献

致谢

声明

展开▼

摘要

随着网络信息资源的不断增长,从海量数据中获取有用信息已成为互联网的一个重要研究课题。作为关系数据的一种简洁而有效的表示手段,表格广泛存在于Web文档中。存储在表格中的数据具有良好的结构,蕴含了重要的价值,对于知识发现、信息检索、数据挖掘等应用能提供很大的帮助。相关研究表明:约52%的HTML文档中存在标签。然而,大部分
标签的使用目的是为了排版和美观,而非存放关系数据。如何检测出存储关系数据的真实数据表格是我们在表格挖掘过程中所面临的第一个难题。
  针对数据表格的检测问题,本文具体进行了如下研究工作。首先是HTML表格的抽取与标注:利用开源工具Nutch爬取网页并抽取出HTML表格,即
..
标签的内容;对于部分HTML表格,使用人工标注将其区分为数据表格和非数据表格。接着,对于每个HTML表格,我们进行视觉、词法、语义三类特征的抽取:视觉特征主要包括表格单元格的大小单元格背景颜色、单元格内容的字体大小及类型等其他信息;词法特征主要是指单元格中内容的具体信息的构成,中文字符、英文字符、阿拉伯数字、特殊字符等信息的是否包含以及它们的占比;语义特征主要是通过Wordnet得到的表格单元格具体内容的特征信息。最后,在人工标注与特征抽取的基础上,利用开源工具WEKA中的分类器算法完成对表格的分类。实验表明,本文所实现的方法能有效识别出数据表格。

著录项

  • 作者

  • 作者单位
  • 授予单位
  • 学科
  • 授予学位
  • 导师姓名
  • 年度 -1
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种
  • 中图分类
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号