摘要
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 论文研究内容
1.4 全文结构
第二章 表格抽取及人工标注
2.1 数据抓取
2.1.1 网络爬虫简介
2.1.2 Nutch工具介绍
2.1.3 Nutch的使用
2.2 表格抽取
2.2.1 表格抽取模块设计
2.2.2 存储模块设计
2.3 表格标注
2.3.1 数据表格的概念
2.3.2 标注的概念
2.3.3 标注处理
2.4 本章小结
第三章 表格特征抽取及分类
3.1 表格特征的选择
3.1.1 特征选择的由来
3.2 表格特征抽取
3.2.1 Cobra工具的介绍
3.2.2 表格单元格位置定义
3.2.3 数据处理过程
3.3 表格特征的基本信息介绍
3.3.1 视觉特征
3.3.2 词法特征
3.3.3 语义特征
3.4 表格特征
3.4.1 基于统计学的计算方法
3.4.2 欧几里得度量的计算方法
3.4.3 具体的计算方法应用
3.5 表格分类器
3.5.1 贝叶斯
3.5.2 决策树
3.5.3 分类器实验效果
3.6 本章小结
第四章 表格检测系统
4.1 表格检测系统简介
4.2 表格检测系统开发环境
4.3 检测系统演示
第五章 总结与展望
5.1 本文主要工作总结
5.2 展望
参考文献
致谢
声明