基于视觉、词法、语义特征的web数据表格检测系统设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络信息资源的不断增长，从海量数据中获取有用信息已成为互联网的一个重要研究课题。作为关系数据的一种简洁而有效的表示手段，表格广泛存在于Web文档中。存储在表格中的数据具有良好的结构，蕴含了重要的价值，对于知识发现、信息检索、数据挖掘等应用能提供很大的帮助。相关研究表明:约52％的HTML文档中存在标签。然而，大部分

标签的使用目的是为了排版和美观，而非存放关系数据。如何检测出存储关系数据的真实数据表格是我们在表格挖掘过程中所面临的第一个难题。
　　针对数据表格的检测问题，本文具体进行了如下研究工作。首先是HTML表格的抽取与标注:利用开源工具Nutch爬取网页并抽取出HTML表格，即

标签的内容;对于部分HTML表格，使用人工标注将其区分为数据表格和非数据表格。接着，对于每个HTML表格，我们进行视觉、词法、语义三类特征的抽取:视觉特征主要包括表格单元格的大小单元格背景颜色、单元格内容的字体大小及类型等其他信息;词法特征主要是指单元格中内容的具体信息的构成，中文字符、英文字符、阿拉伯数字、特殊字符等信息的是否包含以及它们的占比;语义特征主要是通过Wordnet得到的表格单元格具体内容的特征信息。最后，在人工标注与特征抽取的基础上，利用开源工具WEKA中的分类器算法完成对表格的分类。实验表明，本文所实现的方法能有效识别出数据表格。

著录项

作者

展开▼
作者单位

展开▼
授予单位
学科
授予学位
导师姓名
年度 -1
页码
总页数
原文格式 PDF
正文语种
中图分类
关键词

相似文献

中文文献
外文文献
专利

1. 基于WebCamera的路面标线用玻璃珠成圆率视觉检测系统 [J] . 段明磊 ,肖强 ,杨金铨 . 传感器与微系统 . 2011,第010期
2. 一个基于Web的入侵检测系统设计与实现 [J] . 于顺治 ,王春露 ,薛一波 . 计算机工程与设计 . 2006,第021期
3. 基于行为关联的Web自适应入侵检测系统设计与实现 [J] . 赵东平 ,郑卫斌 ,张德运 . 大连理工大学学报 . 2005,第0z1期
4. 基于WEB资源监视的入侵检测系统设计与实现 [J] . 朱树人 ,李伟琴 . 计算机工程与应用 . 2003,第007期
5. 基于机器视觉的芯片引脚缺陷检测系统设计与实现 [J] . 杨利 ,陈柳松 ,谢永超 . 计算机测量与控制 . 2021,第007期
6. 基于行为关联的Web自适应入侵检测系统设计与实现 [C] . 赵东平 ,郑卫斌 ,张德运 . 中国教育和科研计算机网CERNET第十二届学术年会 . 2005
7. 基于机器视觉的汽车零部件字符检测系统设计与实现 [A] . 袁纵青 . 2020

基于视觉、词法、语义特征的web数据表格检测系统设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅