首页> 中文会议>全国Web信息系统及其应用学术会议、全国语义Web与本体论学术研讨会暨全国电子政务技术与应用学术研讨会 >一种基于分块的Web数据实体抽取方法

一种基于分块的Web数据实体抽取方法

页面导航

摘要
著录项
相似文献
相关主题

摘要

文章对于如何从Web页面中抽取数据实体进行了研究,并提出一种新的方法,用于解决单个Web页面中出现多个可能的匹配实体时所产生的准确性问题。对于如何从Web页面中抽取数据实体,大多数已有的解决方法主要依赖于对Web页面的HTML DOM树和tags进行分析,这类方法过于依赖HTML的细节而缺乏对语义的支持,并没有很好地处理多主题对数据提取的准确性所带来的影响.文章中的方法则利用页面显示时的视觉信息将Web页面划分成多个块,然后在块这一层上在传统的文本检索技术上通过使用预定义规则来引入对语义的支持,并在出现多个匹配目标时进行块细分后的再定位,以使结果更加准确.实验表明该方法会取得非常好的准确性。

著录项

来源
《全国Web信息系统及其应用学术会议、全国语义Web与本体论学术研讨会暨全国电子政务技术与应用学术研讨会》|2008年|54-5670|共4页
会议地点西安
作者

展开▼
作者单位

中国计算机学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类计算机网络;
关键词
Web实体抽取; 页面分块; VIPS; 数据实体; 文本编辑距离;

相似文献

中文文献
外文文献
专利

1. 一种基于自动WEB数据抽取生成黄页的方法 [J] . 扬抒 ,陈尚安 ,武刚 . 微计算机信息 . 2010,第033期
2. 一种基于扩展DOM树的Web数据自动抽取方法 [J] . 陈远斌 . 应用科技 . 2009,第008期
3. 一种基于树结构的Web数据自动抽取方法 [J] . 胡东东 ,孟小峰 . 计算机研究与发展 . 2004,第010期
4. 一种基于SVM和AdaBoost的Web实体信息抽取方法 [J] . 孙明 ,陆春生 ,徐秀星 . 计算机应用与软件 . 2013,第004期
5. 一种自动抽取Web数据对象的方法 [J] . 刘桂峰 ,李林 ,崔志明 . 计算机应用与软件 . 2009,第006期
6. 一种基于树结构的Web数据自动抽取方法 [C] . 胡东东 ,孟小峰 . 第二十一届中国数据库学术会议 . 2004
7. 基于领域特征的Web数据实体抽取的研究 [A] . 王生辉 . 2009

一种基于分块的Web数据实体抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅