...
首页> 外文期刊>Knowledge and Data Engineering, IEEE Transactions on >FiVaTech: Page-Level Web Data Extraction from Template Pages
【24h】

FiVaTech: Page-Level Web Data Extraction from Template Pages

机译:FiVaTech:从模板页面提取页面级Web数据

获取原文
获取原文并翻译 | 示例
           

摘要

Web data extraction has been an important part for many Web data analysis applications. In this paper, we formulate the data extraction problem as the decoding process of page generation based on structured data and tree templates. We propose an unsupervised, page-level data extraction approach to deduce the schema and templates for each individual Deep Website, which contains either singleton or multiple data records in one Webpage. FiVaTech applies tree matching, tree alignment, and mining techniques to achieve the challenging task. In experiments, FiVaTech has much higher precision than EXALG and is comparable with other record-level extraction systems like ViPER and MSE. The experiments show an encouraging result for the test pages used in many state-of-the-art Web data extraction works.
机译:Web数据提取已成为许多Web数据分析应用程序的重要组成部分。在本文中,我们将数据提取问题公式化为基于结构化数据和树模板的页面生成的解码过程。我们提出了一种无监督的页面级数据提取方法,以推导每个单独的深度网站的架构和模板,该网站在一个网页中包含单例或多个数据记录。 FiVaTech应用树匹配,树对齐和挖掘技术来完成具有挑战性的任务。在实验中,FiVaTech的精度比EXALG高得多,并且可以与ViPER和MSE等其他记录级提取系统相媲美。实验显示,在许多最新的Web数据提取工作中使用的测试页,结果令人鼓舞。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号