【24h】

Automatic Data Extraction From Template Generated Web Pages

机译:从模板生成的网页中自动提取数据

获取原文
获取原文并翻译 | 示例

摘要

Information Retrieval calls for accurate web page data extraction. To enhance retrieval precision, irrelevant data such as navigational bar and advertisement should be identified and removed prior to indexing. We propose a novel approach that identifies the web page templates and extracts the unstructured data. Our experimental results on several different web sites demonstrate the feasibility of our approach.
机译:信息检索要求准确地提取网页数据。为了提高检索精度,应在索引之前识别并删除不相关的数据(例如导航栏和广告)。我们提出了一种新颖的方法,该方法可以识别网页模板并提取非结构化数据。我们在几个不同网站上的实验结果证明了我们方法的可行性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号