【24h】

Crawling the Hidden Web

机译:搜寻隐藏的网页

获取原文
获取原文并翻译 | 示例

摘要

Current-day crawlers retrieve content only from the publicly indexable Web, i.e., the set of Web pages reachable purely by following hypertext links, ignoring search forms and pages that require authorization or prior registration. In particular, they ignore the tremendous amount of high quality content "hidden" behind search forms, in large searchable electronic databases. In this paper, we address the problem of designing a crawler capable of extracting content from this hidden Web. We introduce a generic operational model of a hidden Web crawler and describe how this model is realized in HiWE (Hidden Web Exposer), a prototype crawler built at Stanford. We introduce a new Layout-based Information Extraction Technique (LITE) and demonstrate its use in automatically extracting semantic information from search forms and response pages. We also present results from experiments conducted to test and validate our techniques.
机译:当前的搜寻器仅从可公开索引的Web(即仅通过跟踪超文本链接即可访问的一组Web页面)中检索内容,而忽略需要授权或事先注册的搜索表单和页面。尤其是,他们忽略了可搜索的大型电子数据库中隐藏在搜索表单后面的大量高质量内容。在本文中,我们解决了设计爬虫的问题,该爬虫能够从此隐藏的Web中提取内容。我们介绍了隐藏Web爬虫的通用操作模型,并描述了如何在斯坦福大学开发的原型爬虫HiWE(隐藏Web Exposer)中实现该模型。我们引入了一种新的基于布局的信息提取技术(LITE),并演示了其在从搜索表单和响应页面自动提取语义信息中的用途。我们还介绍了为测试和验证我们的技术而进行的实验的结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号