首页> 外国专利> BUILDING OF A WEB CORPUS WITH THE HELP OF A REFERENCE WEB CRAWL

BUILDING OF A WEB CORPUS WITH THE HELP OF A REFERENCE WEB CRAWL

机译:建立具有参考网络草稿的网络公司

摘要

PURPOSE: A construction of web corpus by the help of a reference web crawl is provided to prevent the delay of a resource extraction by using downloaded resources usable at the web crawl instead of an index program to download resources in a web. CONSTITUTION: A web crawler (WC) transmits a query to a reference web crawl agent (RWCA) and the query includes the identifier of a resource. The web crawler receives a response from the web crawl agent. If the response does not include a resource identified by the identifier, the web crawler downloads the resource from a web site corresponding to the identifier for adding the resource to a web corpus (WCD). If the response includes the resource identified by the identifier, the resource is added to the web corpus.
机译:目的:通过参考网络爬网的帮助,提供了一种网络语料库的构造,以通过使用可在网络爬网中使用的已下载资源而不是使用索引程序来下载网络中的资源来防止资源提取的延迟。组成:Web爬网程序(WC)将查询发送到参考Web爬网代理(RWCA),并且该查询包含资源的标识符。 Web爬网程序从Web爬网代理接收响应。如果响应不包括由标识符标识的资源,则Web爬网程序从与标识符相对应的网站下载资源,以将资源添加到Web语料库(WCD)。如果响应中包含标识符标识的资源,则将该资源添加到Web语料库。

著录项

  • 公开/公告号KR20130116032A

    专利类型

  • 公开/公告日2013-10-22

    原文格式PDF

  • 申请/专利权人 EXALEAD;

    申请/专利号KR20130040143

  • 申请日2013-04-11

  • 分类号G06F17;

  • 国家 KR

  • 入库时间 2022-08-21 16:26:05

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号