首页> 中文期刊> 《科技创新导报》 >基于页面集的异步刷新页面爬取技术研究

基于页面集的异步刷新页面爬取技术研究

         

摘要

对于网络爬虫来说,页面都是"静态"的.在实际的HTML页面中,静态的数据很少,并且很多数据通常通过异步刷新的方式填充到页面中.如何在静态页面中捕获异步刷新填充的数据是网络爬虫研究的关键.为了解决异步刷新获取的问题,多个相互关联的HTTP请求被合并,并加以解析.此外,进一步提出了页面集的概念,即对需要抓取的数据进行归类,将同一被抓取的链接中所有的请求链接归在同一个集合中进行处理,使得数据的层次更清晰.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号