首页> 中文期刊> 《移动信息》 >火车浏览器在抓取网页数据中的研究思考

火车浏览器在抓取网页数据中的研究思考

         

摘要

互联网作为第四次工业革命的基石,已经深入到社会各行各业发展中。近几年“互联网+”概念的提出,加速了社会数字化、网络化、智能化转型升级的历史进程。大数据获取和大数据分析就是强有力的支撑之一。数据挖掘获取是数据分析的基础,在每天都会产生庞大的数据海洋中,准确获取所需要的数据信息,需要性能稳定的抓取工具和逻辑功能完善的抓取流程。数据分为结构化数据和非结构化数据,目前常用的火车浏览器是获取非结构化数据的工具之一,是将互联网上的网页信息,放到指定的位置,如数据库或下载到本地,形成一个互联网的镜像备份。本文重点讨论的是非结构化数据,如文本数据、图片数据在火车浏览器使用中的研究和优化的逻辑流程。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号