首页> 中文学位 >深网数据爬取关键技术研究
【6h】

深网数据爬取关键技术研究

代理获取

目录

第一个书签之前

展开▼

摘要

随着互联网技术的不断发展和更新,互联网已经和人们生活的方方面面密不可分。如何在广袤的互联网信息海洋中,发现并挖掘出感兴趣的数据资源,已经逐渐从技术研究开始向普通用户信息检索过度。总的来说,可以将互联网中的信息资源按照获取的难易程度,划分为浅网(Surface Web)和深网(Deep Web)。浅网数据大多以URL链接的形式嵌套在网页中,所以能够通过传统的搜索引擎检索获取。而深网数据却不能通过直接索引获取,它们大多存在于网站后台数据库中,需要通过找到深网查询接口,并模拟提交查询,才能够获取得到。目前已知的深网数据规模是浅网数据的数百倍,而且仍在快速增长。所以,如何有效利用深网数据,是获取互联网信息资源的重要途径。本文在此背景下,着重研究了深网数据挖掘的数据源查询接口问题,包括深网查询接口的发现和查询接口模式提取两方面的内容。本文主要有以下几个方面的创新: (1)提出了一种深网查询接口发现问题的改进方法。首先,研究了深网查询接口的定位问题,创新性的提出了一种基于网页设计的视觉信息,进行网页交互接口定位的方法。该定位方法主要利用了网页数据的布局和样式特征,对网页数据进行区域分块,并通过制定相应的处理规则,最终实现网页交互接口的定位。该定位方法规避了以往依赖
标签进行接口定位的局限性。接着,针对深网查询接口识别问题,提出了一种组合接口结构特征和文本特征的改进方法,改进了单方面依赖结构特征进行分类,而导致分类准确率不高或适应性不强的问题。在实验测试中,网页交互接口定位方法达到了很高的定位正确性,而改进的接口分类特征集则达到了较高的分类效果。 (2)提出了一种三阶段深网查询接口模式抽取框架。将查询接口模式抽取问题分为三个阶段:查询接口元素树构建,标签匹配和元信息提取。基于此框架,首先提出了一种基于递归层次聚类的查询接口元素树构建改进方法,方法综合利用了HTML 标签的潜在信息和接口元素之间的空间布局特征,改进了单方面利用空间布局特征,导致方法适应性不强的缺点。经实验验证,改进方法比原方法具有更强的适应性,也具有更好的实验测试效果。接着针对元素树节点标签匹配问题,提出了一种基于启发式规则的标签匹配方法,总结并扩展了七条启发式规则,以指导标签匹配。经实验验证,提出的基于规则的标签匹配方法具有很高的匹配准确度。

著录项

  • 作者

    章俊;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 信息与通信工程
  • 授予学位 硕士
  • 导师姓名 费高雷;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    数据;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号