深网数据爬取关键技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的不断发展和更新，互联网已经和人们生活的方方面面密不可分。如何在广袤的互联网信息海洋中，发现并挖掘出感兴趣的数据资源，已经逐渐从技术研究开始向普通用户信息检索过度。总的来说，可以将互联网中的信息资源按照获取的难易程度，划分为浅网(Surface Web)和深网(Deep Web)。浅网数据大多以URL链接的形式嵌套在网页中，所以能够通过传统的搜索引擎检索获取。而深网数据却不能通过直接索引获取，它们大多存在于网站后台数据库中，需要通过找到深网查询接口，并模拟提交查询，才能够获取得到。目前已知的深网数据规模是浅网数据的数百倍，而且仍在快速增长。所以，如何有效利用深网数据，是获取互联网信息资源的重要途径。本文在此背景下，着重研究了深网数据挖掘的数据源查询接口问题，包括深网查询接口的发现和查询接口模式提取两方面的内容。本文主要有以下几个方面的创新： (1)提出了一种深网查询接口发现问题的改进方法。首先，研究了深网查询接口的定位问题，创新性的提出了一种基于网页设计的视觉信息，进行网页交互接口定位的方法。该定位方法主要利用了网页数据的布局和样式特征，对网页数据进行区域分块，并通过制定相应的处理规则，最终实现网页交互接口的定位。该定位方法规避了以往依赖

标签进行接口定位的局限性。接着，针对深网查询接口识别问题，提出了一种组合接口结构特征和文本特征的改进方法，改进了单方面依赖结构特征进行分类，而导致分类准确率不高或适应性不强的问题。在实验测试中，网页交互接口定位方法达到了很高的定位正确性，而改进的接口分类特征集则达到了较高的分类效果。 (2)提出了一种三阶段深网查询接口模式抽取框架。将查询接口模式抽取问题分为三个阶段：查询接口元素树构建，标签匹配和元信息提取。基于此框架，首先提出了一种基于递归层次聚类的查询接口元素树构建改进方法，方法综合利用了HTML 标签的潜在信息和接口元素之间的空间布局特征，改进了单方面利用空间布局特征，导致方法适应性不强的缺点。经实验验证，改进方法比原方法具有更强的适应性，也具有更好的实验测试效果。接着针对元素树节点标签匹配问题，提出了一种基于启发式规则的标签匹配方法，总结并扩展了七条启发式规则，以指导标签匹配。经实验验证，提出的基于规则的标签匹配方法具有很高的匹配准确度。

著录项

作者
章俊;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科信息与通信工程
授予学位硕士
导师姓名费高雷;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
数据;

相似文献

中文文献
外文文献
专利

1. 基于Top-k查询约束的深网增量爬取 [J] . 江俊彦 ,彭智勇 ,吴小莹 . 模式识别与人工智能 . 2017,第001期
2. 一种基于深网的个性化信息爬取方法 [J] . 谭涛 ,谭乐婷 ,张刚园 . 电脑知识与技术 . 2016,第002期
3. 基于Python的拉勾网数据爬取与分析 [J] . 贾宗星 ,冯倩 . 计算机时代 . 2022,第2期
4. 基于Scrapy的大数据学情分析系统就业岗位数据爬取 [J] . 汪邦博 ,胡必波 ,李满 . 电脑编程技巧与维护 . 2021,第011期
5. 基于Selenium框架的大数据岗位数据爬取与分析 [J] . 高艳 . 工业控制计算机 . 2020,第002期
6. 基于Hadoop平台的科技情报数据爬取系统研究 [C] . 李时玉 ,孟莹 ,孙沫卿 . “科技情报助力全国科技创新中心建设”2017年度论坛 . 2017
7. 深度网络信息爬取关键技术研究与实现 [A] . 冯明远 . 2010

深网数据爬取关键技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅