首页> 中文学位 >基于切片的Web资源爬虫的设计与优化研究
【6h】

基于切片的Web资源爬虫的设计与优化研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景与意义

1.2 主题爬虫相关研究

1.3 研究内容与目标

1.3.1 研究目标

1.3.2 研究内容

1.4 本文内容结构

第二章 网页资源抽取算法概述

2.1 网页分块技术

2.1.1 基于网页标签分布规律的网页分块

2.1.2 基于网页DOM树结构的网页分块

2.1.3 基于视觉特征的页面分块算法

2.2 网页链接抽取算法

2.2.1 基于网页分块的链接抽取算法

2.2.2 基于链接属性的链接抽取算法

2.3 网页链接的相关文本抽取算法

2.4 基于扩展DOM树与页面间联系的链接及链接相关文本抽取算法

第三章 基于扩展DOM树的网页链接抽取

3.1 爬虫抓取对象的选择

3.2 相关链接以及噪音链接的确定

3.3 基于链接的网页分块

3.3.1 网页预处理工具选择

3.3.1 网页预处理

3.3.2 扩展DOM树

3.4 基于链接特点的噪音链接过滤

3.4.1 基于DOM结构的链接分块

3.4.2 基于分块和链接特点的链接过滤

3.5 本章小结

第四章 基于扩展DOM树与网页外部联系的链接相关文本抽取

4.1 基于三个维度的网页链接分析

4.2 链接相关文本分析

4.2.1 过往研究中链接相关文本分析

4.2.2 基于链接类型的链接相关文本分析

4.3 抽取链接相关文本算法

4.4 本章小结

第五章 实验验证

5.1 实验方案设计

5.1.1 Web资源抽取算法流程

5.1.2 实验数据准备

5.1.3 实验方案设计

5.2 噪音过滤算法的结果与分析

5.2.1 实验结果与分析

5.2.2 待改进之处

5.3 链接相关文本抽取算法的结果与分析

5.3.1 实验结果与分析

5.3.2 待改进之处

5.4 本章小结

第六章 总结与展望

6.1 研究工作总结

6.2 研究展望

参考文献

致谢

展开▼

摘要

在手机等移动设备越来越普遍的现在,移动学习在渐渐成为我们学习的重要方法之一。移动学习资源的质量以及数量是至关重要的,在丰富的互联网大背景之下,我们可以借助于网络爬虫从网络中抓取丰富的学习资源,对之加以改造,可以加工成适合于移动学习的学习资源。由于移动学习时间的片段性和即时性、地点的不确定性、等特点,在使用网络爬虫从网络中抓取资源的时候,要尽可能多的抓取图片、视频、音频、Flash等多媒体资源,同时也要保证资源跟学习主题的相关性。在我们已有的基础教育平台中的网络爬虫可以实现基本的数据的抓取,要实现针对于移动学习资源的抓取还需要对爬虫进行进一步改造。本文中主要对爬虫进行了以下的改进:
  1.对移动学习所需资源进行分析,确定了在爬虫中需要采集的资源类型以及这些资源在网页中的表现形式;
  2.对标准的网页DOM树结构进行扩展,并根据链接在网页中语义上聚集成块的特点,对网页中的链接在扩展的DOM树的基础之上进行分块,并根据噪音链接的特点对其进行过滤,并抽取相关的链接;
  3.对网页中经过上述过滤后的相关链接从源码表现、页面表现、指向内容类型三个维度对链接进行分类,将链接分为普通链接和多媒体链接两大类,并根据这两大类链接的不同特点分析其相关文本所处的位置,设计不同的策略从链接所处页面内部扩展DOM树结构以及页面和其他页面之间的相关链接关系两方面抽取链接的相关文本。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号