基于切片的Web资源爬虫的设计与优化研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在手机等移动设备越来越普遍的现在，移动学习在渐渐成为我们学习的重要方法之一。移动学习资源的质量以及数量是至关重要的，在丰富的互联网大背景之下，我们可以借助于网络爬虫从网络中抓取丰富的学习资源，对之加以改造，可以加工成适合于移动学习的学习资源。由于移动学习时间的片段性和即时性、地点的不确定性、等特点，在使用网络爬虫从网络中抓取资源的时候，要尽可能多的抓取图片、视频、音频、Flash等多媒体资源，同时也要保证资源跟学习主题的相关性。在我们已有的基础教育平台中的网络爬虫可以实现基本的数据的抓取，要实现针对于移动学习资源的抓取还需要对爬虫进行进一步改造。本文中主要对爬虫进行了以下的改进:
　　1.对移动学习所需资源进行分析，确定了在爬虫中需要采集的资源类型以及这些资源在网页中的表现形式;
　　2.对标准的网页DOM树结构进行扩展，并根据链接在网页中语义上聚集成块的特点，对网页中的链接在扩展的DOM树的基础之上进行分块，并根据噪音链接的特点对其进行过滤，并抽取相关的链接;
　　3.对网页中经过上述过滤后的相关链接从源码表现、页面表现、指向内容类型三个维度对链接进行分类，将链接分为普通链接和多媒体链接两大类，并根据这两大类链接的不同特点分析其相关文本所处的位置，设计不同的策略从链接所处页面内部扩展DOM树结构以及页面和其他页面之间的相关链接关系两方面抽取链接的相关文本。

著录项

作者
李亚菲;
展开▼
作者单位

南京师范大学;

展开▼
授予单位南京师范大学;
学科教育学；教育技术学
授予学位硕士
导师姓名徐朝军;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机化教学;
关键词
移动学习资源; 网络爬虫; 优化设计; 内容切片;

相似文献

中文文献
外文文献
专利

1. 基于Web爬虫的学习资源采集系统设计与实现 [J] . 刘长琦 . 辽宁师专学报（自然科学版） . 2019,第004期
2. 基于JavaScript切片的AJAX框架网络爬虫技术研究 [J] . 曾伟辉 ,李淼 . 计算机系统应用 . 2009,第007期
3. 基于Scrapy技术的分布式爬虫的设计与优化 [J] . 刘泽华 ,赵文琦 ,张楠 . 信息技术与信息化 . 2018,第002期
4. 基于 MD5去重树的网络爬虫的设计与优化 [J] . 严磊 ,丁宾 ,姚志敏 . 计算机应用与软件 . 2015,第002期
5. 基于Python网络爬虫的学校Web站群不良信息外链检测方法研究 [J] . 曹清清 ,刘艳 ,马萌 . 科技资讯 . 2021,第013期
6. 基于分布式网络爬虫的Web空间数据获取方法研究 [C] . 曾李阳 ,齐华 ,任春雷 . 2016中国地理信息科学理论与方法学术年会 . -1
7. Web教育资源内容切片研究 [A] . 宁馨瑞 . 2015

基于切片的Web资源爬虫的设计与优化研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅