声明
摘要
第一章 绪论
1.1 研究背景与意义
1.2 主题爬虫相关研究
1.3 研究内容与目标
1.3.1 研究目标
1.3.2 研究内容
1.4 本文内容结构
第二章 网页资源抽取算法概述
2.1 网页分块技术
2.1.1 基于网页标签分布规律的网页分块
2.1.2 基于网页DOM树结构的网页分块
2.1.3 基于视觉特征的页面分块算法
2.2 网页链接抽取算法
2.2.1 基于网页分块的链接抽取算法
2.2.2 基于链接属性的链接抽取算法
2.3 网页链接的相关文本抽取算法
2.4 基于扩展DOM树与页面间联系的链接及链接相关文本抽取算法
第三章 基于扩展DOM树的网页链接抽取
3.1 爬虫抓取对象的选择
3.2 相关链接以及噪音链接的确定
3.3 基于链接的网页分块
3.3.1 网页预处理工具选择
3.3.1 网页预处理
3.3.2 扩展DOM树
3.4 基于链接特点的噪音链接过滤
3.4.1 基于DOM结构的链接分块
3.4.2 基于分块和链接特点的链接过滤
3.5 本章小结
第四章 基于扩展DOM树与网页外部联系的链接相关文本抽取
4.1 基于三个维度的网页链接分析
4.2 链接相关文本分析
4.2.1 过往研究中链接相关文本分析
4.2.2 基于链接类型的链接相关文本分析
4.3 抽取链接相关文本算法
4.4 本章小结
第五章 实验验证
5.1 实验方案设计
5.1.1 Web资源抽取算法流程
5.1.2 实验数据准备
5.1.3 实验方案设计
5.2 噪音过滤算法的结果与分析
5.2.1 实验结果与分析
5.2.2 待改进之处
5.3 链接相关文本抽取算法的结果与分析
5.3.1 实验结果与分析
5.3.2 待改进之处
5.4 本章小结
第六章 总结与展望
6.1 研究工作总结
6.2 研究展望
参考文献
致谢