首页> 中文学位 >基于网络信息检索的网页文本抽取和处理的研究
【6h】

基于网络信息检索的网页文本抽取和处理的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景

1.2国内外研究现状

1.3研究目标和内容

1.4论文来源和主要贡献

1.5论文结构

第二章 网络信息检索及其文本处理方法概述

2.1网络信息检索方法概述

2.2 Google Custom Search 研究

2.3网络文本处理方法概述

2.4本章小结

第三章 基于链接回溯的地理信息更新主题网络爬虫的研究

3.1引言

3.2链接回溯思想概述

3.3基于SVM分类的加权爬取算法

3.4基于知识库判别的爬取算法

3.5本章小结

第四章 网络文本获取和地理信息要素抽取

4.1网页结构特点及正则表达式介绍

4.2网络文本要素获取

4.3地理信息变化要素抽取

4.4本章小结

第五章 地理信息变化检测原型系统的设计与实现

5.1系统架构

5.2系统主要功能

5.3系统性能测试

5.4本章小结

第六章 总结和展望

6.1总结

6.2展望

参考文献

附录1 攻读硕士学位期间撰写的论文

附录2 攻读硕士学位期间申请的专利

附录3 攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

随着当今社会的飞速发展,地理环境变化日新月异,传统地理信息测绘方法遇到诸多问题。互联网作为当今最重要的信息载体,拥有实时性强和信息获取价格低廉的优势,为地理信息测绘提供了一条新的渠道。结合网络信息检索技术和自然语言处理方法,能够从海量互联网信息中获取地理信息相关知识,完成地理信息变化更新的快速检索和实时检测,弥补了传统测绘方法的不足。
  本文对网络信息检索技术进行研究,从主题网络爬虫角度出发,针对现有主题爬虫算法通用性不强的问题,提出了基于链接回溯的主题爬虫算法。该算法针对当前新闻网站的链接结构特点,通过回溯的方法计算出最有可能包含主题相关内容的链接方向,从而大幅提高了主题相关网页的获取效率。同时结合网络文本挖掘和自然语言处理方法,设计了各项网页文本要素和地理信息要素的抽取方法,能够准确地从网页文本中抽取出相关信息。最终,本文实现了基于主题网络爬虫技术的地理信息变化检测原型系统。经过大量系统实验,证明该系统具有良好的可用性,查询结果有较高的查全率和查准率,同时验证了基于链接回溯的主题爬虫相比通用爬虫具有更好的爬取效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号