基于网络信息检索的网页文本抽取和处理的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着当今社会的飞速发展，地理环境变化日新月异，传统地理信息测绘方法遇到诸多问题。互联网作为当今最重要的信息载体，拥有实时性强和信息获取价格低廉的优势，为地理信息测绘提供了一条新的渠道。结合网络信息检索技术和自然语言处理方法，能够从海量互联网信息中获取地理信息相关知识，完成地理信息变化更新的快速检索和实时检测，弥补了传统测绘方法的不足。
　　本文对网络信息检索技术进行研究，从主题网络爬虫角度出发，针对现有主题爬虫算法通用性不强的问题，提出了基于链接回溯的主题爬虫算法。该算法针对当前新闻网站的链接结构特点，通过回溯的方法计算出最有可能包含主题相关内容的链接方向，从而大幅提高了主题相关网页的获取效率。同时结合网络文本挖掘和自然语言处理方法，设计了各项网页文本要素和地理信息要素的抽取方法，能够准确地从网页文本中抽取出相关信息。最终，本文实现了基于主题网络爬虫技术的地理信息变化检测原型系统。经过大量系统实验，证明该系统具有良好的可用性，查询结果有较高的查全率和查准率，同时验证了基于链接回溯的主题爬虫相比通用爬虫具有更好的爬取效率。

著录项

作者
余浩;
展开▼
作者单位

南京邮电大学;

展开▼
授予单位南京邮电大学;
学科计算机技术
授予学位硕士
导师姓名吴家皋;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
网络信息检索; 回溯算法; Web挖掘; 自然语言处理;

相似文献

中文文献
外文文献
专利

1. 基于网页结构特征的网页主要文本信息抽取策略 [J] . 火善栋 . 现代计算机（专业版） . 2008,第004期
2. 基于文本行特征的网页正文信息抽取方法研究 [J] . 刘志杰 ,潘洋 . 软件导刊 . 2017,第010期
3. 基于文本行特征的网页正文信息抽取方法研究 [J] . 刘志杰 ,潘洋 . 软件导刊 . 2017,第010期
4. 基于文本标签属性的网页信息抽取方法研究 [J] . 沈娜 . 武汉职业技术学院学报 . 2016,第001期
5. 基于WEB网页文本信息抽取研究与实现 [J] . 刘三星1 . 数据挖掘 . 2015,第004期
6. 从日本域名网站中抽取中文网页——基于自然语言处理 [C] . 魏小比 . 第七届中文信息处理国际会议 . 2007
7. 基于文本密度和页面结构的网页信息抽取技术研究与实现 [A] . 肖悦 . 2015

基于网络信息检索的网页文本抽取和处理的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅