首页> 中文学位 >基于Web信息提取的企业竞争情报获取研究
【6h】

基于Web信息提取的企业竞争情报获取研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 论文结构安排

第2章 相关理论基础

2.1 企业竞争情报系统

2.2 企业竞争情报获取

2.3 网页数据处理

2.4 Web信息提取

2.5 本章小结

第3章 基于DOM树和DBSCAN算法的Web信息提取算法

3.1 Web信息提取算法

3.2 Web页面预处理

3.3 构建DOM树及分段文本内容获取

3.4 基于DBSCAN算法的网页内容提取

3.5 实验结果及分析

3.6 本章小结

第4章 基于Web信息提取的企业竞争情报获取

4.1 基于Web信息提取的企业竞争情报获取模型

4.2 网页链接获取

4.3 网页主要内容获取

4.4 企业竞争情报获取

4.5 实验结果及分析

4.6 本章小结

第5章 总结与展望

5.1 本文总结

5.2 研究展望

参考文献

在读期间发表的学术论文及研究成果

致谢

展开▼

摘要

随着互联网的迅速发展和普及,网络已成为人们生活中不可缺少的一部分。网络中存在着各式各样的信息,这些信息以网页为载体,呈现在用户面前。网页中蕴含的丰富信息为企业竞争情报系统提供了新的情报信息来源。本论文的目的就是研究一种通用的企业竞争情报获取方式。在研究现有的Web信息提取技术的基础上,本文提出了基于DOM树和DBSCAN算法的Web信息提取算法,接着研究并构建了基于Web信息提取的企业竞争情报获取模型。
  首先,本论文全面系统的阐述了Web信息提取和企业竞争情报的研究现状,介绍了企业竞争情报系统和企业竞争情报获取的理论基础,并依次介绍了本论文将使用的几种网页数据处理技术,包括网络爬虫技术、Jsoup网页解析技术、DOM和DBSCAN算法。接下来详细介绍了Web信息提取的基本概念、技术分类和评价标准。
  其次,本论文针对互联网中网页结构多样、易变等因素,通过研究网页结构中存在的一般规律,并结合DOM树和DBSCAN聚类算法提出了新的Web信息提取算法。并详细介绍了算法中的几个环节,包括Web页面预处理、构建DOM树及分段文本内容获取、基于 DBSCAN算法的网页内容提取。最后通过实验证明该算法能有效地获取网页中的正文文本信息,不依赖于网页结构,具有较强的通用性。
  最后,针对某一行业内的企业,基于网络爬虫技术、网页解析技术和Web信息提取算法构建企业竞争情报获取模型。该模型首先根据预留的网站网址,通过网络爬虫获取该网址下的所有链接。然后通过网页标题来判断网页是否与行业领域相关,初步筛选网页。对筛选后的网页进行网页主要内容获取,即获取该网页的正文文本信息。再根据预留的企业关注信息,提取网页正文文本中的企业竞争情报信息。最后基于该模型设计并实现了企业竞争情报获取原型系统,通过实验验证基于Web信息提取的企业竞争情报获取模型的正确性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号